Дипломная работа на тему "ТЮМГУ | Разработка приложения для кластеризации текстов выпускных квалификационных работ ит-направлений"
0
Работа на тему: Разработка приложения для кластеризации текстов выпускных квалификационных работ ит-направлений
Оценка: хорошо.
Оригинальность работы на момент публикации 50+% на антиплагиат.ру.
Ниже прилагаю все данные для покупки.
https://studentu24.ru/list/suppliers/Anastasiya1---1326
Оценка: хорошо.
Оригинальность работы на момент публикации 50+% на антиплагиат.ру.
Ниже прилагаю все данные для покупки.
https://studentu24.ru/list/suppliers/Anastasiya1---1326
Демо работы
Описание работы
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИФедеральное государственное автономное образовательное учреждение высшего образования
«ТЮМЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» ИНСТИТУТ МАТЕМАТИКИ И КОМПЬЮТЕРНЫХ НАУК
Кафедра программного обеспечения
РЕКОМЕНДОВАНО К ЗАЩИТЕ В ГЭК
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
бакалаврская работа
РАЗРАБОТКА ПРИЛОЖЕНИЯ ДЛЯ КЛАСТЕРИЗАЦИИ ТЕКСТОВ ВЫПУСКНЫХ КВАЛИФИКАЦИОННЫХ РАБОТ ИТ-НАПРАВЛЕНИЙ
02.03.03 Математическое обеспечение и администрирование информационных систем
Профиль «Технологии программирования»
Тюмень 2022 Год
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ 3
ГЛАВА 1. МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА ТЕКСТОВ НА
ЕСТЕСТВЕННОМ ЯЗЫКЕ 5
1.1 ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА 5
1.2 МЕТОДЫ КЛАСТЕРИЗАЦИИ 5
1.3 МЕТОДЫ ВИЗУАЛИЗАЦИИ КЛАСТЕРОВ 12
1.4 БИБЛИОТЕКИ 14
ГЛАВА 2. РАЗРАБОТКА ПРИЛОЖЕНИЯ 17
2.1 ФУНКЦИОНАЛ 17
2.2 АРХИТЕКТУРА 17
2.3 ВХОДНЫЕ ДАННЫЕ 19
2.4 ПРИЗНАКИ ДЛЯ КЛАСТЕРИЗАЦИИ 19
2.5 ТЕХНОЛОГИИ РАЗРАБОТКИ ПО 28
2.6 ОПИСАНИЕ ИНТЕРФЕЙСА 31
ЗАКЛЮЧЕНИЕ 37
СПИСОК ЛИТЕРАТУРЫ 38
ПРИЛОЖЕНИЕ 1.МЕТОД ДЛЯ ПРЕДОБРАБОТКИИ ИЗВЛЕЧЕНИЕ ПРИЗНАКОВ 40
ПРИЛОЖЕНИЕ 2.МЕТОД ДЛЯ ИЗВЛЕЧЕНИЯ ТЕКСТА ИЗ ФАЙЛА 41
ПРИЛОЖЕНИЕ 3.ПОИСК БЛИЖАЙШИХ ЭЛЕМЕНТОВ В КЛАСТЕРЕ 41
ПРИЛОЖЕНИЕ 4.КЛАСТЕРИЗАЦИЯ 42
Введение
В современном мире информация имеет огромную ценность, поэтому важно уметь грамотно ее структурировать, обобщать и представлять для последующего анализа. С каждым годом людей, которые заканчивают университет все больше и больше, соответственно
увеличивается количество выпускных квалификационных работ. Однако, несмотря на широкое использование методов анализа текстов в различных сферах (реклама, маркетинг и др.), в вузах соответствующие методы и технологии используются недостаточно. При этом существует обязательное требование представления текстов ВКР на сайтах вузов и к настоящему времени количество этих документов позволяет проводить их анализ с помощью современных подходов.
Извлечение и структуризация информации из текстов может потребоваться для поиска и сравнения похожих наборов данных, поиска дубликатов, составления списка данных смежной тематики или просто списка рекомендуемых данных. Решением этих проблем как раз и занимается кластерный анализ.
Поэтому была поставлена цель: исследовать особенности кластеризации текстов ВКР на примере ИТ-направлений и разработать приложение для построения и анализа кластеров с учетом различных признаков. Такое приложение может быть полезным и для студентов, и для преподавателей.
Для достижения данной цели поставлены следующие задачи:
1. Изучение методов и технологий анализа текстов.
2. Анализ исходных данных – текстов ВКР IT-направлений.
3. Извлечение и анализ признаков для кластеризации текстов.
4. Разработка приложения для кластеризации текстов ВКР ИТ- направлений по выбранным признакам.
Для успешной подготовки и защиты выпускной квалификационной работы использовались средства и методы физической культуры и спорта с
целью поддержания должного уровня физической подготовленности, обеспечивающую высокую умственную и физической работоспособность. В режим рабочего дня включались различные формы организации занятий физической культурой (физкульт паузы, физкультминутки, занятия избранным видом спорта) с целью профилактики утомления, появления хронических заболеваний и нормализации деятельности различных систем организма.
В рамках подготовки к защите выпускной квалификационной работы автором созданы и поддерживались безопасные условия жизнедеятельности, учитывающие возможность возникновении чрезвычайных ситуаций.
Список литературы
1. Habr: Кластеризация: алгоритмы k-means и c-means: [сайт]
2. Loginom Wiki: Метод главных компонент (Principal component analysis): [сайт]
3. Matplotlib: Visualization with Python : [сайт].
4. Openpyxl 3.0.7 documentation: [сайт].
5. Our Documentation | Python.org: [сайт]
6. Scikit-learn: Machine Learning in Python, Pedregosa et al., JMLR 12, pp. 2825-2830, 2011 год.
7. Steven Bird, Ewan Klein, and Edward Lope «Natural Language Processing with Python»,2009 год.
8. Wikipedia: Стохастическое вложение соседей с t-распределением: [сайт]
9. Даг Хеллман «Стандартная библиотека Python 3» Диалектика, 2019 год, 1375 стр., 2-е издание.
10. Кластеризация:[сайт]
11. Методы векторизации слов:[сайт]
Похожие работы
Другие работы автора
НЕ НАШЛИ, ЧТО ИСКАЛИ? МОЖЕМ ПОМОЧЬ.
СТАТЬ ЗАКАЗЧИКОМ