Дипломная работа на тему "ТЮМГУ | Разработка информационной системы экспертного анализа сообщений в социальных сетях [ID 18540]"

Эта работа представлена в следующих категориях:

Информационные системы ТЮМГУ-Тюменский государственный университет Год сдачи: 2022

Работа на тему: Разработка информационной системы экспертного анализа сообщений в социальных сетях
Оценка: отлично.
Оригинальность работы на момент публикации 50+% на антиплагиат.ру.
Ниже прилагаю все данные для покупки.
https://studentu24.ru/list/suppliers/Anastasiya1---1326

Демо работы

Описание работы

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное учреждение высшего образования
«ТЮМЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»

ИНСТИТУТ МАТЕМАТИКИ И КОМПЬЮТЕРНЫХ НАУК
Кафедра информационных систем
РЕКОМЕНДОВАНО К ЗАЩИТЕ В ГЭК

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
бакалаврская работа
РАЗРАБОТКА ИНФОРМАЦИОННОЙ СИСТЕМЫ ЭКСПЕРТНОГО АНАЛИЗА СООБЩЕНИЙ В СОЦИАЛЬНЫХ СЕТЯХ

09.03.02 Информационные системы и технологии Профиль «Информационные системы и технологии в бизнесе»

Тюмень 2022

РЕФЕРАТ
Дипломная работа на тему: «Разработка информационной системы экспертного анализа сообщений в социальных сетях».
Авторы: Долгушин Михаил Дмитриевич, Исмакова Даяна Кайроллаевна, студенты группы ИСиТ-189 4 курса направления Информационные системы и технологий.
Выпускная квалификационная работа содержит: 100 страниц, 29 рисунков, 33 таблицы, 76 источников.
Ключевые слова: информационная система экспертной оценки, обработка естественного языка, методы искусственного интеллекта, распределенное Web-приложение, программное оценивание наборов данных.
Цель данной работы – создать информационную систему экспертного анализа сообщений в социальных сетях.
Задача создания наборов данных по сообщениям из социальных сетей является актуальной в силу отсутствия всестороннего анализа таких явлений в социальных сетях, как токсичность, сексизм и иные.
Заинтересованными в разработке данной системы лицами являются: исследователи лингвисты и специалисты по машинному обучению.
Результатом работы является реализованный прототип информационной системы поддержки экспертной оценки сообщений из социальной сети, включающий Front-end и Back-end модули, базу данных, модуль классификации сообщений с помощью Word2Vec и CatBoost.
Проведен эксперимент по анализу актуального набора данных по сообщениям из социальных сетей. Эксперимент показал, что с помощью разработанной системы возможно создание корректных наборов данных из социальных сетей. Точность классификации меток сообщений составляет 75.2% до 97.7% по метрике F1 в зависимости от метки.

СОДЕРЖАНИЕ
ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ 4
ВВЕДЕНИЕ 7
1. ОПИСАНИЕ ПРЕДМЕТНОЙ ОБЛАСТИ АНАЛИЗА ДАННЫХ В СОЦИАЛЬНЫХ СЕТЯХ 9
1.1 Цель и задачи 9
1.2 Описание предметной области и постановка задачи классификации 9
1.3 Обзор публикаций и рынка цифровых технологий 12
2. ИНФОРМАЦИОННОЕ МОДЕЛИРОВАНИЕ ИС ЭКСПЕРТНОГО АНАЛИЗА СООБЩЕНИЙ В СОЦИАЛЬНЫХ СЕТЯХ 18
2.1 Модель предметной области и прецеденты 18
2.2 Диаграмма классов ИС 32
2.3 Бизнес–процессы пользователя ИС 38
2.4 Логическая модель БД 43
2.5 Проектирование классификаторов сообщений 51
3. РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ КЛАССИФИКАТОРА СООБЩЕНИЙ СОЦСЕТИ 56
3.1 Инструментарий разработки ИС анализа сообщений в социальных сетях 56
3.2. Реализация информационной системы анализа сообщений в социальных сетях 58
3.3. Описание эксперимента анализа актуального набора данных 84
ЗАКЛЮЧЕНИЕ 89
ИСТОЧНИКИ 90

ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ
В настоящей выпускной квалификационной работе применяют следующие термины.
Взаимная достоверность: характеристика способности двух или более специалистов, выполняющих измерения одним и тем же методом, получать одинаковые результаты в одинаковых задачах [1].
Градиентный бустинг: ансамбль деревьев решений. В его основе лежит итеративное обучение деревьев решений с целью минимизации функции потерь.
Задача классификации: задача, в которой имеется множество объектов, разделенных на классы [2]. Задано конечное множество объектов с известными классами (Выборка). Классы остальных объектов неизвестны. Необходим алгоритм, классифицирующий произвольный объект из исходного множества.
Задача многоклассовой классификации: задача классификации данных на более двух классов [2].
Изображение: вид сообщения в социальной сети, которое может содержать текст и визуальный образ какого-то объекта [3].
Сообщения в социальных сетях: визуальные и текстовые данные, созданные пользователями социальной сети.
Качество данных: оценка того, насколько данные соответствуют требованиям в контексте эксперимента.
Классифицировать объект: значит, определить метки класса, к которому относится данный объект [2].
Классификация текстов: заключается в отнесении документа к одному из классов на основе контекста [4].
Комментарий: вид сообщения в социальной сети, содержащий реакцию на пост или другой комментарий. Комментарий содержит текст длиной до 16834, в среднем - 86.21 символов [5, 6] и одно или два изображений.

Набор данных (датасет, выборка): множество элементов данных, объединенных в отдельное целое для решения определенной задачи. Чаще всего набор данных представляется в виде файла, сообщения либо блока данных [7].
Оценивание при помощи программирования данных: заключается в написании программных скриптов, размечающих данные по определенному правилу [8].
Оценка при помощи краудсорсинга (краудсорсинг): коллективный процесс решения задачи оценивания множеством участников [9].
Пост: вид сообщения в социальной сети, содержащий длинный текст до 16834, в среднем – 1600 символов [5] и одно или несколько изображений.
Токсичность сообщения: мера некомфортности от общения в медиа [10].
Экспертная оценка (разметка внутри компании, аутсорсинг): процедура опроса экспертов при решении задач оценивания [11].
Эмоциональный окрас: характеристика, определяющая является ли данный текст сообщения положительным, отрицательным или нейтральным по своему влиянию на кого-то, что-то [12].
Accuracy: доля правильных ответов к количеству всех ответов [13].
Data Transfer Object (DTO): объект, используемый для передачи данных между подсистемами системы, один из шаблонов проектирования.
Decision Tree: дерево решений – одно из средств поддержки принятия решений [11]. Структура дерева – «листья» и «ветки» – ребра. На рёбрах дерева решения записаны признаки, от которых зависит целевая функция, в
«листьях» записаны значения целевой функции, а в остальных узлах — признаки, по которым различаются случаи. Чтобы классифицировать новый случай, необходимо спуститься по дереву до листа и выдать соответствующее значение.
F1: совместная оценка precision и recall [13].
Model-View-Controller (MVC): Модель-Вид-Контроллер – схема разделения данных приложения и управляющей логики на 3 отдельных
компонента: модель, представляющую данные, реагирующую на команды контроллера; вид, отвечающий за отображение данных пользователю; контроллер, интерпретирующий действия пользователя, оповещая модель о необходимости изменений.
Object-relational mapping (ORM): объектно-реляционное отображение, технология программирования, связывающая базы данных с концепциями объектно-ориентированных языков программирования.
Precision: доля объектов, названных классификатором положительными и при этом действительно являющимися положительными [13]
Recall: доля объектов положительного класса из всех объектов положительного класса, найденных классификатором [13]
Repository: репозиторий – это хранилище коллекции объектов одного типа, один из шаблонов проектирования.
ruBERT: нейросетевая модель-трансформер BERT (Bidirectional Encoder Representations from Transformers), обученная на корпусе русскоязычных текстов с википедии [14].
Word2Vec [15]: инструмент расчета векторных представлений слов, содержащий две нейросетевые архитектуры: Continuous Bag Of Words и Skip– gram. На входе – набор слов, а на выходе – набор векторов слов.

ВВЕДЕНИЕ
Для успешной подготовки и защиты выпускной квалификационной работы автором ВКР использовались средства и методы физической культуры и спорта с целью поддержания должного уровня физической подготовленности, обеспечивающей высокую умственную и физическую работоспособность. В режим рабочего дня включались различные формы организации занятий физической культурой (физкультпаузы, физкультминутки, занятия избранным видом спорта) с целью профилактики утомления, появления хронических заболеваний и нормализации деятельности различных систем организма.
В рамках подготовки к защите выпускной квалификационной работы авторами созданы и поддерживались безопасные условия жизнедеятельности, учитывающие возможность возникновения чрезвычайных ситуаций.
Тема работы – разработка информационной системы экспертного анализа сообщений в социальных сетях.
Со все возрастающим количеством информации в социальных сетях [16], растут проблемы, связанные с оскорбительной средой, токсичными сообщениями [17], в том числе и в таких российских СМИ, как ВКонтакте [18]. На данный момент в сети Интернет присутствует множество [19, 20, 21,
22, 23, 24] наборов данных на русском языке, которые могли бы использоваться для одноклассовой и многоклассовой классификации отдельных характеристик сообщений в социальных сетях, таких как эмоциональный окрас, токсичность, сексизм и иные. Актуального набора данных с множеством размеченных классов токсичности на русском языке [25] не имеется, но есть подобные на английском [26]. Такой набор улучшил бы качество обнаружения оскорбительных сообщений в социальных сетях.
Для создания подобного набора данных часто используются системы разметки данных большим количеством людей, но субъективность отношения многих людей к проблематике токсичных сообщений может значительно повлиять на качество разметки.

В данной работе предлагается создать информационную систему экспертного анализа сообщений в социальных сетях, объединяющую методы автоматической и экспертной оценки.
В первой главе рассматривается предметная область анализа данных в социальных сетях, определяются цели и задачи.
Во второй главе проводится информационное моделирование информационной системы экспертного анализа сообщений в социальных сетях.
В третьей главе описывается реализация информационной системы экспертного анализа сообщений в социальной сети.
Вклад отдельных участников М.Д. Долгушин:
– спроектирован API классификатора сообщений социальной сети;
– спроектирована БД;
– спроектирован модуль BackEnd;
– выбран инструментарий для разработки своей части ИС;
– разработан автоклассификатор сообщений социальной для поддержки анализа сообщений;
– разработан BackEnd модуль;
– проведен эксперимент по разметке актуального набора данных. Д.К. Исмакова:
– спроектирована бизнес-логика приложения;
– спроектировано FrontEnd приложение;
– выбран инструментарий для разработки своей части ИС;
– спроектирована архитектура ИС;
– выбран дизайн FrontEnd модуля;
– разработан FrontEnd модуль;
– произведена интеграция модулей между собой.

ИСТОЧНИКИ
1. ГОСТ Р ИСО 10075-3-2009. Эргономические принципы обеспечения адекватности умственной нагрузки. Часть 3. Принципы и требования к методам измерений и оценке умственной нагрузки. Общие положения : национальный стандарт Российской Федерации : издание официальное : утв. и введ. в действие приказом приказом Федерального агентства по техническому регулированию и метрологии от 7 декабря 2009 г. № 585- ст : введ. впервые : дата введ. 2010-12-01 / разработан АНО «НИЦ КД». Москва : Стандартинформ, 2020.
2. Задача классификации. - Текст : электронный // Википедия : [сайт]. - 2022.
3. Лысенко Е. Н. Интернет–мемы в коммуникации молодежи. / Е. Н. Лысенко.- DOI 10.21638/11701/spbu12.2017.403 - Текст : электронный // Вестник Санкт-Петербургского университета. Социология. - 2017. - 10(4)
4. Классификация текстов и анализ тональности. - Текст : электронный // Университет ИТМО : официальный сайт. - 2022.
5. Ограничения по тексту для социальных сетей. - Текст : электронный // Alltarget.ru : Сайт о маркетинге : [сайт].
6. Dolgushin M. Toxic Comment Classification Service in Social Network / M. Dolgushin, D. Ismakova, Y. Bidulya, I. Krupkin, G. Barskaya, A. Lesiv.- DOI 10.1007/978-3-030-87802-3_15. - Text : electronic // Speech and Computer.
7. Якубайтис Э. А. Гипертекстовый энциклопедический словарь по информатике. / Э. А. Якубайтис - Текст : электронный // MorePC : информационно-справочный центр ВНИИПВТИ : [сайт].
8. Куцев Р. А. Как организовать разметку данных для машинного обучения: методики и инструменты / Р. А. Куцев. – Текст : электронный // habr.com
= Хабр : [сайт].
9. Усталов Д. А. Методы повышения эффективности процесса коллективного построения лексических ресурсов. : [презентация : материалы научного семинара по информационным технологиям НИУ ЮУрГУ, Челябинск, 5 апреля 2016 г.] / Усталов Д. А. - Текст : электронный // Научный семинар по информационным технологиям НИУ ЮУрГУ : электронный журнал.
10. Внимание, опасно: что такое токсичность и почему все о ней говорят. - Текст : электронный // Теории и практики : российское просветительское медиа : [сайт].
11. Глухих И. Н. Теория систем и системный анализ : учебное пособие. — 2–е изд., перераб. и доп. / И. Н. Глухих. — Москва : Проспект, 2017. — 152 с. - Текст : непосредственный.
12. Arreqe. Автоматическое определение тональности текста (Sentiment Analysis). / Arreqe – Текст : электронный // habr.com = Хабр : [сайт].
13. Лабинцев Е. С. Метрики в задачах машинного обучения. / Е. С. Лабинцев. – Текст : электронный // habr.com = Хабр : [сайт].
14. BERT in DeepPavlov. - Text : electronic // DeepPavlov.ai : documentation : [site].
15. Alammar J. Word2vec в картинках. / J. Alammar. – Текст : электронный // habr.com = Хабр : [сайт].
16. Сергеева Ю. Вся статистика интернета и соцсетей на 2021 год — цифры и тренды в мире и в России / URL: Ю. Сергеева. – Текст : электронный
// WebCanape : компания разработки сайтов : [сайт]. 2021.
17. Тимербулатов З. М. Токсичность виртуальной реальности. / З. М. Тимербулатов. - Текст : электронный // Социально-гуманитарные знания.
- 2019. - №10.
18. ВКонтакте для сообществ. - Текст : электронный // Вконтакте : социальная сеть : [сайт].
19. Dolgushin M. Toxic Messages Classification in Social Media. / M. Dolgushin, Y. Bidulya. - DOI 10.1007/978-3-030-89477-1_7. - Text : electronic // Science and Global Challenges of the 21st Century – Science and Technology. Perm Forum 2021. Lecture Notes in Networks and Systems. - 2022. - vol 342.
- P. 60-65.
20. Varudandi S., Toxic Comment Classification using LSTM and LSTM–CNN.
/ S. Varudandi. - Text: electronic
21. Бельчиков А., Russian Language Toxic Comments.
22. Semiletov A. Toxic Russian Comments. / A. Semiletov. – Text : electronic // kaggle.com = kaggle : [site].
23. Soboleva A. Multilingual hate speech detection (with a focus on sexism). / A. Soboleva - Resource: electronic // Github : github repository : [site].
24. Pronoza E. Detecting ethnicity-targeted hate speech in Russian social media texts. / E. Pronoza, P. Panicheva, O. Koltsova, P. Rosso. - DOI 10.1016/J.IPM.2021.102674. - Text : electronic // Information Processing & Management. - 2021. - Volume 58. - Issue 6.
25. Hastie T. The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics). / T. Hastie, R. Tibshirani, J. Friedman. - Text : electronic // Springer. - New York. - 2009.
26. Toxic Comment Classification Challenge Overview. - Text : electronic // kaggle.com = kaggle : [site].
27. Самое полное руководство по анализу социальных медиа. – Текст : электронный // habr.com = Хабр : [сайт].
28. Cecillon N. WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection. / N. Cecillon, V. Labatut, R. Dufour, G. Linares. - Text : electronic.
// 12th International Conference on Language Resources and Evaluation (LREC 2020). - 2020. P. 1375–1383.
29. Сметанин С. И. Определение токсичных комментариев на русском языке. / С. И. Сметанин. - Текст : электронный // habr.com = Хабр : [сайт].
30. Levonevskiy, D. Estimating aggressiveness of russian texts by means of machine learning. / D. Levonevskiy, D. Malov, I. Vatamaniuk. - DOI 10.1007/978-3-030-26061-3_28 - Text – electronic. // Speech and Computer.
- 2019. - vol 11658. - P. 270–279.
31. Chernyaev, A. A rumor detection in Russian tweets. / A. Chernyaev, A. Spryiskov, A. Ivashko, Y. Bidulya. – DOI 10.1007/978-3-030-60276-5_11 - Text – electronic. // SPECOM. - 2020. - vol. 12335 - P. 108–118.
32. Toxic Comment Classification Challenge Data - Text : electronic // kaggle.com = kaggle : [site
33. Russian Language Toxic Comments - Text : electronic // kaggle.com = kaggle : [site].
34. Shekhar R. Automating news comment moderation with limited resources: benchmarking in croatian and estonian. / R. Shekhar, M. Pranjic, S. Pollak [& co]. - Text – electronic. // Journal for Language Technology and Computational Linguistics. - 2020 - vol. 34. - P. 49–79 (date of application 11.12.2020)
35. Долгушин М.Д. Разработка Web–API–классификации токсичных текстов. / М. Д. Долгушин, Д. К. Исмакова, Ю. В. Бидуля, Г. Б. Барская.
- Текст : электронный // Математическое и информационное моделирование [Электронный ресурс]: сб. науч. Тр. - Тюмень : Изд–во Вестник ТюмГУ. - 2021. - Вып. 19. – С. 77–82.
36. Брунова Е. Г., Клиент всегда прав: анализ тональности текста в отзывах о качестве банковского обслуживания / Е. Г. Брунова, Ю. В. Бидуля. - DOI: 10.21684/2411–197X–2017–3–1–72–89 - Текст : электронный // Гуманитарные исследования. Humanitates. - Тюмень: Изд–во ТюмГУ. - 2017. - Том 3. № 1. - С. 72–89.
37. Rgen3. Скрытые Марковские модели в распознавании речи. / Rgen3. – Текст : электронный // habr.com = Хабр : [сайт].
38. Долгушин М. Д. Модерация комментариев в социальных сетях, Математическое и информационное моделирование / М. Д. Долгушин, Д. К. Исмакова, И. А. Крупкин [и др.]. - Текст : электронный. - // Математическое и информационное моделирование [Электронный ресурс]: сб. науч. тр. - Вып. 19. - Тюмень: Изд–во ТюмГУ. - 2021.
39. Выявление и классификация токсичных комментариев. Лекция в Яндексе / Текст : электронный // habr.com = Хабр : [сайт].
40. Mestre M. FastText: stepping through the code. / Mestre M. - Текст : электронный // habr.com = Хабр : [сайт].
41. Васильченко А. В. Разработка системы автоматического выявления токсичных комментариев в социальных сетях / А. В. Васильченко - Текст : электронный // Сборник статей II Международной научно- практической конференции «Студенческая наука: актуальные вопросы, достижения и инновации». - Пенза: МЦНС «Наука и Просвещение». - 2021. - С. 35-38.
_GRU/blob/main/README.md (дата обращения: 27.04.2022) 42.Шаповалов Л. Как быстро фильтровать комментарии в соцсетях. /
Шаповалов Л. - Текст : электронный // vc.ru: Площадка для предпринимателей : [сайт].
43. Фильтр нецензурной лексики за 5 минут. - Текст : электронный // habr.com = Хабр : [сайт].
44. Сметанин С.И. Анализ тональности текстов с помощью сверточных нейронных сетей. / Сметанин С.И. - Текст : электронный // habr.com = Хабр : [сайт].
45. Amazon. Amazon Mechanical Turk. - Text : electronic // mturk.com = Amazon Mechanical Turk: [site].
46. Яндекс. Яндекс.Толока. - Text : electronic // toloka.yandex.ru = Яндекс Толока: [сайт].
48. Beorg. Beorg Smart Vision. - Text : electronic // beorg.ru = Beorg Smart Vision : [site].
49. Ларман К. Применение UML и шаблонов проектирование. 2–е издание. : Пер. с англ. / К. Ларман. - Текст : электронный // Москва : Издательский дом “Вильямс”, 2004. – 624 с. : ил.
50. Entity–relationship model, Crow’s Foot Notation. - Text : electronic // uregina.ca = site of University of Regina : [site].
51. Корюкин А. В. Исследование влияния стемминга и лемматизации на качество бинарной классификации по тональности кратких текстовых комментариев / А. В. Корюкин - Текст : электронный // Актуальные исследования. - 2021. - №18 (45). - С. 10–13.
52. CatBoost is a high-performance open source library for gradient boosting on decision trees. - Text : electronic // catboost.ai = Open source library for gradient boosting on decision trees : [site].
53. Sentiment analysis library for russian language. - Text : electronic // pypi.org
= Python package index : [site].
54. Team KAFK. Classification Models For Task A and B. / Team KAFK. - Text : electronic // kaggle.com = kaggle: [site].
55. Willliam S. Memotion Dataset 7k, Dataset for sentiment classification of memes. / S. Willliam. - Text : electronic // kaggle.com = kaggle : [site].
56. OCR Space. - Text : electronic // ocr.space = OCRSpace: [site].
57. Natural Language Toolkit documentation. - Text : electronic // nltk.org = NLTK: [site].
pymorphy2.readthedocs.io = pymorphy2: [site].
62. PyTorch documentation. - Text : electronic // pytorch.org = PyTorch: [site].
63. Flask documentation. - Text : electronic // flask.palletsprojects.com = Flask: [site]
64. Документация Typescript на русском языке. - Текст: электронный // typescript-lang.ru = Руководство Typescript: [сайт].
65. TypeORM. - Text : electronic // typeorm.io = TypeORM: [site].
66. Документация Node.js. - Текст: электронный // nodejs.org = NodeJS: [сайт].
70. Документация React на русском языке. - Текст: электронный // ru.reactjs.org = Документация React: [сайт].
71. Документация по CSS-фреймворку Tailwind.css на русском языке. - Текст: электронный // tailwindcss.ru = Tailwind CSS: [сайт].
72. Документация по библиотеке React Router. - Текст: электронный // reactrouter.com = React Router: [сайт].
73. Документация по авторизации через Firebase. - Текст: электронный // firebase.google.com = Firebase [сайт].
74. Документация по Create React App. - Текст: электронный // create-react- app.dev = Create React App. [сайт].
75. Newsroom E. Glassmorphism: The UI Design Trend You Need To Know About. / Newsroom E. - Text : electronic
76. Viera A.J. Understanding interobserver agreement: the kappa statistic. / A. J. Viera, J. M. Garrett. - Text : electronic // Fam Med. - 37(5) - 2005 - P. 360-
363.