Дипломная работа на тему "ТЮМГУ | Разработка сервиса для поиска упоминаний экологических практик в постах социальных сетей"

Работа на тему: Разработка сервиса для поиска упоминаний экологических практик в постах социальных сетей
Оценка: хорошо.
Оригинальность работы на момент публикации 50+% на антиплагиат.ру.
Ниже прилагаю все данные для покупки.
https://studentu24.ru/list/suppliers/Anastasiya1---1326

Описание работы

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное учреждение высшего образования
«ТЮМЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
ИНСТИТУТ МАТЕМАТИКИ И КОМПЬЮТЕРНЫХ НАУК
Кафедра программного обеспечения

РЕКОМЕНДОВАНО К ЗАЩИТЕ В ГЭК

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
бакалаврская работа
РАЗРАБОТКА СЕРВИСА ДЛЯ ПОИСКА УПОМИНАНИЙ ЭКОЛОГИЧЕСКИХ ПРАКТИК В ПОСТАХ СОЦИАЛЬНЫХ СЕТЕЙ

02.03.03 Математическое обеспечение и администрирование информационных систем
Профиль «Технологии программирования и анализа больших данных»

Тюмень 2023

ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ 4
ГЛАВА 1. ИЗУЧЕНИЕ ПРЕДМЕТНОЙ ОБЛАСТИ И ВЫБОР ИНСТРУМЕНТОВ 8
1.1 ОСОБЕННОСТИ ПРЕДМЕТНОЙ ОБЛАСТИ 8
1.2 АНАЛОГИ ПРОЕКТА 10
1.3 ТЕХНИЧЕСКОЕ ЗАДАНИЕ 12
1.4 РЕШЕНИЕ ЗАДАЧИ КЛАССИФИКАЦИИ 12
ГЛАВА 2. РАБОТА НАД ПРОЕКТОМ 16
2.1 ОПИСАНИЕ БАЗЫ ДАННЫХ 16
2.2 РАБОТА С ИСХОДНЫМИ ДАННЫМИ 19
2.3 ОБРАБОТКА ДАННЫХ 22
2.4 ОБУЧЕНИЕ МОДЕЛЕЙ КЛАССИФИКАЦИИ 23
2.5 ПРОВЕРКА КАЧЕСТВА РАБОТЫ КЛАССИФИКАТОРОВ 24
2.6 АУГМЕНТАЦИЯ НАБОРА ДАННЫХ 26
2.7 ВЫДЕЛЕНИЕ ФРАГМЕНТОВ ТЕКСТА 30
ГЛАВА 3. РАЗРАБОТКА САЙТА И ПОЛЬЗОВАТЕЛЬСКОГО ИНТЕРФЕЙСА 33
3.1 АРХИТЕКТУРА ПРИЛОЖЕНИЯ 33
3.2 МОДЕЛИ БАЗЫ ДАННЫХ 36
3.3 РАБОТА С VK API 36
3.4 ОПИСАНИЕ ПОЛЬЗОВАТЕЛЬСКОГО ИНТЕРФЕЙСА 37
ЗАКЛЮЧЕНИЕ 46
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 47
ПРИЛОЖЕНИЯ 1-6 50

ВВЕДЕНИЕ
На сегодняшний день экологическая повестка составляет важную часть программы устойчивого развития в России [1]. Одной из целей экологической повестки является распространение экологических (зелёных) практик среди населения, ведь в условиях ухудшающейся экологической ситуации необходимо активно привлекать общество к социальным экологическим практикам, которые могли бы положительно повлиять на экологию.
Несмотря на постепенное развитие зелёных практик [2], сводный индекс экологичного поведения России равен 19% из 100%, что говорит о низком распространении экологических практик. По данным Всероссийского центра изучения общественного мнения, некоторые практики и вовсе остаются незамеченными, а больше 90% опрошенных ничего не знают о деятельности местных экозащитных организаций и отдельных экозащитников-активистов [3]. Для развитие зелёных практик необходимо изучить условия возникновения и масштабирования практик, направленных на сокращение потребления. Под масштабированием практик подразумевается как scaling out (расширение численного и территориального охвата), так и scaling up (включение опыта низовых инициатив в управленческие решения на всех
уровнях власти).
На основе анализа содержания и распространенности практик возможно сформулировать критерии для поддерживаемых проектов и общественных инициатив, ведь поддержка уже существующих инициатив является менее ресурсозатратной, чем реализация программ по экологизации общества с нуля. Кроме того, эффективность поддержки значительно выше, чем внедрение новых практик, еще не доказавших свою жизнеспособность и не принятых в обществе. Собрать информацию о распространенности тех или иных практик с помощью традиционных социологических методов не представляется возможным, но в социальных сетях в настоящее время сформирован значительный объем неструктурированной текстовой информации, связанной с экологической тематикой [4]. Более того, большую часть информации о состоянии окружающей среды опрошенные получают из социальных сетей [3], что подчеркивает важность их роли в распространении идей экологии среди населения, а доступность и разнообразие текстовых данных, размещенных в социальных сетях, предоставляет большие возможности для изучения общественного мнения и позволяет анализировать пути распространения информации в интернет-источниках [5].
Методы машинного обучения, в частности классификация и анализ текстов социальных сетей, в последние годы часто используются при исследовании контента, наполняющего социальные сети. При этом применяются как традиционные методы машинного обучения, например, логистическая регрессия для анализа тональности постов в Twitter [6], так и более продвинутые, основанные на нейронных сетях методы - многослойный перцептрон, который часто используются в исследованиях с ограниченным набором помеченных данных [7]. Среди всех методов наиболее точными считаются методы нейронных сетей, основанные на архитектуре Transformer, в частности модель BERT и её модификации [8].
Отдельно стоит отметить методы многоклассовой классификации текстов. В статье [9] успешно используется модифицированные методы k ближайших соседей для маркировки и классификации постов Twitter.
Помимо этого, при решении задачи классификации, поднимается вопрос об устранении несбалансированности датасета текстов, когда нет возможности просто дополнить его – задача, которая часто встречается при классификации текстов [10].
Среди методов устранения несбалансированности датасетов есть те, которые не затрагивают сам датасет – взвешивание классов, подбор порога. И те, которые изменяют его размер в большую или меньшую сторону. К ним относится ресэмплинг - undersampling (замена большого класса подвыборкой по мощности равной малому классу), oversampling (увеличение в размерах малого класса), генерация синтетических записей, схожих с реальными, аугментация. В случае с текстовым датасетом находят применение такие методы, как Back Translation [11], заключающийся в переводе текстов на иностранный язык и обратно, Easy Data Augmentation [12], состоящий из работы с синонимами, удалением, повтором и перемещением слов, и использование больших языковый моделей, например ChatGPT [13].
Анализ текстов экологических сообществ в социальных сетях позволил бы собрать и структурировать большое количество текстовых данных в рассматриваемой предметной области, ускорить их обработку и сделать выводы о распространенности тех или иных видов практик. Кроме того, результаты анализа данной информации можно будет использовать для других целей:
1. Предпринимательское сообщество может использовать полученные результаты для маркетинга продукции и привлечения потребителей. Предприниматели получат информацию о пользователях экопродуктов, о рыночных нишах; информацию об окружающей бизнес-среде.
2. Экоактивисты получат знания о других зеленых практиках с целью поиска партнеров и развития сетей.
3. Размеченная коллекция текстов экологической тематики с выделенными социальными практиками будет важным источником социальной информации для исследователей в области гуманитарных и компьютерных наук.
Для этого необходимо разработать инструментарий, который позволил бы экспертам собирать и обрабатывать информацию о распространенности зелёных практик на примере постов в социальной сети «Вконтакте».
Цель проекта: разработать веб-сервис с использованием фреймворка Django, позволяющий просматривать посты с учётом фильтров, просматривать
статистику распределения постов по месторасположению и классифицировать посты с помощью методов автоматической классификации текстов.
Для этого необходимо решить следующие задачи:
1. Изучить предметную область, её особенности, критерии, которые позволят относить посты к той или иной практике.
2. Сравнить методы устранения несбалансированности исходного датасета.
3. Создать модели БД, заполнить её. Написание методом для работы с БД из сервиса (добавление данных в БД, их изменение).
4. Разработать классификатор для практик и жанров постов.
5. Создать методы для работы с VK API.
6. Реализовать программную логику сайта и пользовательский интерфейс.
Для успешной подготовки и защиты выпускной квалификационной работы использовались средства и методы физической культуры и спорта с целью поддержания должного уровня физической подготовленности, обеспечивающие высокую умственную и физическую работоспособность. В режим рабочего дня включались различные формы организации занятий физической культурой (физкультпаузы, физкультминутки, занятия избранным видом спорта) с целью профилактики утомления, появления хронических заболеваний и нормализации деятельности различных систем организма.
В рамках подготовки к защите выпускной квалификационной работы авторами созданы и поддерживались безопасные условия жизнедеятельности, учитывающие возможность возникновении чрезвычайных ситуаций.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Национальные проекты России: [сайт].
2. Раздельный сбор бытовых отходов в России: уровень, факторы и потенциал включения населения / Шабанова М.А. // Мир России. 2019. Т. 28. № 3. С. 88–112.
3. Экологическая повестка: за десять месяцев до выборов в Госдуму // ВИЦОМ НОВОСТИ: [сайт].
4. Поиск упоминаний экологических практик в социальных сетяхс помощью методов классификации текстов / Глазкова А. В., Захарова О. В., Захаров А. В. [и др.] // Моделирование и анализ информационных систем. 2022. Т. 29. №. 4. С. 316-332.
5. A survey on text classification: From traditional to deep learning / Li Q. et al. // ACM Transactions on Intelligent Systems and Technology (TIST). 2022. Т. 13.
№. 2. С. 1-41.
6. Naive Bayes as opinion classifier to evaluate students satisfaction based on student sentiment in Twitter Social Media / Permana F. C., Rosmansyah Y., Abdullah A. S. // Journal of Physics: Conference Series. 2017. Т. 893. №. 1.
7. Stance Classification of Social Media Texts for Under-Resourced Scenarios in Social Sciences / V. Yantseva, K. Kucher // Swedish Workshop on Data Science. 2022. T. 7. №. 11.
8. Attention is all you need / Vaswani A. et al. // Advances in neural information processing systems. 2017. Т. 30.
9. Multi-label Classification of Twitter Data Using Modified ML-KNN / S. K. Srivastava, S. K. Singh // Advances in Data and Information Sciences. 2018. T. 39. C. 31-41.
10. On strategies for imbalanced text classification using SVM: A comparative study / Sun A., Lim E. P., Liu Y. // Decision Support Systems. 2009. Т. 48. №. 1. С. 191-201.
11. Back Translation Survey for Improving Text Augmentation / Ciolino M., Noever D., Kalin J. // Proceedings of the Fourth Workshop on Discourse in Machine Translation. 2019. С. 35-44.
12. EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks / Wei J., Zou K. // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019. С. 6382-6388.
13. Data Augmentation using Pre-trained Transformer Models / Kumar V., Choudhary A., Cho E. // Proceedings of the Second Workshop on Life-long Learning for Spoken Language Systems. 2020. С. 18-26.
14. GREEN VALUES IN CROWDFUNDING PROJECTS / Захарова О. В.,
Паюсова Т. И., Пупышева И. Н. [и др.] // GLOCALISM: JOURNAL OF CULTURE, POLITICS AND INNOVATION. 2021. № 1. ISSN 2283-7949
15. Зеленые практики: подходы к изучению / Захарова О. В., Паюсова Т. И., Ахмедова И. Д., Суворова Л. Г. // Социологические исследования. 2021. № 4. С. 25-36.
16. Detection and Resolution of Rumours in Social Media: A Survey / Arkaitz Zubiaga, Ahmet Aker, Kalina Bontcheva, Maria Liakata, and Rob Procter // ACM Computer Surveys. 2018. Т. 51. № 32.
17. КЛАССИФИКАЦИЯ ПОСТОВ В АНГЛОЯЗЫЧНОЙ CОЦИАЛЬНОЙ СЕТИ ИНСТАГРАМ (ЛИНГВОСИНЕРГЕТИЧЕСКИЙ АСПЕКТ) /
Мамонова Н. В. // Вестник Челябинского государственного университета. 2019. № 4. С. 137—143
18. ОБЗОР ИНФОРМАЦИОННЫХ СИСТЕМ АНАЛИЗА СОЦИАЛЬНЫХ СЕТЕЙ / Базенков Н. И., Губанов Д. А. // Управление большими системами: сборник трудов. 2013. Т. 41. С. 357-394
19. Многозначная классификация текстовых документов с использованием вероятностного тематического моделирования ml-PLSI, / Н. Карпович. // Труды СПИИРАН. 2016. Т. 47. С. 92–104.
20. Learning methods for multi-label classification / Sawsan Kanj. // Universite de technologie de Compiegne. 2013.
21. Mark Daoust. Classify text with BERT, TensorFlow: [сайт].
22. Адаптация глубоких двунаправленных многоязычных моделей на основе архитектуры transformer для русского языка / Ю. Куратов и М. Архипов. // Компьютерная Лингвистика и Интеллектуальные Технологии. 2019. С. 333–339.

НЕ НАШЛИ, ЧТО ИСКАЛИ? МОЖЕМ ПОМОЧЬ.

СТАТЬ ЗАКАЗЧИКОМ