Дипломная работа на тему "ТЮМГУ | Информационная система распознавания пропаганды запрещённых веществ в русскоязычном сегменте Интернета [ID 22109]"

Эта работа представлена в следующих категориях:

Информационные системы ТЮМГУ-Тюменский государственный университет Год сдачи: 2023

Работа на тему: Информационная система распознавания пропаганды запрещённых веществ в русскоязычном сегменте Интернета
Оценка: отлично.
Оригинальность работы на момент публикации 50+% на антиплагиат.ру.
Ниже прилагаю все данные для покупки.
https://studentu24.ru/list/suppliers/Anastasiya1---1326

Демо работы

Описание работы

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное-учреждение _ высшего образования·
«ТЮМЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» --
ИНСТИТУТ МАТЕМАТИКИ И КОМПЬЮТЕРНЫХ НАУК
Кафедра информационных систем

РЕКОМЕНДОВАНО К ЗАЩИТЕ В ГЭК

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
бакалаврская работа
ИНФОРМАЦИОННАЯ СИСТЕМА РАСПОЗНАВАНИЯ ПРОПАГАНДЫ
ЗАПРЕЩЁННЫХ веществ в РУССКОЯЗЫЧНОМ СЕГМЕНТЕ ИНТЕРНЕТА
09.03.02 Информационные системы и технологии Профиль «Интернет-технологии и разработка WЕВ-приложений»

Тюмень 2023

ОГЛАВЛЕНИЕ
СПИСОК ТЕРМИНОВ 3
ВВЕДЕНИЕ 6
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ИЗУЧЕНИЯ И КЛАССИФИКАЦИИ ТЕКСТОВ В ИНТЕРНЕТЕ 9
1.1 ТЕОРИЯ ПРОПАГАНДЫ 9
1.2 СОЦИОЛИНГВИСТИЧЕСКИЙ ПОДХОД К АНАЛИЗУ ЗАПРЕЩЁННЫХ ВЕЩЕСТВ 10
ГЛАВА 2. КОРПУС ТЕКСТОВ, УПОМИНАЮЩИХ ЗАПРЕЩЁННЫЕ ВЕЩЕСТВА 14
2.1 ОПИСАНИЕ КОРПУСА 14
2.2 АНАЛИЗ КОРПУСА 15
2.3 АЛГОРИТМ ГЕНЕРАЦИИ ПОИСКОВЫХ ЗАПРОСОВ 24
2.4 ФУНКЦИОНАЛЬНАЯ МОДЕЛЬ ГЕНЕРАЦИИ ЗАПРОСА 27
ГЛАВА 3. АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ ТЕКСТА 31
3.1 ЛИНЕЙНАЯ РЕГРЕССИЯ 31
3.2 ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ 36
3.3 НЕЙРОННАЯ СЕТЬ 40
3.3.1 Архитектура нейронной сети 43
3.3.2 Программная реализация нейронной сети 45
3.3.3 Обучение нейронной сети 46
ГЛАВА 4. ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ 49
4.1 СОЗДАНИЕ ЧАТ-БОТА В TELEGRAM, КАК MVP-ВЕРСИЯ ДЛЯ ПРОВЕРКИ РАБОТЫ НЕЙРОСЕТИ 49
4.2 ПРОВЕРКА РАБОТЫ НЕЙРОСЕТИ НА ПРАКТИКЕ 52
4.3 РУКОВОДСТВО ПОЛЬЗОВАТЕЛЯ 55
4.3.1 Начало работы 55
4.3.2. Проверка текста 62
4.3.3 Проверка сайта 66
ЛИЧНЫЙ ВКЛАД В РЕЗУЛЬТАТЫ РАБОТЫ 68
ЗАКЛЮЧЕНИЕ 69
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 70

СПИСОК ТЕРМИНОВ
Accuracy (точность): это показатель производительности модели классификации машинного обучения, который определяется как отношение истинных положительных и истинных отрицательных результатов ко всем положительным и отрицательным наблюдениям.
Accuracy вычисляется по формуле: (ИП + ИО)/ (ИП + ЛО + ИО + ЛП), где ИП - Истинно Положительные, ИО - Истинно Отрицательные, ЛП - Ложно Положительные, ЛО - Ложно Отрицательные результаты [Ajitesh, 2023].
Baseline model (базовая модель): модель, используемая в качестве эталона для сравнения того, насколько хорошо работает другая модель (как правило, более сложная). Например, модель логистической регрессии может служить хорошей основой для глубокой модели.
Для конкретной проблемы базовый уровень помогает разработчикам моделей количественно определить минимальную ожидаемую производительность, которую новая модель должна обеспечить, чтобы новая модель была полезной.
Fleiss’ cappa: каппа Флейсса (названная в честь Джозефа Л. Флейсса) представляет собой статистическую меру для оценки надежности согласия между фиксированным числом оценщиков при присвоении категориальных оценок ряду элементов или классификации элементов. Мера вычисляет степень согласия в классификации по сравнению с тем, что можно было бы ожидать случайно [Fleiss, 1971].
Krippendorf’s alpha: альфа-коэффициент Криппендорфа, названный в честь академика Клауса Криппендорфа, является статистической мерой согласия, достигнутого при кодировании набора единиц анализа. Альфа Криппендорфа обобщает несколько известных статистических данных, часто называемых мерами согласования между кодировщиками, межоценочной надежности, надежности кодирования заданных наборов единиц (в отличие от
объединения), но она также отличается от статистических данных, которые называются коэффициентами надежности, но не подходят для сведения о кодировании данных, сгенерированных для последующего анализа [Krippendorff, 2013].
N-gram: последовательность из n элементов. С семантической точки зрения это может быть последовательность звуков, слогов, слов или букв [Zdeněk, 2008].
SOTA (State-of-the-art, актуальный уровень развития технологии): в контексте искусственного интеллекта (ИИ) это относится к лучшим моделям, которые можно использовать для достижения результатов в задаче [Niharika, 2022].
Аннотатор: человек или программа, которые занимаются аннотированием (разметкой) данных, для дальнейшего обучения ИИ.
Аннотирование (разметка): это процесс разметки текстового документа или различных элементов его содержимого. При аннотировании текста составляющие предложений или структуры выделяются по определённым критериям для подготовки наборов данных к обучению модели, которая сможет эффективно распознавать человеческий язык, коннотацию или эмоции, стоящие за словами [Куцев, 2021].
АОТ (NLP): Автоматическая Обработка Текста (Natural Language Processing), направление области искусственного интеллекта, которое занимается обработкой естественного, в том числе неструктурированного языка. АОТ состоит в применении методов машинного обучения для анализа текста и речи [Малюшкин, 2020].
Датасет (англ. dataset): это обработанный и структурированный массив данных. В нём у каждого объекта есть конкретные свойства: признаки, связи между объектами или определённое место в выборке данных [Ефимова, 2022].

Классификация: метод машинного обучения, используемый для фрагментации текстов на категории [Николаенко, 2021].
Корпус текстов: это лингвистическая база данных, включающая тексты, разные метаданные, относящиеся к этим текстам, а также грамматические разборы входящих в них слов и предложений [Бочаров, 2012].
Лексема: это единица языка, являющаяся единицей словарного состава языка, представляющая собой совокупность всех парадигматических форм (словоформ) одного слова и их лексических значений [Пешковский, 1925].
Словоформа: слово (лексема) в некоторой грамматической форме [Зализняк, 1990].
Токен: это текстовые данные, разбитые на слова, термины, предложения, символы или другие значимые элементы, называемые токенами [Menzli, 2023].
Оценка (метрика) согласованности экспертов: производится путем вычисления количественной меры, характеризующей степень
близости индивидуальных мнений. Определение согласованности оценок экспертов необходимо для подтверждения правильности гипотезы о том, что эксперты являются достаточно точными измерителями.
Социальная группа: «совокупность индивидов, взаимодействующих определенным образом на основе разделяемых ожиданий каждого члена группы в отношении других» [Фролов, 1994: 262].

ВВЕДЕНИЕ
Актуальность. Данная работа направлена на автоматизацию распознавания рекламы запрещённых веществ в русскоязычном сегменте Интернета. Актуальность данной темы обусловлена тем, что автоматическая обработка текста (АОТ) является одной из наиболее востребованных и быстроразвивающихся областей информационных технологий. А потому применение АОТ способствует повышению эффективности систем автоматического распознавания и улучшения качества выдаваемого ими результата.
Следующая диаграмма была сформирована с помощью данных, взятых из официального интернет-ресурса государственной статистики ЕМИСС (Единая Межведомственная Информационно-Статистическая Система).
Рисунок 1. Количество преступлений в сфере незаконного оборота запрещенных веществ в РФ
В связи с совершением преступлений в сфере незаконного оборота запрещенных наркотических веществ в Российской Федерации, осуществляемых с помощью информационных технологий, поиск новых
алгоритмов и методов борьбы с их распространением является одной из ключевых задач государства. А.П. Фильченко и В.Ю. Жандровым, описают данную проблему похожим образом в своей работе «Противодействие запрещённой рекламе интернет-магазинов по продаже наркотиков» описывают данную проблему аналогичным образом [Фильченко, 2021].
В своем социологическом исследовании, Георгиевская Юлия Викторовна опросила Астраханскую молодежь с целью узнать каким образом они получают информацию о наркотических веществах. Сорок пять процентов опрошенных выбрали в качестве источника информации — «средства массовой информации, Интернет, социальные сети» [Георгиевская, 2020].
Объект данного исследования ㅡ тексты в русскоязычном Интернете, в которых можно выявить прямую или косвенную пропаганду запрещенных веществ. Предметом выступают алгоритмы и методы извлечения информации на определенную тему (в случае этого исследования — это запрещенные вещества) из текста. Единица исследования ㅡ лексема, выраженная токеном в обрабатываемом тексте.

Цель работы: создание информационной системы для распознавания рекламы запрещенных веществ в русскоязычном сегменте Интернета.
Для достижения цели необходимо выполнить следующие задачи:
● провести анализ конкурентных решений - SOTA;
● собрать корпус текстов, где есть и где нет упоминаний о запрещённых веществах, для дальнейшего обучения модели;
● разработать модель данных и схему (правила) аннотирования;
● обучить аннотаторов для разметки корпуса текстов, проверить согласие между аннотаторами с помощью метрики согласия экспертов;
● проанализировать лингвистические особенности полученного датасета и сформировать гипотезу о том, какие алгоритмы лучше подходят для решения задачи классификации;
● на основе SOTA-анализа создать baseline model ㅡ классификатор с
показателем эффективности, который можно взять для получения более высокого результата;
● оптимизировать классификатор, сопоставить его результат с SOTA и сделать выводы об успешности полученного решения;
● создать MVP-версию системы и проверить работоспособность на практике.
При разработке системы были использованы методы проектирования информационных систем (методология IDEF0), методы лингвистического анализа (морфологический анализ, лексический анализ, выявление именованных сущностей) в сочетании с вероятностно-статистическими методами определения характеристик текста (частотный анализ, регрессионный анализ).
В качестве материала исследования был собран корпус, состоящий из 1192 текстов. Корпус содержит рекламные объявления, публикации и комментарии из закрытых групп и каналов социальной сети «ВКонтакте» и мессенджера «Telegram», а также тексты, находящиеся на заблокированных сайтах по продаже запрещенных веществ.
Исследование опирается на теоретические работы по распознаванию пропаганды: [Фильченко, 2021], [Михалькова, 2020], [Nakov, 2020], [Мухамедиев, 2021]; а также по выявлению интересов пользователей в социальных сетях [Михалькова, 2018a], [Михалькова, 2018b].
Практическая значимость. Система может быть полезна криминалистам – для выявления пропаганды запрещенных веществ в русскоязычном сегменте Интернета, нарушающей законодательство РФ и провоцирующей на незаконные действия.
Структура работы. Работа состоит из введения, четырех глав, заключения и библиографического списка.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Постановление Правительства РФ от 01.10.2012 N 1002 (ред. от 24.01.2022) "Об утверждении значительного, крупного и особо крупного размеров наркотических средств и психотропных веществ, а также значительного, крупного и особо крупного размеров для растений, содержащих наркотические средства или психотропные вещества, либо их частей, содержащих наркотические средства или психотропные вещества, для целей статей 228, 228.1, 229 и 229.1 Уголовного кодекса Российской Федерации" // СПС КонсультантПлюс.
2. Федеральный закон от 08.01.1998 N 3-ФЗ (ред. от 28.04.2023) "О наркотических средствах и психотропных веществах" (с изм. и доп., вступ. в силу с 09.05.2023).
3. Георгиевская Ю. В. СОЦИОЛОГИЧЕСКОЕ ИССЛЕДОВАНИЕ НАРКОМАНИИ КАК НАИБОЛЕЕ СОЦИАЛЬНО ОПАСНОЙ ФОРМЫ ДЕВИАНТНЫХ ОТКЛОНЕНИЙ МОЛОДЕЖИ // Наука. Культура. Общество. 2020. №3.
4. Фильченко А. П., Жандров В. Ю. Противодействие запрещенной рекламе интернет-магазинов по продаже наркотиков // Правовое государство: теория и практика, №4 (66), 2021.
5. Руководящий документ IDEF0 - 2000. Методология функционального моделирования IDEF0, 2000. U
6. Михалькова Е.В., Ганжерли Н.В., Глазкова А.В., Бидуля Ю.В. UTMN at SemEval-2020 Task 11: A Kitchen Solution to Automatic Propaganda Detection // Proceedings of the Fourteenth Workshop on Semantic Evaluation, 2020.
7. Михалькова Е.В., Карякин Ю.Е., Глухих И.Н. Large Scale Retrieval of Social Network Pages by Interests of Their Followers // Computational Science – ICCS 2018. Lecture Notes in Computer Science, vol 10860, 2018a.
8. Михалькова Е.В., Ганжерли Н.В., Карякин Ю.Е., Григорьев Д.А. Machine Learning Classification of User Interests Across Languages and Social Networks // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialogue 2018», 2018b.
9. Мухамедиев Р. И., Филатова О.Г., Якунин К.О. ВЫЯВЛЕНИЕ ПРОПАГАНДИСТСКИХ ТЕКСТОВ В КОРПУСЕ НОВОСТНЫХ ПУБЛИКАЦИЙ // International Journal of Open Information Technologies. 2021.
№4. 2021.
10. Фролов С. С. Социология. Учебник. Для высших учебных заведений. М.: Наука, 1994. 256 с.
11. Куцев Р. Аннотирование текста для машинного обучения, 2021.
12. Малюшкин Р. NLP для людей. Часть 1, 2020.
13. Ефимова М., Шпрингер Е. Датасеты для машинного обучения и анализа данных: что это, виды - где взять датасеты, 2022.
14. Николаенко Ю. Практическое руководство по NLP: изучаем классификацию текстов с помощью библиотеки fastText, 2021.
15. Бочаров В. «Он видел их семью своими глазами», 2012.
16. Пешковский А. Лексема // Литературная энциклопедия: Словарь литературных терминов: В 2-х т. — М.; Л.: Изд-во Л. Д. Френкель, 1925.
17. Зализняк А.А. Словоформа. // Лингвистический энциклопедический словарь, 1990.
18. Ураков А. Л. Амфетамины: качество, способы получения, состав, фармакологические эффекты // ПЭМ. 2014. №1 (53), 2014.
19. Филлипс Л., Йоргенсен М. В. Дискурс-анализ. Теория и метод. М. Гуманитарный центр, 2008. 352 с.
20. Ajitesh K. Accuracy, Precision, Recall & F1-Score – Python Examples, 2023.
21. Menzli A. Tokenization in NLP: Types, Challenges, Examples, Tools, 2023.
22. Crystal D. The Cambridge Encyclopedia of The English Language. Cambridge: Cambridge University Press, 1995.
23. Fleiss, J. L. Measuring nominal scale agreement among many raters. Psychological Bulletin, Vol 76 No. 5, 1971. Pp 378-382.
24. Krippendorff, K. Content Analysis: An Introduction to Its Methodology, 2013. Pp. 221–250.
25. Zdeněk Č., Ivo H., Roman T. In Czech: Extrakce N-gramů z rozsáhlých textů // Proceedings of the 7th Annual Conference ZNALOSTI 2008, Bratislava, Slovakia, 2008. Pp. 54-65.
26. Niharika S. What is SOTA in Artificial Intelligence? 2022.
27. Nakov P., San Martino G. Fact-Checking, Fake News, Propaganda, and Media Bias: Truth Seeking in the Post-Truth Era // Conference: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Tutorial Abstracts, 2020.
28. Childs H. L. The American Political Science Review, 30(2), 1936. Pp. 389–390.
29. Taylor P.M. Munitions of the mind: A history of propaganda from the ancient world to the present era // Manchester University Press, 2013.
30. Lukin A. Journalism, ideology and linguistics: The paradox of chomsky’s linguistic legacy and his ‘propaganda model’. Journalism 14(1), 2013. Pp. 96–110
31. Klaehn J., Mullen A. The propaganda model and sociology: understanding the media and society // Synaesthesia: Communication Across Cultures, 1(1), 2010. Pp. 10–23.
32. Jackall R. Propaganda, volume 8. // NYU Press, 1995.
33. Stuart J. Russell, Peter Norvig. Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall, 2010.