Дипломная работа на тему "Машинное обучение в задачах синтаксического анализа естественных языков | Синергия [ID 48053]"

Эта работа представлена в следующих категориях:

Информационные технологии Университет МФПУ Синергия Год сдачи: 2017

Работа на тему: Машинное обучение в задачах синтаксического анализа естественных языков
Оценка: отлично.
Оригинальность работы на момент публикации 50+% на антиплагиат.ру.
Ниже прилагаю все данные для покупки.
https://studentu24.ru/list/suppliers/Anastasiya1---1326

Демо работы

Описание работы

МОСКОВСКИЙ ФИНАНСОВО-ПРОМЫШЛЕННЫЙ УНИВЕРСИТЕТ «СИНЕРГИЯ»

Направление 09.03.02

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
МАШИННОЕ ОБУЧЕНИЕ В ЗАДАЧАХ СИНТАКСИЧЕСКОГО АНАЛИЗА

МОСКВА 2017 г.

ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ 3
ГЛАВА 1. ИСТОРИЯ РАЗВИТИЯ МАШИННОГО ОБУЧЕНИЯ 6
1.1. Машинное обучение в 1930-1960е годы 6
1.2. Машинное обучение в 1960-1990е годы 12
1.3. Машинное обучение в настоящее время. 21
ГЛАВА 2. ПРИКЛАДНОЕ МАШИННОЕ ОБУЧЕНИЕ 30
2.1. Анализ текста, виды анализа текста 30
2.2. Синтаксический анализ. 34
2.2.1. Методы построения синтаксических деревьев составляющих 38
2.2.2. Методы построения синтаксических деревьев зависимостей 43
2.2.3. Графовый подход к построению синтаксических деревьев зависимостей 45
2.2.4. Метод синтаксического анализа на основе системы переходов. 47
2.2.5. Системы синтаксического анализа текстов на русском языке. 49
ГЛАВА 3. ИСПОЛЬЗОВАНИЕ ИНСТРУМЕНТОВ СИНТАКСИЧЕСКОГО АНАЛИЗА, ИХ ХАРАКТЕРИСТИКА 51
3.1. Использование Maltparser для синтаксического анализа. 51
3.2. Использование AOT для синтаксического анализа. 56
3.3. Использование ABBYY Compreno для синтаксического анализа. 61
ЗАКЛЮЧЕНИЕ 65
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 65

ВВЕДЕНИЕ
Компьютерный лингвистический анализ текстов на естественном языке
– одна из самых перспективных областей искусственного интеллекта. Одна из ключевых задач такого анализа заключается в построении структурированного представления текста, к которому можно применять способы и алгоритмы решения прикладных задач. Многие исследователи отмечают, что качественное решение таких задач, как вопросно-ответный поиск, извлечение информации и знаний из текстов, автоматическое реферирование, невозможно без проведения синтаксического и семантического анализа. Есть множество разновидностей методов синтаксического и семантического анализа, которые основаны на разных моделях синтаксической структуры предложения и различном понимании семантики.
В данной дипломной работе исследуются в частности методы построения синтаксических деревьев зависимостей как основной способ синтаксического анализа. Деревья зависимостей моделируют синтаксическую структуру предложений в виде иерархии слов, связанных дугами, обозначающими синтаксическое подчинение между главным и зависимым словами. Подчинение объясняется набором общих принципов, основная мысль которых состоит в том, что зависимое слово в предложении является необязательным, не таким важным для передачи смысла высказывания, как главное.
Задачи синтаксического и семантического анализа, как правило, решаются раздельно: сначала строится синтаксическая структура предложения, на основе которой затем строится семантическая структура. Для этого существует ряд методов, основанных как на правилах, так и на машинном обучении. Хотя современные технологии позволяют добиваться достаточно высокого качества решения подобных задач, остается значительное пространство для улучшения этих методов. Семантический анализ текста не представляется возможным без синтаксического, выявляющего основную структуру единицы(предложения), отмечающего зависимости между частями предложения. Однако, согласно последним тенденциям, семантический анализ будет хорошо дополнять синтаксический, снижая количество ошибок и погрешностей.
Несмотря на то, что на данный момент существует достаточное количество научных работ по машинному обучению и компьютерной лингвистике, ни одна не носит обзорный характер с элементами исторического экскурса и детализации именно синтаксического анализа. В следствие чего, данная работа является актуальной.
Практическая значимость работы заключается в том, что на основе исследования и сравнения синтаксических анализаторов можно сделать обоснованный выбор для использования определенного анализатора в ПО для обработки естественного языка или использовать данные как базу для создания собственных инструментов парсинга.
Объект исследования – машинное обучение в рамках анализа естественного языка. Предмет – методы и алгоритмы синтаксического анализа.
Целью выпускной квалификационной работы является исследование ретроспективы машинного обучения и его методов для анализа текстов на естественном языке в задачах синтаксического анализа, в том числе на примере современных анализаторов MaltParser, AOT, ABBYY Compreno.
Задачи дипломной работы:
1. Изучить историю развития искусственного интеллекта и машинного обучения в том числе в задачах, связанных с анализом естественного языка.
2. Рассмотреть состояние и тенденции развития машинного обучения в настоящее время.
3. Описать существующие способы автоматического анализа естественного языка
4. Изучить и дать краткую характеристику методам синтаксического анализа естественного языка в рамках машинного обучения.
5. Исследовать синтаксические анализаторы MaltParser, AOT, ABBYY Compreno, определить их основные характеристики.
Для решения поставленных задач применены следующие методы исследования:
1. Исторический метод
2. Методы машинного обучения.
3. Методы компьютерной лингвистики.
4. Методы оценки качества алгоритмов машинного обучения.
5. Методы исследования качества синтаксического анализа.
6. Методы объектно-ориентированного проектирования программного обеспечения.
При написании выпускной квалификационной работы использовались научные труды следующих авторов: Н. Хомского [10], Й. Нивре [20], Е. А. Сулеймановой [24], И. М. Ножова [62] и другие.
Выпускная квалификационная работа состоит из Введения, трех глав, Заключения, Списка использованной литературы.
В первой главе выпускной квалификационной работы рассматривается история развития искусственного интеллекта и машинного обучения в том числе в задачах, связанных с анализом естественного языка.
Во второй главе работы дается описание существующих способов автоматического анализа естественного языка, изучается синтаксический анализ и его методы, дается их краткая характеристика.
В третьей главе работы исследуются анализаторы MaltParser, AOT, ABBY Compreno, дается их характеристика, приводятся примеры.

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
1. Смирнов И. В., Шелманов А. О. Семантико-синтаксический анализ естественных языков. Часть I. Обзор методов синтаксического и семантического анализа текстов // Искусственный интеллект и принятие решений. — 2013. — No 1. — С. 41–54.
2. Relational–situational method for intelligent search and analysis of scientific publications / Gennady Osipov, Ivan Smirnov, Ilya Tikhomirov, Artem Shelmanov // Proceedings of the Workshop on Integrating IR technologies for Professional Search, in conjunction with the 35th European Conference on Information Retrieval (ECIR’13). — Vol. 968. — CEUR Workshop Proceedings, 2013.
3. Семантико-синтаксический анализ естественных языков Часть II. Метод семантико-синтаксического анализа текстов / И. В. Смирнов, А. О. Шелманов, Е. С. Кузнецова, И. В. Храмоин // Искусственный интеллект и принятие решений. — No 1. — С. 11–24.
4. Shelmanov A. O., Smirnov I. V. Methods for semantic role labeling of Russian texts // Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference "Dialogue" (2014). — No. 13. — 2014.
— P. 607– 620.
5. Осипов Г. С., Шелманов А. О. Метод повышения качества синтаксического анализа на основе взаимодействия синтаксических и семантических правил // Труды шестой международной конференции "Системный анализ и информационные технологии" (САИТ). — Т. 1. — 2015.
— С. 229–240.
6. Шелманов А. О. Метод автоматического выделения многословных терминов из текстов научных публикаций // Труды тринадцатой национальной конференции по искусственному интеллекту с международным участием КИИ-2012. — Т. 1. — Белгород, 2012. — С. 268– 274.
7. Шелманов А. О., Смирнов И. В. «Программа лингвистического анализа неструктурированной текстовой информации на русском и английском языках» // Свидетельство о государственной регистрации программ для ЭВМ. No 2013613430. — 2013.
8. ETAP parser: state of the art / L. Iomdin, V. Petrochenkov, V. Sizov,
L. Tsinman // Papers from the Annual International Conference "Dialogue" (2012).
— 2012. — P. 830–853.
9. Syntactic and semantic parser based on ABBYY Compreno linguistic technologies/ K. V. Anisimovich, K. Ju. Druzhkin, F. R. Minlos et al. // Papers from the Annual International Conference "Dialogue" (2012). — Vol. 2. — 2012. — P. 91–103.
10. Chomsky N. Three models for the description of language // IRE Transactions on Information Theory. — 1956. — Vol. 2, no. 3. — P. 113–124.
11. Tesnière L. Elements de syntaxe structurale. — Editions Klincksieck, 1959.
12. Mel’cuk I. A. Dependency syntax: theory and practice. — ŠUNY Press, 1988. — P. 428.
13. Chomsky N. Syntactic structures. — The Hague : Mouton, 1957. — P. 117.
14. Partee B., Ter Meulen A., Wall R. Mathematical methods in linguistics. — Springer, 1990. — Vol. 30 of Studies in Linguistics and Philosophy.
15. Huybregts R. The weak inadequacy of context-free phrase structure grammars // Van Periferie naar Kern. — 1984. — P. 81–99.
16. Shieber S. M. Evidence against the context-freeness of natural language // The Formal Complexity of Natural Language. — 1987. — Vol. 33. — P. 320– 334.
17. Hudson R. Word grammar. — Blackwell Oxford, 1984.
18. Karlsson F. Constraint grammar as a framework for parsing running text // Proceedings of the 13th conference on Computational linguistics. — Vol. 3.
— Association for Computational Linguistics, 1990. — P. 168–173.
19. Universal dependency annotation for multilingual parsing / Ryan Mcdonald, Joakim Nivre, Yvonne Quirmbach-brundage et al. // Proceedings of the 51st Annual
Meeting of the Association for Computational Linguistics. — Vol. 2. — 2013. — P. 92-97
20. Nivre J. Dependency grammar and dependency parsing // MSI report. — 2005. — Vol. 5133, no. 1959. — P. 1–32.
21. Non-projective dependency parsing using spanning tree algorithms / Ryan McDonald, Fernando Pereira, Kiril Ribarov, Jan Hajic // Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. — Association for Computational Linguistics, 2005. — P. 523–530.
22. Тестелец Я.Г.Введение в общий синтаксис.—М.: Издательство РГГУ, 2001.
23. Jurafsky D., Martin J. H. Speech & language processing. — Pearson Education, 2000.
24. Сулейманова Е. А. О комплексном подходе к разрешению реляционно- аппозитивных неоднозначностей // Программные системы: теория и приложения. — 2014. — Т. 5, No 4. — С. 41–66.
25. Kasami T. An efficient recognition and syntax analysis algorithm for context-free languages. — 1965. — Technical report.
26. Younger D. H. Recognition and parsing of context-free languages in time n^3 // Information and control. — 1967. — Vol. 10, no. 2. — P. 189–208.
27. Earley J. An efficient context-free parsing algorithm // Communications of the ACM. — 1970. — Vol. 13, no. 2. — P. 94–102.
28. Kay M.Algorithm schemata and data structures in syntactic processing//Technical Report CSL80-12. — 1980.
29. Tomita M.LR parsers for natural languages//Proceedings of the 10th international conference on Computational linguistics. — Association for Computational Linguistics, 1984. — P. 354–357.
30. Collins M. Head-driven statistical models for natural language parsing // Computational linguistics. — 2003. — Vol. 29, no. 4. —
31. Marcus M.P., Marcinkiewicz M.A., Santorini B. Building a large annotated corpus of English the Penn treebank // Computational Linguistics. — 1993. — Vol. 19, no. 2. — P. 313–330.
32. Collins M. Three generative, lexicalised models for statistical parsing
// Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics. — Association for Computational Linguistics, 1997. — P. 16–23.
33. Hays D. G. Dependency theory: A formalism and some observations // Language. — 1964. — Vol. 40. — P. 511–525.
34. Gaifman H. Dependency systems and phrase-structure systems // Information and control. — 1965. — Vol. 8, no. 3. — P. 304–337.
35. Holan T., Kubon V., Plátek M. A prototype of a grammar checker for Czech // Proceedings of the fifth conference on Applied natural language processing.
— Association for Computational Linguistics, 1997. — P. 147–154.
36. Lombardo V., Lesmo L. An Earley-type recognizer for dependency grammar // Proceedings of the 16th conference on Computational linguistics. — Association for Computational Linguistics, 1996. — P. 723–728.
37. Maruyama H. Structural disambiguation with constraint propagation//Proceedings of the 28th annual meeting on Association for Computational Linguistics. — Association for Computational Linguistics, 1990. — P. 31–38.
38. Covington M. A. A fundamental algorithm for dependency parsing // Proceedings of the 39th annual ACM Southeast Conference. — 2001. — P. 95–102.
39. Eisner J. M. Three new probabilistic models for dependency parsing: An exploration // Proceedings of the 16th conference on Computational linguistics.
— Vol. 1. — Association for Computational Linguistics, 1996. — P. 340–345.
40. McDonald R., Crammer K., Pereira F. Online large-margin training of dependency parsers // Proceedings of the 43rd annual meeting on Association for Computational Linguistics. — Association for Computational Linguistics, 2005. — P. 91–98.
41. ChuY.-J.,LiuT.-H.On shortest arborescence of a directed graph//ScientiaSinica. — 1965. — Vol. 14, no. 10. — P. 1396.
42. Edmonds J. Optimum branchings // Journal of Research of the National Bureau of Standards, Section B: Mathematics and Mathematical Physics. — 1967.
— Vol. 71B, no. 4. — P. 233–240.
43. Mcdonald R., Pereira F. Online learning of approximate dependency parsing algorithms // Proceedings of European Chapter of the Association for Computational Linguistics. — Association for Computational Linguistics, 2006.
44. Nakagawa T. Multilingual dependency parsing using global features//Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007.
— Association for Computational Linguistics, 2007. — P. 952–956.
45. Carreras X. Experiments with a higher-order projective dependency parser // Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007.
— Association for Computational Linguistics, 2007. — P. 957–961.
46. Zhang H., McDonald R. Generalized higher-order dependency parsing with cube pruning // Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. — Association for Computational Linguistics, 2012. — P. 320–331.
47. McDonald R., Satta G. On the complexity of non-projective data- driven dependency parsing // Proceedings of the 10th International Conference on
Parsing Technologies. — Association for Computational Linguistics, 2007. — P. 121–132.
48. Kudo T., Matsumoto Y. Japanese dependency structure analysis based on support vector machines // Proceedings of the 2000 Joint SIGDAT conference on Empirical methods in natural language processing and very large corpora: held in conjunction
with the 38th Annual Meeting of the Association for Computational Linguistics. — Vol. 13. — Association for Computational Linguistics, 2000. — P. 18–25.
49. Yamada H., Matsumoto Y. Statistical dependency analysis with support vector machines // Proceedings of 8th International Workshop on Parsing Technologies. — 2003. — P. 195–206.
50. Nivre J., Hall J., Nilsson J. Memory-based dependency parsing // Proceedings of CoNLL. — 2004. — P. 49–56.
51. Nivre J. Inductive Dependency Parsing of Natural Language Text : Ph.D. thesis / Joakim Nivre ; School of Mathematics and Systems Engineering, Växjö University. — 2005.
52. Nivre J., Nilsson J. Pseudo-projective dependency parsing // Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. — Association for Computational Linguistics, 2005. — P. 99–106.
53. MaltParser: A language-independent system for data-driven dependency parsing / Joakim Nivre, Johan Hall, Jens Nilsson et al. // Natural Language Engineering. — 2007. — Vol. 13, no. 2. — P. 95–135.
54. Nivre J., Hall J., Nilsson J. MaltParser: A data-driven parser-generator for dependency parsing // Proceedings of the International Conference on Language Resources and Evaluation (LREC). — Vol. 6. — 2006. — P. 2216–2219.
55. Nivre J., Boguslavsky I. M., Iomdin L. L. Parsing the SynTagRus treebank of Russian // Proceedings of the 22nd International Conference on
Computational Linguistics (Coling 2008). — Manchester, UK, 2008. — August. — P. 641–648.
56. Sharoff S.,Nivre J.The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge // Papers from the Annual International Conference "Dialogue" (2011). — No. 10. — 2011. — P. 17.
57. Апресян Ю. Д. Лингвистическое обеспечение системы ЭТАП-2.
— Наука, 1989.
58. Казенников А. О. Сравнительный анализ статистических алгоритмов синтаксического анализа на основе деревьев зависимостей // Труды международной конференции "Диалог 2010". — 2010.
59. Белоногов Г. Г., Калинин Ю. П., Хорошилов А. А. Компьютерная лингвистика и перспективные информационные технологии. — М: Русский мир, 2004.
60. БелоноговГ.Г.Теоретические проблемы информатики,том2.семант ические проблемы информатики // М.: РЭА им. Г.В. Плеханова. — 2008.
61. БелоноговГ.Г.,Гиляровский Р.С.,др.Проблемы автоматической смысловой обработки текстовой информации // Научно-техническая информация. Сер. 2. Информационные процессы и системы. — 2012. — No 11. — С. 24–28.
62. Ножов И. М. Морфологическая и синтаксическая обработка текста (модели и программы) : Дисс кандидата наук / И. М. Ножов. — 2003.
63. Автоматизация отладки алгоритмов поверхностно- синтаксического анализа / А. М. Баталина, Г. Ю. Айриян, М. Е. Епифанов и др. // Труды международной конференции "Диалог 2005". — 2005. — С. 45– 50.
64. Кобзарева Т. Ю., Епифанов М. Е., Лахути Д. Г. Восстановление грамматических эллипсисов при синтаксическом анализе // Труды международной конференции КИИ-2014. — 2014.
65. Каневский Е. А., Боярский К. К. Семантико-синтаксический анализатор SemSin // Труды международной конференции "Диалог 2012". — 2012.
66. Antonova A. A., Misyurev A. V. Russian dependency parser SyntAutom at the DIALOGUE-2012 parser evaluation task // Papers from the Annual International Conference "Dialogue" (2012). — 2012.
67. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы / Ю. Д. Апресян, И. М. Богуславский, Б. Л. Иомдин и др. // Национальный корпус русского языка: 2003–2005. — 2005. — С. 193–68
68. Поспелов Д. А. Десять горячих точек в исследованиях по искусственному интеллекту // Интеллектуальные системы (МГУ). — 1996. — Т. 1, No 1-4. — С. 47–56.
69. Jurafsky D., Martin J. Speech And Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall Series in Artificial Intelligence. — Pearson Prentice Hall, 2009.
70. Montague R. The proper treatment of quantification in ordinary English // Approaches to Natural Language / Ed. by K. J. J. Hintikka, J. Moravcsic, P. Suppes. — Springer, 1973. — P. 221–242.
71. Bach E. An extension of classical transformational grammar // Problems of Linguistic Metatheory (Proceedings of the 1976 Conference). — 1976.
72. NishidaT.-a.,DoshitaS.AnEnglish- Japanese machine translation system based on formal semantics of natural language // Proceedings of the 9th conference on Computational linguistics. — Vol. 1. — 1982.
— P. 277–282.
73. Fillmore C. J. The case for case // Universals in Linguistic Theory / Ed. by Emmon Bach, Robert T. Harms. — New York, 1968. — P. 1–88.
74. Осипов Г. С. Методы искусственного интеллекта. — ФИЗМАТЛИТ, 2011.
75. Jackendoff R. Semantic interpretation in generative grammar. — MIT press Cambridge, MA, 1972.
76. БогдановВ.В.Семантико- синтаксическая организация предложения.—Изд- во Ленинградского университета, 1977.
77. Кибрик А. Е. Очерки по общим и прикладным вопросам языкознания: (универсальное, типовое и специфическое в языке). — М.: Изд- во МГУ, 1992.
78. Кашкин Е. В., Ляшевская О. Н. Семантические роли и сеть конструкций в системе FrameBank // Труды международной конференции "Диалог 2013". — 2013. — С. 325–343.
79. Плунгян В. А. Введение в грамматическую семантику: грамматические значения и грамматические системы языков мира: учебное пособие. — М.: Издательство РГГУ, 2011.