Фрагмент для ознакомления
2
Классификация текстов по тематикам. Отнесение текстов к той или иной тематике. Применяется во многих предметных областях — в частности, в работе рекомендательных систем, при рубрикации текстов в онлайн-библиотеках и при организации новостных потоков.
Генерация речи. Данные технологии применяются в робототехнике, смартфонах, навигаторах.
Ведение диалога. Проведение анализа реплик собеседника и генерация на их основе ответов. Данные технологии используются в системах робототехники, экспертных системах — например, Королевский банк Шотландии частично заменил контакт-центры роботами, которые могут поддерживать диалог с пользователем.
Алгоритмы проверки правописания. Применяются в текстовых редакторах, поисковых системах.
Анализ смысла текстов. Определение ключевых слов и словосочетаний, трендов, суммаризация. Используется в новостных системах при агрегировании серии новостных сообщений, базах знаний при организации хранения знаний и для вывода новых фактов.
Алгоритмы поиска ответов на вопросы. Система проводит подборку по вопросу и, возможно, контексту наиболее релевантных ответов. Используется в работе поисковых и экспертных систем.
Рассмотрим работу систем машинного перевода.
Классификацию системы АОТ можно проводить:
- по видам лицензирования (проприетарные — как правило, принадлежат известным производителям, и академические разработки — распространяемые бесплатно);
- по степени открытости (системы могут быть либо доступны только для узкого круга людей, либо находиться в открытом доступе);
- по целевой аудитории (исследователи в области компьютерной лингвистики, разработчики, рядовые пользователи и т. п., что определяет интерфейс системы);
- мультиязычности (отличаются по количеству поддерживаемых языков);
- характеру (готовые системы или библиотеки инструментов обработки текстов);
- универсализму (решение конкретных задач, обработка текстов в целом); используемым данным (тип и объемы обрабатываемых данных);
- по использованию экспертных правил и математических моделей;
- по работе с конкретными прикладными областями.
Мультиязычные системы зачастую являются более привлекательными с коммерческой точки зрения и являются более простыми в работе. В свою очередь, системы, которые ориентированы на работу с конкретным языком или подмножеством языков, позволяют обеспечивать небольшой прирост в качественных характеристиках за счет учета специфики языка. Классическим примером мультиязычной системы является переводчик Google.
Системы, которые рассчитаны на достаточно широкое (и, как правило, коммерческое) применение, имеют хорошо развитый интерфейсом для конечных пользователей (например, Microsoft Bing Translator и Google translator, ОРФО, программа, проводящая автоматическое переключение между различными раскладками клавиатуры Punto Switcher, утилиты от поисковой системы «Яндекс» и т. д.). Ряд систем данного класса имеет также свой собственный программный интерфейс (ОРФО, Microsoft Bing Translator). Но в некоторых случаях интерфейс является лишь дополнением, чем основным способом работы с системой. Напротив, для систем, которые ориентированы только на исследователей или представляющих собой составную часть более объемных проектов, программный интерфейс становится главным (а часто и единственным) методом взаимодействия. Интерфейсы для конечных пользователей в этих системах рассчитаны скорее на использование тестового режима и часто являются консольными. Примерами подобного рода систем являются: mystem, AOT, pyMorphy 1 и 2, «Томита парсер», OpenXerox, Snowball. Почти все указанные системы используются в процессе решения конкретных задач, которые возникают на различных этапах при проведении анализа текстов: выделение слов из текста (токенизация), морфологический анализ (определение частей речи и других грамматических характеристик), построение синтаксической структуры предложений и т. д.
Корпусы являются неотъемлемой частью многих систем, работающих с обработкой текстов. Каждому слову в корпусах сопоставлены исчерпывающие грамматические характеристики: принадлежность к определенной части речи, нахождение в определенной форме, определение синтаксической роли. Корпусы рассматриваются в качестве входных данных для обучения в задачах классификации текстов по темам и жанрам, для обучения синтаксических парсеров и программ, которые используются для снятия омонимии и разрешения анафоры. Параллельные корпусы, включающий одинаковые тексты на различных языках, используют для обучения машинные переводчики. Как правило, сбор корпусов производится десятилетиями, и в их создании задействуются силы больших исследовательских групп — например, проект «Национальный корпус русского языка» работает уже на протяжении 15 лет и поддерживается компанией «Яндекс».
Важным типом входных данных любой системы по обработке текстов являются морфологические словари. Например, библиотека «АОТ», с которой работают многие исследовательские и коммерческие проекты, основана на использовании словаря Зализняка в цифровой форме. Тезаурусы (или семантические сети) представляют собой другой тип широко востребованных входных данных. Самым известным тезаурусом является это WordNet, который представляет собой ресурс, в котором связывание слов производится с использованием семантических отношений: синонимии, гиперонимии (частное — обобщение), гипонимии (обобщение — частное), меронимии (часть — целое) и др. Система WordNet полезна в задачах, где необходимо проводить машинный перевод, генерацию текстов, классификацию текстов. В настоящее время русскоязычного аналога системы WordNet пока не создано.
Решение практически любых задач по обработке текстов связано с проведением анализа текста на нескольких уровнях представлений.
Графематический анализ. Выделение из массива текстовой информации предложений и слов (токенов).
Задачи морфологического анализа. Выделение грамматической основы слов, определение частей речи, приведение слов к словарным формам.
Задачи синтаксического анализа. Выявление наличия синтаксических связей между словами в предложениях, построение синтаксической структуры предложений.
Задачи семантического анализа. Определение наличия семантических связей между словами и синтаксическими группами, извлечение семантических отношений.
Проведение такого анализа является самостоятельной задачей, не имеющей собственного практического использования, но активно используемой в процессе решения более общих задач. Многие исследовательские системы используется в процессе решения именно вспомогательных задач. Системы подобного класса используются либо при апробации методов и работы над вычислительными экспериментами, либо как составные части (или библиотеки) для систем, которые служат для решения той или иной прикладной задачи. В качестве примера таких систем можно рассматривать служить систему NLTK, которая проводит графематический анализ и токенизацию, морфологический анализатор mystem и синтаксический парсер ЭТАП3.
Универсализм в АОТ предполагает наличие в системах нескольких взаимосвязанных методов и подходов. Имеется два класса указанных систем. К первому принадлежат системы, которые разработаны исследовательскими подразделениями крупных ИТ-корпораций: IBM, Intel, SAS, ABBYY, Microsoft, Xerox и т. д. Примерами таких систем, которые предназначены для проведения обработки англоязычных текстов, можно рассматривать IBM Content Analytics, SAS Text Miner и IBM Watson.
Другой класс составляют открытые интегрированные программные пакеты, которые создавались в университетах и включают множество методов и моделей, построенных на единой программной и математической платформе. Для английского языка можно назвать системы Apache OpenNLP, StanfordNLP, NLTK, GATE. Универсальных систем для работы с русскоязычными текстами на сегодняшний день, не разработано, более того, в случае работы с русским языком отсутствуют даже доступные для конечных пользователей системы, решающие основные лингвистические задачи: определение ключевых слов, тематическая классификация, системы определения их тональности.
Некоторые программы, разработанные для определения тональности текстов, направлены на проведение анализа текстов определенных жанров или тематики. Так, посредством использования системы Watson возможно проведение медицинской диагностики в медицине и поддержка принятия решений о тактике лечения. С помощью рекомендательной системы новостных сообщений News360 возможно выбирать наиболее интересную новостную информацию. На основе пользовательских предпочтений можно выбирать новые статьи, собранные с разных новостных порталов и отвечающие конкретной тематике. В некоторых случаях данные системы умеют распознавать тональность новостных сообщений — например, возможен просмотр только хороших новостей и исключение из ленты всех плохих. Рекомендательные системы, работающие с текстовыми данными, являются особенно востребованными при работе с Интернет-магазинами. С точки зрения АОТ отзывы пользователей Интернет-магазинов являются текстом, имеющим явную тональную окраску и посвященным конкретному предмету. В соответствии с отзывами пользователей возможно определить, остался ли он доволен купленным товаром или нет, а если ему что-то не понравилось, то понять, что именно. Кроме того, перед интернет-магазинами встают задачи по выявлению поддельных отзывов, которые могли быть написаны производителями товара. Создателям специализированных систем анализа отзывов приходится идти на компромисс — если специализация системы слишком узкая (например, она нацелена только на тексты про покупку бытовой техники), то ее невозможно будет использовать при анализе текстов другой специфики.
Выводы по разделу
Показать больше
Фрагмент для ознакомления
3
Список использованных источников
1. Sergei O. Kuznetsov, Fitting Pattern Structures to Knowledge Discovery in Big Data. ICFCA 2013. P. 254–266.
2. Christopher Manning, Hinrich Schuetze. Foundations of Statistical Natural Processing. MIT Press, 1999.
3. Boris Mirkin, Core Concepts in Data Analysis: Summarization, Correlation and Visualisation, DOI 10.1007/978-0-85729-287-2. Springer, 2011.
4. Константин Селезнев, Александр Владимиров. Лингвистика и обработка текстов // Открытые системы. — 2013. — № 04. — C. 46–49.
5. Наивный байесовский классификатор // bazhenov.me [Электронный ресурс]. URL: http://bazhenov.me/blog/2012/06/11/naive-bayes.html (дата обращения: 21.04.2018).
6. Анализ тональности высказываний в Twitter // nauchkor [Электронный ресурс]. URL: http://nauchkor.ru/pubs/analiz-tonalnosti-vyskazyvaniy-vtwitter-587d36485f1be77c40d58b7b (дата обращения: 21.04.2018).
7. К. В. Воронцов Лекции по методу опорных векторов // ccas [Электронный ресурс]. URL: http://www.ccas.ru/voron/download/SVM.pdf (дата обращения: 12.04.2018).
8. Метод k ближайших соседей // Википедия [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/Метод_k_ближайших_соседей (дата обращения: 13.04.2018).
9. Метод k-ближайших соседей // BaseGroup Labs [Электронный ресурс]. URL: https://basegroup.ru/community/glossary/nearest-neighbor (дата обращения: 13.04.2018).
10. Логит-анализ // MachineLearning.ru [Электронный ресурс]. URL: http://www.machinelearning.ru/wiki/index.php?title=Логит-анализ (дата обращения: 13.04.2018).
11. SentiStrength Download // Softpedia [Электронный ресурс]. URL: http://www.softpedia.com/get/Others/Home-Education/SentiStrength.shtml (дата обращения: 27.03.2018).
12. WordNet Domains // wndomains.fbk [Электронный ресурс]. URL: http://wndomains.fbk.eu/wnaffect.html (дата обращения: 28.03.2018).
13. Gonçalves P. и др. Comparing and Combining Sentiment Analysis Methods [Электронный ресурс]. URL: http://homepages.dcc.ufmg.br/~fabricio/download/cosn127-goncalves.pdf (дата обращения: 28.03.2018).
14. Opinion mining and sentiment analysis / Pang B., Lee L. Нью-Йорк: ACM, 2013, С. 79-86.
15. Sentiment inTwitter Events / Thelwall M., Buckley K., Paltoglou G. // J.Am. Soc. Inf. Sci. Technol., 2011. вып. № 2. С. 406–418.
16. Котельников Е. В., Клековкина М. В. Автоматический анализ тональности текстов на основе методов машинного обучения // dialog-21 [Электронный ресурс]. URL: http://www.dialog-21.ru/media/1380/105.pdf (дата обращения: 06.04.2018).
17. Syntactic N-grams as machine learning features for natural language processing / Sidorov G. и др. // Expert Syst., 2014. вып.№ 3. С. 853–860.
18. Русскоязычный корпус коротких текстов // study.mokoron [Электронный ресурс]. URL: http://study.mokoron.com/ (дата обращения: 07.04.2018).
19. Калимолдаев М., Пак А. Нейросетевой метод семантического вероятностного вывода в задаче улучшения релевантности результатов поискового запроса // problem-info [Электронный ресурс]. URL: http://www.problem-info.sscc.ru/2014-3/8.pdf (дата обращения: 08.04.2018).
20. MyStem — Технологии Яндекса // Яндекс [Электронный ресурс]. URL: https://tech.yandex.ru/mystem/ (дата обращения: 09.03.2018).
21. Ляшевская О. Н., Шаров С. А. Новый частотный словарь русской лексики // Словари на основе национального корпуса русского языка [Электронный ресурс]. URL: http://dict.ruslang.ru/freq.php (дата обращения: 11.03.2018).