- Курсовая работа
- Дипломная работа
- Контрольная работа
- Реферат
- Отчет по практике
- Магистерская работа
- Статья
- Эссе
- Научно-исследовательская работа
- Доклад
- Глава диплома
- Ответы на билеты
- Презентация
- Дипломная работа MBA
- ВКР
- Компьютерный набор текста
- Речь к диплому
- Тезисный план
- Чертёж
- Диаграммы, таблицы
- ВАК
- Перевод
- Бизнес план
- Научная статья
- Рецензия
- Лабораторная работа
- Решение задач
- Диссертация
- Доработка заказа клиента
- Аспирантский реферат
- Монография
вам Нужна Магистерская работа ?
-
Оставьте заявку на Дипломную работу
-
Получите бесплатную консультацию по написанию
-
Сделайте заказ и скачайте результат на сайте
Исследование и сравнительный анализ методов машинного перевода
- Готовые работы
- Магистерская работа
- Информатика
Магистерская работа
Хотите заказать работу на тему "Исследование и сравнительный анализ методов машинного перевода"?59 страниц
0 источников
Добавлена 12.07.2021
5130 ₽
10260 ₽
Фрагмент для ознакомления 1
СОДЕРЖАНИЕ
С.
СОДЕРЖАНИЕ 2
ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 7
1.1. ВИДЫ ФОРМЫ И ЖАНРЫ ПЕРЕВОДА. 12
1.2. МЕСТО МАШИННОГО ПЕРЕВОДА В ОБЩЕЙ КЛАССИФИКАЦИИ 16
1.2. ИСТОРИЯ МАШИННОГО ПЕРЕВОДА 20
2.1. ВИДЫ ФОРМЫ И ЖАНРЫ ПЕРЕВОДА. 30
СПИСОК ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 46
Фрагмент для ознакомления 2
Область машинного перевода является довольно молодой наукой, и начала развиваться как отдельная наука с 50 годов двадцатого века. Точкой отчета принято считать время Джорджтаунского эксперимента, когда американскими ученными была создана система по автоматическому переводу текста, хотя для своего времени, она была очень простой системой.
Не отставали и советские ученные, которые в 1954 году производят тестирования Советской системы машинного переводов текста, для электронно вычислительной машины БЭСМ.
Еще на заре создания электронно-вычислительных машин люди предполагали, что с помощью вычислительных устройств, возможно будет получать тексты, которые будут не хуже переводов сделанных профессиональными переводчиками. Понятно, что появление электронных переводчиков такого уровня позволяла бы: во первых отказаться от такой профессии как переводчик текстов, во вторых позволило бы любому человеку свободно общаться с носителями другого языка без обучении данному языку.
Известно, что на сегодняшний день такие сервисы как Google.translate могут переводить текст, прямо из речи пользователя. Такими системами могут пользоваться туристы при пребывании в стране, при котором они не знают язык местных жителей. Поэтому такие системы значительно будут упрощать коммуникацию для таких людей. Тем самым идеи известного писателя – фантаста Дугласа Адамса в романе «автостопом по галактике» стала реальностью. Где он писал о вавилонской рыбке, обладатель которой при введении данной рыбке в ухо, мог понимать любой язык, на котором говорят во вселенной. По-видимому писателя-фантаста сильно впечатлило строительство Вавилонской башни, которую строили библейские люди. Сейчас же технологии позволяют полностью реализовать такую рыбку, конечно же, в пределах земли. Технологии достигли определенного технического уровня, используя которые возможно создание таких сложных электронно-программных устройств.
К примеру, в качестве такой «рыбки» может выступать Bluetooth – гарнитура, подключенная к телефону на платформе андройд. Система андройд имеет по умолчанию систему по распознаванию человеческой речи и систему онлайн перевода. По сути, симбиоз этих двух систем и получает «вавилонскую рыбку». Данная система позволяло бы беспрепятственно вести диалог между людьми, которые умеют разговаривать на разных языках.
На сегодняшний день системы переводов нацелены в первую очередь на получение качественных переводов в общем стиле. Понятно, что невозможно на данном этапе получения литературных переводов, так перевод художественных произведении предполагает тонкую работу со смыслом текста. В некоторых местах текст, может носить не только прямой, но иносказательных характер. В данном случае понимание и создание литературных переводов лежит в плоскости психологии человека, поведения его окружающего мира. Поэтому на сегодняшний день и в обозримом будущем невозможны системы, которые смогут создавать литературные переводы. В тоже время делаются попытки на основе нейронных сетей на обучение системы литературному переводу. Для этого система обучается на основе входящих текстов. Но в данном случае задача на порядок сложнее, так как автор перевода старается ведь передать именно окраску и сам смысл предложения. И необязательно данное предложение будет прямым аналогом предложения на исходном языку. Но такой подход и имеет и свои недостатки, как утверждается, что при переводе зачастую получается новое произведение, которое с первоначальным текстом не имеет ничего общего.
Во всем мире происходит переход от методов и инструментов принуждения и конкуренции к сотрудничеству и диалогу в отношениях. Все больше возрастает заинтересованность власти, бизнеса и общества во взаимовыгодном партнерстве, направленном на социальную стабильность. Она, в свою очередь, является залогом формирования гражданского общества, эффективного функционирования социальных институтов и развития бизнеса. В связи с этим все большее внимание привлекает к себе проблема социальной ответственности организаций.
Проблема исследования заключается в исследовании систем машинного перевода и анализ качества систем машинного перевода Промт, Google Поэтому возникает необходимость в освещении данного материала.
Актуальность решения проблемы для науки и практики системы машинных переводов состоит в том, чтобы создать идеальную систему способная быстро и качественно производить перевод текста. Сложность же данного вопроса состоит в решении проблемы возможности анализа огромных данных и создании на основе их качественной системы перевода
Степень научной разработанности проблемы Разработка данной проблематики, таким образом, активно осуществляется на экспертно-прикладном уровне, а результаты находят свое практическое отражение в деятельности лингвистов, переводчиков. Актуальность проблемы и недостаточная степень ее разработанности определили в итоге тему данного диссертационного исследования.
Объектом исследования в данной работе являются системы машинного перевода текстов.
Предметом исследования.- это проблематика создания систем автоматического перевода текстов или по-другому проблема создания систем машинного перевода.
Цель диссертационного исследования состоит в том, чтобы определить и обосновать возможность, значение, эффективность инструментального использования систем автоматического перевода текста.
исследовательских задач: определение и решение проблем в системах машинного перевода.
Гипотеза исследования основывается на возможности построения эффективных и качественных систем автоматического перевода текстов.
Теоретико-методологическая основа исследования базируется на исследованиях крупных компании, которые занимаются разработкой больших систем машинного перевода, литературы в области создания систем машинного перевода.
Эмпирическую базу исследования составили результаты полученные путем исследования систем машинного перевода, определение их преимущества перед переводом профессионального переводчика и сравнения результатов полученных в процессе перевода различными системами машинного перевода.
Научно-практическая значимость исследования.
Материалы исследования, а также его общие выводы свидетельствуют о возможности использования систем машинного перевода текстов, для использования в народном хозяйстве, в работе крупных компании, а также использование его как эффективный инструмент автоматизации машинного перевода.
Материал, представленный в диссертации, может быть использован при преподавании и изучении ряда дисциплин по лингвистике, системам автоматического перевода текстов, а также в области исследования проблем искусственного интеллекта.
Структура диссертации состоит из введения, двух глав, восьми параграфов, в которых решаются поставленные исследовательские задачи, заключения, списка источников и литературы.
ГЛАВА I.
ТЕОРЕТИЧЕСКАЯ ЧАСТЬ
Машинный перевод текста – это перевод текста с одного языка на другой используя для этих целей специальное программное обеспечение. Переведенный текст, при этом должен быть эквивалентен в смысловом плане изначальному тексту. Перевод текста с помощью вычислительных машин позволяет добиться очень больших скоростей перевода, недостижимых даже для профессиональных переводчиков. Переводы должны полностью передавать смысл исходного текста. Переведенный текст должен полностью соответствовать нормам языка, для которого осуществляется перевод. Необязательным, но желательным правилом также предъявляется и к объему текста, по крайней мере, к языкам которые состоят в одной языковой группе. Понятно, что при переводе текстов романской группы к текстам использующие иероглифы невозможно сохранить примерно такой же объем текста. По причине того, что в языках использующие иероглифы, возможна замена предложении несколькими иероглифами, поэтому объем полученных текстов, заметно меньше оригинала.
Основоположник Российской теории перевода- Л.С.Бархударов дает свое определение переводу: «Перевод – это процесс преобразования речевого произведения на одном языке в речевое произведение на другом языке при сохранении плана содержания» [Л.С. Бахрударов, 1975:11].
Г.В Колшанский в своих работах подчеркивает, что: «перевод – это один из важнейших видов коммуникативной деятельности, ориентируется прежде всего на полную и адекватную передачу языка оригинала, содержащего всю совокупность импликации языкового, социального плана и культурного плана» [Семко, 1988:10]. Г.В.Колшанский отводил переводам, огромную роль развития человечества как единого организма познания.
Особенно, это полезно и для всего человечества в целом, благодаря труду переводчиков многие люди могут знать о новых открытиях, о литературных произведениях. Если же в научном плане переводы помогают ученным по всему миру заниматься едиными проблемами, несмотря на языковые барьеры. Переводы художественных произведении позволяют людям узнавать о народах живущих в других странах. Литературные произведения – это лучший путеводитель по духу и жизни народа. Особенно – это можно сказать о таких произведениях как «Война и Мир » Льва Николаевича Толстого, который входит в сокровищницу мировой литературы. Известно, что данный роман является одним из самых из известных произведений в мире, который оставался бы неизвестным, если бы титанический труд переводчиков.
Одновременно с появлением электронно-вычислительных машин, в мире начали появляться теории по электронному переводу текстов.
Исходя, из вышесказанного можно сделать вывод: что системы машинного перевода должны обеспечивают связный перевод текстов, учитывающий морфологические, синтаксические и семантические связи членов предложения. Поэтому многие системы перевода используют в своем арсенале все возможные схемы и правила составления предложении, для создания качественных переводов. Поэтому создание качественного перевода является трудной задачей не только для человека, но и достаточно трудной задачей для ее формализации. Трудность задачи еще добавляет тот факт, что одни и теже слова, в различной последовательности могут менять полностью смысл предложения, соответственно искажать смысл всего переведенного текста. Неправильные знаки препинания, использование слов некорректных синонимов в данном контексте, также может привести к искажению оригинального текста.
На заре развития электронно-вычислительных машин, программы перевода работали довольно примитивным образом. Они не учитывали особенности языка и делали пословный перевод текста. Для перевода предложения с одного языка на другой использовалась пословная замена слова из одного языка на слово другого. Поэтому ценность такого перевода практический была равна нулю, в силу того что переведенный текст полностью искажал информацию которая была в изначальном тексте. Поэтому многие скептики утверждали, что электронно-вычислительные машины, никогда не смогут заменить труд переводчика. По мере развития теории языка и появления новой теории в области кодировании информации, ситуация координально изменилась. К примеру, достаточно прогрессивную модель по кодированию информации предложил в 1948 году Клод Шеннон. Клод Шеннон – американский аналитик, инженер и математик, считается одним из отцов основателей теории информации. В одной из своих известных работ «Теория связи», предложил математическую модель связи между источником и приемником. Источник в данном случае только отправляет сообщения, а приемник раскодируют сообщения. Оба субъекта информационного обмена пользуются словарем для кодирования и расшифровки сообщений. Идея модели полностью соответствует, к модели создания переводов текстов с одного языка на другой. Где исходный текст является источником информации, а приемником является текст перевода. Также в данной модели не упустили очень важную деталь такую как шум. Шумы вносят искажения в смысл получаемого текста. Шумы являются важной составляющей любой системы. Шумы в зависимости от интенсивности могут нарушать работу системы. Удары молнии могут на время вносить шум в эфир радиопередачи. К примеру, для человека- туман вносит искажения для получения корректной информации о дорожной обстановке. Соответственно любая система подвержена в той или иной мере шумам, которые меняют содержание исходной информации. Очень важное дополнение к теории шумов сделал советский математик Владимир Левенштайн и американский математик Ричард Хэмминг. Хэмминг предложил теорию по устранению шумов в одиночных битах. Данная теория также применима к системе переводов. Очень часто исходный текст может поступать в достаточно зашумленном виде. Если человеком короткое предложение: Five minutes и Fife minutes будет переведено как пять минут. Для машины же перевод слова fife- могло бы означать слово туча или же флейта при переводе с английского на русский, но по контексту оно бы не подходило к смыслу сказанного предложения. В более простом случае при внесении искажения в слово всего лишь на одну букву, оно может быть вычислено в виде редакционного расстояния и заменено на правильную расстановку. В более сложном случае вычисление редакционного расстояния недостаточно, так как надо учитывать смысл предложения. Особенно тяжелым является случай, когда два слова находятся на одном расстоянии редактирования от оригинального слова, и выбор правильного слова не всегда может привести к правильному результату. Поэтому при переводе текстов систем переводов текста, необходимо учитывать и возможность появления шумов. Особенно зашумленности подвержены тексты которые производятся при распознавании аудио текста, при котором могут быть неправильно распознаны отдельные слова. Поэтому система переводов – это очень трудно формализуемая область человеческой деятельности, которая требует больших знании не только в области лексики, морфологии и семантики языка, но и требует больших знании в области кодирования информации, в теории шумов и многих других знании в смежных областях науки. Особенно сегодня системы переводов нацелены на получение переводов в реальном времени, по входящему аудио –сигналу. К примеру такие системы как Google-translate используют в свой системе распознавание сказанного текста и автоматический перевод его на другой язык. Как известно для данного направления широко используются нейронные сети, которые распознают входящий текст. Также известно, что в последних своих наработках крупные компании как Google, Yandex и Промт также используют системы искусственного интеллекта для улучшения качества своих систем. Под искусственным интеллектом в данном случае понимаются специально обучаемые программы - нейронные сети, которые подвергают постоянному обучению. Для обучения переводам, могут использовать тексты, которые сделаны профессиональными переводчиками. Поэтому в идеале такие системы должны достигнуть качества профессионального переводчика. Но системы искусственного интеллекта, требуют огромные вычислительные мощности, поэтому занимают соответственно большие дата центры этих организации. На сегодняшний день программы-переводчики из персональных программ перешли в онлайн среду. Поэтому даже если программа и установлена на компьютере пользователя, она отправляет данные на сервер организации, откуда производится перевод и отправляется на компьютер клиента. Некоторые системы как Google.Translate и Яндекс.Переводчик изначально создавались как онлайн-системы перевода текстов. Используя большое количество различных систем программы машинного перевода пока далеки от идеальной системы и значительно уступают профессиональным переводчикам.
На сегодняшний день больших результатов в плане машинного перевода смогли добиться специалисты Google. Система машинного перевода представляет собой онлайн-систему к которой могут подключаться миллионы пользователей по всему миру. Если большинство систем используют статистические или гибридные модели перевода, то специалистами Google внедрена система перевода на основе нейронных сетей. Но как известно у нейронных сетей есть две большие проблемы – это обучение сетей и вычислительные мощности. Также немаловажной проблемой нейронных сетей является необъяснимость полученного результата. Архитектура сетей представляет собой очень сложную конфигурацию, но позволяет распараллеливать вычислительные процессы.
1.1. Виды формы и жанры перевода.
Классификация переводов может различаться: по типу, форме и жанрам. Переводы текстов могут использоваться в различных областях нашей жизни, соответственно различны как требования, предъявляемые к переводам так и точность. Поэтому существуют и различные виды переводов.
Жанрово-стилистическая классификация и психолингвистическая классификация разделяет виды переводов на художественные и информативные типы переводов. Художественный или подругому литературный перевод предполагает создание на переводящем языке произведения, который должен оказывать сходное эстетическое влияние на автора.
Художественный перевод опирается на речевое творчество переводчика, его литературный талант. Переводчик должен воспринимать текст как независимый обозреватель и выявлять возможные трудности при его прочтении. Поскольку практически любой текст допускает возможность нескольких вариантов перевода, переводчик как создатель художественного текста на переводящем языке должен иметь ввиду, что выбранный им вариант должен быть именно художественным, и он обязательно должен включать в себя возможность всех тех толкований, которые допускает текст оригинала [5; с.375]. Осуществляя художественный перевод важно отразить индивидуальный стиль автора, авторскую эстетику[там же; с.326].
Специальные виды переводов - перевод текстов специализированной тематики, главной функцией которых является сообщение какой-либо информации, сведении. В зависимости от того, к какому именно функциональному стилю принадлежит текст, предназначенный для перевода, выделяются отдельные подвиды информативного перевода: общественно-политический перевод, научно-технический перевод, юридический перевод.
Различают также виды устного и письменного перевода.
Устный перевод – это вид перевода, при котором оригинал и его перевод выступают в нефиксированной форме. Переводчик имеет возможность лишь однократно воспринять исходное речевое произведение или его отрезок и выполнить перевод без возможности его последующего анализа, переосмысления и исправления.
Письменный перевод – это вид перевода, при котором и текст оригинала, и текст перевода выступают в виде фиксированных текстов. Переводчик в процессе осуществления своей деятельности имеет неограниченную возможность обращаться как к тексту оригинала, так и к тексту перевода.
Рассматривая дробное деление видов перевода, согласно многим ученым лингвистам, можно различать следующие виды:
Вторая, психолингвистическая классификация, учитывает характер действий переводчика в процессе перевода, а именно способ восприятия текста оригинала и способ создания текста перевода, подразделяя переводческую деятельность на: устный перевод и письменный
Устный перевод – это вид перевода, при котором оригинал и его перевод выступают в нефиксированной форме. Переводчик имеет возможность лишь однократно воспринять исходное речевое произведение или его отрезок и выполнить перевод без возможности его последующего анализа, переосмысления и исправления.
Письменный перевод – это вид перевода, при котором и текст оригинала, и текст перевода выступают в виде фиксированных текстов. Переводчик в процессе осуществления своей деятельности имеет неограниченную возможность обращаться как к тексту оригинала, так и к тексту перевода.
Рассматривая дробное деление видов перевода, согласно многим ученым лингвистам, можно различать следующие виды:
1. устно-устный перевод (перевод письменного текста-оригинала, выполняемый устно);
2. письменно-письменный перевод (перевод письменного текста-оригинала, выполняемый в письменной форме);
3. устно-письменный перевод (перевод устного речевого произведения, выполняемый в письменной форме);
4. письменно-устный перевод (перевод письменного текста-оригинала, выполняемый устно).
Принимая во внимание критерий времени перевода, можно выделить также такие разновидности устного перевода как:
1. последовательный перевод;
2. синхронный перевод.
Последовательный перевод – устный перевод, выполняемый либо после произнесения всего речевого произведения-оригинала оратором, либо в паузах речи оратора. Обычно такие паузы оратор делает после произнесения одного или нескольких предложений.
Синхронный перевод – устный перевод, выполняемый переводчиком одновременно с произнесением произведения-оригинала оратором. Т.е. при таком виде перевода происходит синхронное восприятие услышанного и порождение его перевода. Синхронный перевод может либо немного отставать от речи оратора, что носит название синфазности перевода (или фазового сдвига), либо немного опережать речь оратора, благодаря специальной технике вероятностного прогнозирования.
По критерию направления перевода можно выделить:
1. односторонний перевод;
2. двусторонний перевод.
Примерами одностороннего перевода служат устный и письменный перевод, выполняемый только в одном направлении, с одного языка на какой-либо другой язык. Пример двустороннего перевода – устный последовательный перевод беседы, выполняемый с одного языка на другой и обратно.
Критерий участия человека в переводческом процессе обусловливает деление видов перевода на:
1. машинный перевод;
2. традиционный перевод, т.е. перевод, выполняемый человеком.
Традиционный перевод может быть выполнен переводчиком, не являющимся одновременно автором текста-оригинала, может быть выполнен автором текста-оригинала (авторский перевод или автоперевод), может быть выполнен переводчиком и апробирован автором текста-оригинала (авторизованный перевод).
Следующее деление видов перевода происходит по признакам полноты, а также способа передачи смысла и содержания произведения-оригинала.
Существует полный (сплошной) и неполный перевод. Первый без пропусков и сокращений передает смысловое содержание оригинала, второй допускает пропуски и сокращения.
Неполный перевод в свою очередь делится на сокращенный перевод (передача смыслового содержания оригинала в свернутом виде), фрагментарный перевод (перевод отрывка или отрывков текста-оригинала), аспектный перевод (перевод части текста в соответствие с каким-либо заданным признаком отбора), аннотационный перевод (главная тема, предмет и назначение переводимого текста) и реферативный перевод(перевод, в котором содержатся относительно подробные сведения о реферируемом документе - его назначении, тематике, методах исследования, полученных результатах).
Поэтому считается что, невозможно построить хорошую программную или же математическую систему, которая будет получать хорошие литературные переводы. Основная проблема данного изыскания состоит в том, что машины пока не могут работать со смыслом предложения и оперировать образами в которых может фигурировать и в основном это чувственные переживания автора. То есть для получения качественных моделей перевода, необходимо создать искусственный интеллект и только потом на основе искусственного интеллекта создать систему перевода которая сможет обойти человека по скорости, качеству и точности перевода.
1.2. Место машинного перевода в общей классификации
Перевод (по определению) – это деятельность, заключающаяся в передаче содержания текста на одном языке средствами другого языка, а также результат такой деятельности. Особое место в теории перевода занимает машинный перевод (МП) – научная и одновременно технологическая дисциплина, связанная с наукой о переводе, а так же с компьютерной лингвистикой. Машинный перевод – это выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия [Фролов, Паньков 2008: 127].
Толковый переводоведческий словарь Л.Л. Нелюбина определяет машинный перевод следующим образом: – 1. Автоматический перевод текста на основе заданной программы, осуществляемой ЭВМ. 2. Отрасль языкознания, разрабатывающая теорию такого перевода на основе коренного пересмотра основных положений и методов лингвистики. 3. Автоматизированная обработка информации в условиях двуязычной ситуации – передача текста с одного человеческого (естественного) языка на другой. 4. Перевод с использованием машин (ЭВМ, компьютера). 5. Общий процесс переработки информации в условиях двуязычной ситуации на любом этапе использования (и развития) технических средств. 6. Процесс перевода текста с одного языка (естественного или искусственного) на другой (естественный или искусственный), осуществляемый на электронной цифровой вычислительной машине [Нелюбин 2009:107].
Идея машинного перевода, т.е. мысль поручить машине работу по переводу с одного естественного языка на другой, насчитывает к настоящему времени уже около пятидесяти лет существования. Примерно столько же лет ведутся научно-исследовательские и опытно-конструкторские работы по машинному (автоматическому) переводу во многих странах мира [Марчук 2007: 245].
Говоря о машинном переводе, следует, прежде всего, помнить, что компьютер не наделен сознанием. Он не понимает языковых нюансов, намеков в тексте, того, что называется тонкой игрой слов. Мышления как такового при машинном переводе не происходит: предложение расчленяется на части речи, в нем выделяются стандартные конструкции, слова и словосочетания переводятся по находящимся в памяти машины словарям. Затем переведенные части речи собираются по правилам другого языка.
Но этого недостаточно для полноценного перевода. В зависимости от того или иного стиля и назначения текста одно и то же слово нередко имеет разные значения. В какой-то мере эта особенность учитывается в системах машинного перевода: предусмотрены сменные словари, иногда для каждого вида текста предусмотрен свой словарь. Если лексики одного машинного словаря не хватает и применяются несколько словарей одновременно, можно указать системе, из какого словаря нужно брать слово, если есть несколько вариантов его перевода. Наконец, программа сама может предлагать на выбор пользователю несколько вариантов перевода, и он сам выбирает подходящий вариант [Пиотровский 1979: 58].
При нынешнем уровне машинного перевода без участия человека не обойтись. Чтобы компьютер мог перевести текст, ему нужна помощь предредактора, который тем или иным образом предварительно обрабатывает подлежащий переводу текст, интерредактора, который участвует в процессе перевода, и постредактора, который исправляет ошибки и недочеты в переведенном машиной тексте [Рябцева 1986: 167].
В основе работы программы-переводчика лежит алгоритм перевода – последовательность однозначно и строго определенных действий над текстом для нахождения соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с одного конкретного языка на другой).
Чтобы успешно работать, система машинного перевода включает в себя, во-первых, двуязычные словари, снабженные необходимой информацией (морфологической, относящейся к формам слова, синтаксической, описывающей способы сочетания слов в предложении, и семантической, т.е. отвечающей за смысл), а во-вторых – средства грамматического анализа. Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода:
1. На первом этапе осуществляется ввод текста и поиск входных словоформ во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы, например, каким членом предложения может быть данное слово. Для машины совмещение двух операций – и грамматического разбора, и обращения к смыслу слов – задача трудная. Поэтому машина осуществляет синтаксический анализ предложения без опоры на значения слов, с использованием информации только об их грамматических свойствах. В результате синтаксического анализа возникает синтаксическая структура, которая изображается в виде дерева зависимостей: «корень» – сказуемое, а «ветви» – синтаксические отношения его с зависимыми словами. Каждое слово предложения записывается в своей словарной форме, а при ней указываются те грамматические характеристики, которыми обладает это слово в анализируемом предложении.
2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, их роли в данном предложении и пр.), производимое в рамках входного языка; разрешение неоднозначности (например, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом).
3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка.
4. Синтез выходных словоформ и предложения в целом на выходном языке. Синтаксис каждого языка устроен на свой лад: то, что в русском предложении – подлежащее, в другом языке может (или должно) быть выражено дополнением, а дополнение, наоборот, должно преобразоваться в подлежащее; то, что в одном языке обозначается группой слов, переводится на другой всего одним словом и т.д. В связи с этим в машинную память помимо наборов синтаксических правил для каждого языка «вкладывают» и правила преобразования синтаксических структур. К этому добавляют правила перехода от уже преобразованной структуры к предложению того языка, на который делается перевод. Такой переход от структуры к реальному предложению называется синтаксическим синтезом.
В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны [Марчук 1985: 202].
Фрагмент для ознакомления 3
Узнать стоимость работы
-
Дипломная работа
от 6000 рублей/ 3-21 дня/ от 6000 рублей/ 3-21 дня
-
Курсовая работа
1600/ от 1600 рублей / 1-7 дней
-
Реферат
600/ от 600 рублей/ 1-7 дней
-
Контрольная работа
250/ от 250 рублей/ 1-7 дней
-
Решение задач
250/ от 250 рублей/ 1-7 дней
-
Бизнес план
2400/ от 2400 руб.
-
Аспирантский реферат
5000/ от 5000 рублей/ 2-10 дней
-
Эссе
600/ от 600 рублей/ 1-7 дней