К РАЗРАБОТКЕ ТАТАРСКО-ТУРЕЦКОГО МАШИННОГО ПЕРЕВОДЧИКА
Р. А. Гильмуллин
Казанский государственный университет
В. В. Ишимов
Казанский государственный университет
Ключевые слова: морфологический анализатор, PC-KIMMO, модуль генерации, модуль распознавания, обучающаяся модель перевода
В работе описываются основные модули построения татарско-турецкого машинного переводчика с использованием двухуровневого морфологического анализатора татарского и турецкого языков, разработанного совместно с Билкентским университетом, г. Анкара, Турция в рамках выполнения европейской программы “Наука за стабильность”.
- Введение
Двухуровневый морфологический анализатор (ДМА) татарского и турецкого языков реализован на базе программного инструментария PC-KIMMO [1], который использует лингвистическое описание фонологии и морфологии естественного языка для генерации и распознавания словоформ в этом языке. Информационная база системы, с точки зрения разработчика ДМА, состоит из двух файлов, созданных пользователем:
- Первый файл – это файл правил, который описывает алфавит и фонологические правила.
- Второй файл – это лексикон, содержащий словарь лексических единиц (корневых и аффиксальных морфем) и их толкования, а также описание морфотактических правил.
Файл правил для татарского языка состоит из 42 фонологических правила, 11 из которых реализуют ситуации, вызванные нарушениями в татарской морфологии в основном из-за ассимилированных слов из русского, арабского и др. языков, в то время как файл правил для турецкого языка содержит 29 фонологических правил. Файл лексикон содержит 27416 лексических единиц. Детальное описание файла фонологических и морфотактических правил татарского языка приведено в [2-6].
Структурно-функциональная часть ДМА включает две функциональные компоненты – генератор и распознаватель. Генератор на входе получает лексическую форму, применяет правила фонологии и возвращает соответствующую поверхностную форму. При этом лексикон не используется. Распознаватель получает на входе поверхностную форму записи словоформы, применяет правила фонологии, обращается к лексикону и возвращает соответствующие лексические формы с их комментариями.
Как известно, татарский и турецкий языки относятся к языкам тюркской группы с агглютинативным строем, обладающим богатой морфологией. В ходе разработки ДМА авторами выявлены значительные схожести между татарским и турецким языками как в морфологии, так и в синтаксисе языков, что позволило ставить задачу об использовании ДМА для построения машинных переводчиков для группы тюркских языков, в частности для создания татарско-турецкого машинного переводчика.
- Структурно-функциональное описание татарско-турецкого машинного переводчика
Работа татарско-турецкого переводчика, как показано на рис.1. состоит из следующих функциональных модулей:
Рис. 1. Структурно-функциональная схема татарско-турецкого машинного переводчика
2.1. Модуль перекодировки кириллического текста на латиницу
В программной среде PC-KIMMO для описания пользовательских файлов была использована латиница. Иными словами, входной текст для морфологического анализаторов должен быть представлен в латинской графике. Модуль позволяет конвертировать входной кириллический текст в требуемый латинический текст.
2.2. Модули морфологического разбора
Как отмечалось, ДМА реализован на базе программного инструментария PC-KIMMO. Однако, подключение ДМА с модулями генерации и распознавания в виде автономного модуля представилось для нас неприемлемым с двух позиций:
- a) Модуль не является независимым в смысле параллельного выполнения функций генерации или распознавания для обоих языков;
- b) Загрузка лингвистических файлов занимает определенное время, и каждый раз при смене языка это существенно влияет на работу системы в целом и при этом внутри одной программы необходимо учитывать время выполнения другого внешнего модуля. В связи с этим функции генерации и распознавания морфологического анализатора были реализованы в системе Delphi0.
2.2.1. Описание алгоритма программы генерации. Программа использует файл фонологических правил (файл правил), сгенерированный PC-KIMMO. В начале работы программа считывает из файла правил алфавит, специальные символы, множества, все возможные соответствия и правила. Все правила имеют следующую структуру:
- Первая строка: Rule “строка правила” количество состояний, количество переходов
- В следующих строках описан автомат для правила в табличной форме.
Работа алгоритма:
На вход поступает слово в лексической форме. Инициализируются состояния автоматов каждого правила. Начальное состояние для каждого правила – первое. Таблица состояний автоматов для каждого правила (в дальнейшем состояние): (1,1,…,1). Текущий символ – первый;
Для текущего символа берется первое возможное соответствие. Генерируется новое состояние:
- Если состояние правильное и символ последний, то выводится сгенерированное слово, далее производится откат назад и рассматривается другие возможные соответствия, если символ не последний, тогда выполняется следующий шаг.
- Если состояние неправильное, тогда проверяется следующее возможное соответствие, если существует правильное соответствие, то рассматривается следующий символ, если не существует правильного соответствия, то производится откат назад.
Шаг алгоритма повторяется до тех пор, пока все возможные варианты не перебраны.
2.2.2. Описание алгоритма программы распознавания. Модуль распознавания словоформ – это морфологический анализ словоформ, по сути, есть обратная функция генерации. Модуль распознавания использует файл морфотактических правил, а также файл аффиксальных и корневых лексем.
Работа алгоритма:
Алгоритм распознавания работает аналогично алгоритму генератора: строит все возможные варианты морфологического разбора.
Инициализация состояния (1,1…1). Установка лексикона INITIAL. Текущий символ первый (всегда Boundary)
Если результат получен, то вывод результата. Построить следующие варианты, если состояние правильное, тогда, если лексикон сгенерирован, то установить следующий лексикон и следующий символ, иначе откат назад.
Повторять шаг алгоритма до тех пор, пока все варианты не перебраны.
2.3. Модуль построения вариантов предложений
Результат морфологического разбора словоформы характеризуется большим числом лексических неопределенностей. Конструктор вариантов предложений формирует всевозможные предложения, возникающие в результате неоднозначного морфологического разбора.
2.4. Модуль обучающейся модели перевода
В традиционных подходах машинного перевода (МП) формирование проблем основывается на обширные знания обеих языков исходного и выходного. МП, основанный на блоках текстов один из альтернативных направлений, разрешает такого рода трудности в традиционных системах.
В блочном машинном переводе (БМП) унаследованы два фундаментальных подхода: статистический и примерный (шаблонный), также называемый memory-based machine translation (MBMT). Оба подхода предполагают существование двух языковых параллельных текстов (уже переведенных блоков). Если статистический способ МП использует статистические метрики выбора наиболее возможных структур в выходном языке, то способ примерного МП использует образцы соответствующих способов перевода для данной входной последовательности.
Примерное представление широко используется в МП. Согласно Медин и Шаффер[7], кто первоначально предлагал модель, основанный на блочных переводах, примеры хранились в памяти без каких-либо изменений. Основная идея метода, использовать прошлый опыт или ситуации, чтобы понимать, планировать или извлекать из него новые ситуации. Примерный перевод основывается на использование уже переведенных примеров, чтобы получить перевод для выходного языка. Входное предложение, которое должно быть переведено сравнивается с аналогичными переводами, чтобы найти его соответствующий перевод в другом языке. Понятно, что такой подход хранения и использования примерных переводов трудоемкий и имеет достаточно много ошибок при использовании больших блоков.
Обучающаяся модель перевода (ОМП), используемая в нашей системе помогает автоматизировать вышеизложенный процесс и хранит образцы перевода в форме моделей, которые на основе входного текста могут обобщаться новыми моделями.
Алгоритм построения таких моделей основан на эвристическом методе изучения соответствий между образцами в исходном и выходном языках, на примере двух переведенных пар предложений.
Суть метода: Даны две переведенные пары предложений, если предложения в выходном языке обнаруживают некоторые сходства, тогда соответствующие предложения в выходном языке должны иметь сходные части, и они должны быть переводами сходных частей предложений исходного языка. Далее, остающиеся несходные части исходных предложений должны также соответствовать несходным частям выходного языка. Однако, если предложения не обнаруживают сходных элементов, тогда не предполагается никаких сходств. Для иллюстрации эвристического метода рассмотрим следующие переведенные пары, взятые из татарского и турецкого языков. Для общности модели, примеры представляются в лексической форме записи:
Татарский |
Турецкий |
Русский |
|
|
|
Мин урман+КА бар+ДЫ+м |
Ben orman+yA git+DH+m |
‘Я ходил в лес’ |
Мин акча+КА бар+ДЫ+м |
Ben para+yA git+DH+m |
‘Я ходил за деньгами’ |
|
|
|
Сходные части между переведенными примерами подчеркнуты. В оставшихся частях предложений есть различия. Мы представляем сходные части в татарском языке как [Мин XТат+КА бар+ДЫ+м], и соответствующие сходные части в турецком как [Ben XТур+yA git+DH+m]. Согласно методу, эти сходные части должны соответствовать друг другу. Здесть, XТат обозначает элемент, который может быть заменен любой подходящей конструкцией в татарском и XТур соответствует его переводу в турецком. Эти обозначения представляют абстракцию различий между ‘урман’ и ‘акча’ в татарском и ‘orman’ и ‘para’ в турецком. Продолжая далее, мы предполагаем, что ‘урман’ должен соответствовать ‘orman’ и ‘акча’ должен соответствовать ‘para’.
Итак, даны блоки переведенных моделей. ОМП предполагает соответствия между исходным и выходным языком в форме моделей. Эти модели могут использоваться для перевода в обоих направлениях. Для выше переведенных пар ОМП будет следующей:
[Мин XТат+КА бар+ДЫ+м] <==> [Ben XТур+yA git+DH+m], если
[XТат] <==> [XТур]
2.5. Модуль перекодировки текста на турецкий алфавит
Специфические символы турецкого языка в ДМА представлены в виде заглавных латинских букв. Модуль перекодировки текста конвертирует эти символы в требуемый вид.
- Заключение
Система ТТМП реализуется в программной среде Delphi 6.0. Разработаны и реализованы архитектура татарско-турецкого машинного переводчика, алгоритм обучающейся модели перевода в виде формальных моделей на базе параллельных текстов, функция морфологической генерации татарских и турецких словоформ ДМА в системе Delphi 6.0.
В настоящее время продолжаются работы по разработке технологии пополнения словарей, накоплению корпусов параллельных текстов, реализации модуля морфологического распознавания, усовершенствованию, отладке и тестированию программных модулей.
Литература
- Evan L. Antworth. PC-KIMMO: A Two-level Processor for Morphological Analysis. // Summer Institute of Linguistics/Occasional Publication in Academic Computing Number 16. -P.263.
- Suleymanov D.Sh., Guilmullin R.A., Guilmy A.A. Two-level phonological rules of Tatar morphology // Научные труды YI международной конференции "Знания-Диалог-Решение". - Крым, Ялта. 15-20 сентября 1997. C.299-305.
- Сулейманов Д.Ш., Гильмуллин А.А., Гильмуллин Р.А. Файл фонологических правил татарского языка // Электронная конференция информационные технологии в гуманитарных науках 25-31 мая, 1998. -Казань.http://www.kcn.ru/_tat_ru/universitet/gum_konf/ot7.htm.
- Сулейманов Д.Ш., Гильмуллин А.А., Гильмуллин Р.А. База морфотактических правил для татарского глагола как основа двухуровневого морфологического анализатора // Сборник трудов Международного семинара ДИАЛОГ-98. Казань, 1-2 июня. С.597-609.
- Сулейманов Д.Ш., Гильмуллин Р.А. Реализация контекстных соответствий А:а, А:ä в файле фонологических правил // Cборник трудов Математического центра имени Н.И. Лобачевского. Т.4. Компьютерная лингвистика. – Казань: УНИПРЕСС, 1999. C.127-137.
- Гильмуллин Р.А. Реализация контекстных соответствий Ы:ы, Ы:е и Ы:0 в файле фонологических правил // Cборник трудов Математического центра имени Н.И. Лобачевского. Т.4. Компьютерная лингвистика. – Казань: УНИПРЕСС, 1999. C.51-58.
- Medin, D.L., Schaffer, M.M.: Context theory of classification learning. Psychological Review, 85. 1978. P.207-238.
Toward development of Tatar-Turkish Machine Translation
- A. Gilmullin, V. V. Ishimov
Key words: morphological analyzer, PC-KIMMO, generation’s module, recognition’s module, translating templates learning
The article describes the Two-level Tatar morphological analyzer and basic modules of the Tatar-Turkish machine translator developed using the PC-KIMMO tools. The parallel texts using method for machine translation is suggested. We suppose, such approach is most suitable for translation texts between the relative languages such as Tatar and Turkish, whereas as a rule they include identical set of the Morphological, Syntactic and Semantic Metha -schemes.