Сборник 2002

Содержание

Вернуться к статьям

ИНТЕРАКТИВНОЕ УПРАВЛЕНИЕ АЛГОРИТМАМИ ПЕРЕВОДА В СИСТЕМАХ МП

Ю. А. Епифанцева

ЗАО «ПРОект МТ»

Julia.Epiphantseva@promt.ru

Ключевые слова: машинный перевод, интерактивное управление алгоритмами перевода, тип текста.

В данной статье обсуждаются возможности интерактивного влияния на алгоритмы перевода в системах МП, приводятся примеры некоторых структур, для которых уже созданы возможности выбора альтернативного анализа или синтеза в системах ПРОМТ, а также рассматривается ряд других потенциальных структур. Примеры приводятся для русского, английского, немецкого и французского языков. Цель статьи заключается в том, чтобы показать эффективность данного метода в МП и возможность его всестороннего применения и дальнейшего развития.

Введение

Несмотря на то, что с развитием и ростом популярности Интернета, постоянно растет количество людей, либо ставших активными пользователями систем МП, либо пользующихся время от времени услугами онлайновых переводчиков, сама идея МП, а также реально существующие и применяющиеся системы МП постоянно подвергаются острой критике. При этом противники, или просто те, кто скептически относится к МП, приводят убедительные примеры тех структур, где «искусственный» интеллект не в состоянии принять правильное решение и успешно справиться с переводом. Это решение при переводе в состоянии принять только «всесильный» человеческий разум.

Трудно спорить с тем, что в языке есть «неразрешимое», то, что невозможно так точно описать c формальной точки зрения на одном естественном языке, чтобы можно было безошибочно перевести на другой естественный язык. Подчас информация, которая необходима при синтезировании выходного языка, просто-напросто отсутствует во входном языке (примеры этого будут приведены ниже). В каждом естественном языке также присутствует некоторое количество омонимичных структур, позволяющих анализировать их корректно двумя различными способами. Кроме того, выбор того или иного синтеза, в частности, может зависеть от типа текста. Зная тип текста можно заранее установить:

- приоритет при анализе определенных структур

- приоритет при синтезе определенных структур.

Таким образом, возникает идея не сокрушаться по поводу непереводимости каких-либо структур или лингвистических явлений, а воспользоваться услугами «всесильного» человеческого разума в лице пользователя для того, чтобы помочь системе МП заранее принять максимально правильное решение. Для этого необходимо создать интерактивные возможности для настройки параметров перевода, по которым можно будет выбрать тот или иной анализ или синтез для указанной структуры. От чего может зависеть выбор того или иного приоритета? На наш взгляд - прежде всего от типа текста. Для лингвистов давно не является секретом тот факт, что тип текста влияет на использование определенных синтаксических структур (например, в документации используются в большом количестве пассивные конструкции, в инструкциях императивные и т.д.), а также определяет лексический тезаурус и многое другое. Знание типа текста могло бы иметь непосредственное применение в МП, так как помогло бы управлять целым рядом алгоритмов. Например, в английском языке большую сложность представляет снятие омонимии форма на –ed. При условии, что анализируемый текст является документацией или инструкцией, в контексте, например, перед предлогом форма на -ed может трактоваться как причастие, так как в таких типах текста употребление времени Past Indefinite почти не встречается. Предварительное знание о том, является ли анализируемый фрагмент полноценным текстом, написанным по всем правилам, или представляет собой заголовок, ссылку в Интернете, т.е. тексты, в которых может отсутствовать предикат или подлежащее, смогло бы оказать существенную помощь как при анализе (снятие омонимии, поиск актантов), так и при синтезе (порядок слов в предложении, синтезирование артикля при переводе с безартиклевого языка – русского – на артиклевый язык).

Причем настройки, которые пользователь мог бы заранее устанавливать при переводе, могут как потребовать от него знания входного языка, и тогда этими настройками смогут воспользоваться только специалисты и те, кто хорошо владеет входным языком, так и не требовать специальных лингвистических или языковых знаний, что весьма важно, так как не все пользователи являются профессионалами в данной области.

2. Интерактивное настраивание алгоритмов в системах ПРОМТ

В системах машинного перевода ПРОМТ идея дать пользователю возможность заранее повлиять на качество перевода уже реализована в создании специальной опции.

Что она собой представляет и как применяется? Данная опция - это набор определенных для пар с общим входным или выходным языком настроек по переводу той или иной конструкции.

Ярким примером этому может быть возможность задания «рода пользователя» в системах с русским выходным языком. С помощью данной опции возможно изменить генерирующийся по умолчанию мужской род на женский при переводе предложений, где в качестве подлежащего выступает личное местоимение единственного числа первого лица «я» и сказуемое стоит в прошедшем времени. Таким образом, при переводе с английского языка предложения

I wrote him a letter

по умолчанию получается перевод

Я написал ему письмо.

При включении данной опции он меняется на

Я написалА ему письмо.

Информация о роде отсутствует в исходном английском (а равно и в немецком, французском) тексте и может быть разной при переводе на русский язык. Только пользователь может задать правильную модель при переводе.

Какой бы маленькой не показалась данная проблема, она требовала немало досадной корректировки машинного перевода и, в конце концов, это просто несправедливо по отношению к пользователям–представительницам слабого пола, что именно их род при переводе игнорируется.

Аналогично может быть решена проблема синтеза глагола прошедшего времени в предложениях с подлежащим, выраженным личным местоимением «ты».

Другим примером определения пользователем параметров перевода является перевод с английского языка личного местоимения второго лица «you». В английском языке, как известно, в данном случае нет различия между единственным и множественным числом, вежливой формой и формой на «ты». При создании системы было принято вполне разумное и очевидное решение переводить английское «you» на русский язык (а затем и на французский, немецкий) формой множественного числа «Вы» («vous», «Sie»), так как предполагалось переводить исключительно деловую переписку. Однако, сейчас с помощью систем МП, особенно в Интернете, переводится много и личной переписки, где между корреспондентами принято неформальное обращение. Это и есть проблема определения типа текста – пользователь определяет, является ли данный текст официальным документом или личным письмом.

Следует отметить, что при установлении для местоимения «you» приоритета на форму единственного числа «ты» начинает работать целый комплекс взаимосвязанных алгоритмов:

1) перевод личного местоимения «you»;

You are right.
Вы правы.
Ты прав.

2) перевод притяжательного местоимения «your»;

She needs your help.
Она нуждается в вашей помощи.
Она нуждается в твоей помощи.

3) перевод глагола в императиве

Take it.
Возьмите это.
Возьми это.

4) Синтезирование возвратного местоимения при переводе на французский, немецкий и т. д.

Wash quickly.
Lavez-vous vite.
Lave-toi vite.

Для систем с французским входным языком существует возможность выбора синтеза местоимения «vous» как формы множественного числа второго лица «вы» и как вежливой формы на «Вы».

Je suis très heureux de vous voir.

Я очень рад вас видеть.

Я очень рад Вас видеть.

Ich bin froh, euch zu sehen.

Ich bin froh, Sie zu sehen.

Для английских систем с французским и испанским выходом разработана возможность изменения рода для личных местоимений первого лица единственного числа (сравни русский выход) и местоимений третьего лица множественного числа при сказуемом в пассивной форме.

1) I was born in Paris.
J’ai été né à Paris.
J’ai été née à Paris.

2) They were born in Paris.
Ils ont été nés à Paris.
Elles ont été nées à Paris.

По приведенным примерам видно, что практически для каждого языка можно сформулировать целый комплекс проблем, которые могут быть решены с помощью интерактивной настройки алгоритмов. Например, для систем с немецким входным языком существует проблема перевода личного местоимения Sie в начале предложения. Данная структура является синтаксическим омонимом, так как может означать и «Вы», и «они» и практически не может быть определена автоматически. Однако определив анализируемый текст как письмо, пользователь может получить вместо умолчательного перевода вариант на «Вы».

Sie haben uns einen Brief geschrieben.
Ils nous ont écrit une lettre.
Vous nous avez écrit une lettre.

They wrote us a letter.

You wrote us a letter.

Eще одна сложная проблема при переводе с немецкого языка - это снятие омонимии в пользу инфинитива или личной формы глагола третьего лица множественного числа (drehen, formen). В принципе, в языке этой синтаксической омонимии нет, но проблема состоит в том, что провести безошибочный анализ на современном этапе очень сложно. Поэтому, заранее определив тип текста как инструкцию или описание кулинарных рецептов, можно было бы установить приоритет на инфинитив для этих текстов и тем самым избежать возможных ошибок при анализе.

Например, для данных предложений

Die beiden Schrauben mit einem Schraubenzieher eine viertel Drehung drehen.

Zehn Teigkugeln formen.

можно получить следующий перевод

Повернуть на четверть оба болта отверткой.

Сформировать 10 шариков из теста.

В то время как в противном случае этот результат не гарантирован.

Возможное решение некоторых проблем анализа и синтеза в МП через интерактивное настраивание алгоритмов

Это были примеры уже разработанных или разрабатываемых в настоящий момент компанией ПРОМТ алгоритмов, где используются заданные пользователем параметры перевода, но работа в этом направлении и поиск конструкций, где найденный метод может быть использован, велики, если не бесконечны.

Рассмотрим еще несколько структур, которые могли бы получить решение через интерактивные средства влияния на перевод.

3.1. Обработка личных имен собственных и названий компаний, фирм

Эта проблема всегда была и будет актуальной, так как довольно сложно описать с формальной точки зрения контексты этих конструкций. До сих пор для ее решения в системах ПРОМТ предлагалась возможность «резервирования» таких слов и словосочетаний – слова оставались непереведенными и отмечались, как принадлежащие к определенным семантическим классам (личным именам собственным, географическим названиям, названиям компаний). Одновременно с этим в системах есть анализ личных имен собственных в определенных четко описываемых контекстах. Например, слово, известное системе как имя и следующее прямо за ним известное или неизвестное слово с большой буквы считается сочетанием имени и фамилии John Brown, George Bush, Mary Simpson.

Но далее в тексте Brown, Bush, Simpson будут употребляться без имен и таким образом попадут в контексты, где не могут анализироваться как фамилии. Большая буква не является однозначным показателем, так как слово может стоять и в начале предложения, где эта информация неоднозначна.

Здесь также возможно применить интерактивное вмешательство в перевод, по которому имена, уже определенные системой как имена собственные, будут запоминаться и потом всегда будут трактоваться как имена. Таким образом, если John Brown есть имя и фамилия, то далее по тексту Brown трактуется как фамилия и пользователь получает осмысленный перевод, который иначе не может быть получен. Дело в том, что по этому алгоритму слово Brown получает отличную от словарной информацию: в словаре это прилагательное с переводом «коричневый», а по новому алгоритму одушевленное существительное, являющееся именем собственным. Данная информация окажет также положительный эффект при снятии омонимии.

Примерно такая же обработка может быть с названиями компаний и фирм. Слово или группа слов с большой буквы перед словами типа Ltd., Inc. (в английском) или GmbH, AG (в немецком) запоминаются и далее в тексте трактуются как имена собственные.

3.2. Выбор синтеза для глагольных времен

Как правило, в системах машинного перевода для каждого глагольного времени выбирается один синтез на выходной язык. Но нередко структура глагольных времен во входном языке не совпадает со структурой выходного языка и теоретически какому-нибудь времени во входном языке может соответствовать несколько вариантов синтеза. Безусловно, в выходном языке они не являются синонимичными, а определяются или типом текста (это может быть повествовательный текст, диалог, письмо и т.д.), или вторичными элементами в предложении, или вообще в предложении не наличествуют формальные показатели для предпочтения одного глагольного времени другому. Например, английское глагольное время Past Indefinite может быть переведено на французский Passé Composé или Imparfait. С помощью определенной опции пользователь выбирает желаемый синтез данного глагольного времени. Аналогичные решения могут быть предложены при переводе Imperfekt в немецком на французский (варианты синтеза - Passé Composé или Imparfait) и т.д.

Помимо вариантов синтеза глагольных времен можно было бы предлагать варианты синтеза страдательного залога. Особенно это актуально для немецкого языка, где четко различается «пассив-действия» и «пассив-состояния». В опциональном режиме можно предлагать выбрать между

- Passiv

- Stativ

Здесь также уместно коснуться еще одного аспекта при интерактивной настройке алгоритма перевода, а именно, относится ли данная опция ко всему документу или только к данному конкретному предложению. Что касается рассмотренного ранее алгоритма возможного запоминания имен собственных естественно, то, конечно, он относится только к целому документу, так как информация из одного предложения передается в другое, которое, в свою очередь, может находиться даже в другом абзаце. А вот выбор глагольного времени уже не имеет столь однозначного решения, поэтому можно заранее предусмотреть опции для того, чтобы пользователь сам определял, действует ли алгоритм на предложение, абзац или весь документ.

3.3. Обработка некоторых составных именных групп с определением

в английском

В данном случае имеется в виду конструкция типа a1+n1+n2, где a1 – это прилагательное, а n1 n2 – существительные. Синтезировать эту конструкцию на русский, французский и другие языки можно двумя способами, отнеся прилагательное либо к n1, либо к n2, т.е.

a1+n1+n2 è a1+(n1+n2)

the last telephone message è последнее телефонное сообщение

a1+n1+n2 è (a1+n1)+n2

the dangerous poison bottle è бутылка опасного яда

Аналогичная проблема существует и при анализе и синтезе трехчленных (т.е. состоящих из трех основ или корней) композитов в немецком, так как первый элемент может быть определением для второго элемента или, наравне со вторым элементом, определением для третьего. Например,

Rotapfeltarte è торт из красных яблок

Rolldoppelschütz è сдвоенный катковый затвор

4. Синтез некоторых неопределенно-личных конструкций

Для английского входа – это структура, где подлежащее выражено местоимением one. При их синтезе на русский язык, например, можно предложить пользователю выбрать несколько вариантов:

а) one è каждый + сказуемое в третьем лице единственного числа соответствующего времени.

One says.

Каждый говорит.

б) one è только сказуемое в третьем лице множественного числа соответствующего времени.

One says.

Говорят.

Для французского входа можно предложить несколько вариантов для перевода неопределенно-личного местоимения on.

а) on è мы + сказуемое в третьем лице множественного числа соответствующего времени.

On dit.

(Мы) говорим.

б) on è только сказуемое в третьем лице множественного числа соответствующего времени.

On dit.

Говорят.

5. Синтезирования глагола-связки «быть» в настоящем времени на русский язык при переводе с немецкого, английского, французского и других языков

При синтезе этого глагола в личной форме могут быть следующие варианты:

- являться

- нулевой перевод глагола

- вместо глагола - тире

- вместо глагола - тире и местоимение «это».

Конечно, в настоящий момент система автоматически на основании проведенного анализа принимает решение в пользу того или иного синтеза, но с учетом типа текста, его стиля и пожеланий пользователя возможны различные варианты. Поэтому пользователь может указать самый оптимальный на его взгляд синтез (видимо, в данном случае для предложения) вместо того, чтобы редактировать текст вручную.

3.6. Синтез местоимения it при переводе с английского, местоимения il при переводе с французского, местоимения es при переводе с немецкого в небезличных структурах

Так как машинный перевод в большинстве случаев не занимается поиском слов, для которых местоимения выступают заместителями, то перевод некоторых местоимений (личных, притяжательных) представляет свои трудности. В такой ситуации можно предложить пользователю самому выбрать перевод. Например, для вышеуказанных местоимений it/il/es при переводе на русский язык это могли бы быть следующие варианты:

- это

- оно

- оно/он/она

7. Синтез рамочной структуры немецкого предиката

При переводе с немецкого языка лингвистам приходится решать проблему анализа рамочной структуры предиката, не забывая при этом о таком явлении как нарушение рамочной структуры. Синтез же традиционно осуществляется по правилам немецкой грамматики. Однако почему бы не предложить пользователю самому решить, не хочет ли он синтезировать немецкое предложении с нарушением рамки. Например, в предложениях определенной длины предикат можно поставить не в конец предложения, а перед невалентным предлогом.

Примеров того, как синтез может зависеть от особенностей текста, его типа и стиля автора, а также желаний пользователя можно привести очень много. На наш взгляд применение интерактивных средств в МП может быть интересным и переспективным направлением.

До сих пор мы говорили больше о таких структурах, где изменение одного синтеза на другой не представляет большого труда – либо анализ осуществляется так, как он устроен и на последнем этапе происходит синтез, отличный от умолчательного, либо (как в случае с именами собственными) еще перед анализом предложения процедура анализа получает специальный параметр для лексической единицы, в данном случае отличный от словарного. Но можно представить себе ситуацию, при котором пользователь вмешивается непосредственно в процесс анализа и подсказывает машине, какое решение ей принять. Такой подход к МП мог бы представлять большой интерес для пользователей, которые являются специалистами в области лингвистики или обладают высоким уровнем знания входного языка.

Вот некоторые примеры омонимичных структур в немецком языке.

Определение предложной группы с предлогом von в пассиве как актанта пассивной структуры или как определение к предыдущей именной группе. Например, предложение

Als der Artikel von Meyer gedrückt wurde ….*

имеет два значения и может иметь в связи с этим два варианта анализа и синтеза:

Когда была опубликована статья Майера ….

Когда была опубликована статья Майером ….

При создании определенного диалога программа в момент анализа могла бы предлагать выбрать между несколькими возможными для нее вариантами.

В немецком предложении инфинитив может не выноситься за рамочную структуру предиката и если этот инфинитив допускает наличие прямого дополнения при себе, то может возникнуть омонимиясубъекта и объекта. Например,

Hier wurde die Kunst zu lieben vergessen. *

Данное предложения может иметь два смысла - либо «Kunst» является объектом и инфинитивная группа субъектом, либо «Kunst» есть субъект и инфинитив - определение к нему:

Здесь забыли (как) любить искусство.

(Hier wurde vergessen, die Kunst zu lieben.)

Здесь забыли искусство любить

(Hier wurde die Kunst vergessen, zu lieben.)

Омонимия формы будущего времени в активном залоге и настоящего времени в пассивном залоге при совпадении форм инфинитива и причастия прошедшего времени. Например, ... werden ... verstossen.

Примеры подобных омонимичных структур можно найти в каждом языке и выбор в пользу той или иной структуры можно оставить за пользователем.

Таким образом, используя интерактивные средства настройки параметров перевода, пользователь заранее может получить более качественный перевод, выбрать тот синтез, который более предпочтителен в данном предложении или тексте в целом, избежав при этом многочисленной ненужной редакторской правки. Не последнюю роль играет при этом и психологический эффект, так как самостоятельное настраивание алгоритмов перевода дает пользователю ощущение, что он участвует в переводе и определяет его. Интерактивная настройка перевода – это и мощное средство улучшения качества перевода, и возможность для разработчиков не решать те проблемы, которые всегда или только на данном этапе представляются неразрешимыми, а сосредоточить свои усилия на других аспектах машинного перевода.

Литература

E. Agricola, Zyntaktische Mehrdeutigkeit (Polysyntaktizität) bei der Analyse des Deutschen und Englischen: Schriften zur Phonetik, Sprachwissenschaft und Kommunikationsforschung, Nr. 12, Berlin 1968

Interactive management of translation algorithms in MT systems

J. A. Jepifantseva

Key words: machine translation, interactive management of translation algorithms, text types.

In this article we consider the possibilities of interactive management of translation algorithms in MT systems and give examples of some structures for which it is already possible to choose alternative analysis or synthesis in the PROMT systems. Some other potential structures are also taken in consideration. The examples are given for Russian, English, German and French languages. The aim of the article is to show the effectiveness of this method in MT and the possibility of its wide applicability and further development.

* Примеры взяты из статьи E. Agricola, Zyntaktische Mehrdeutigkeit (Polysyntaktizität) bei der Analyse des Deutschen und Englischen, в: Schriften zur Phonetik, Sprachwissenschaft und Kommunikationsforschung, Nr. 12, Berlin 1968, стр.3.