УРОКИ РУССКО-АНГЛИЙСКОГО
(ИЗ ОПЫТА РАБОТЫ СИСТЕМЫ МАШИННОГО ПЕРЕВОДА)[1]
Л. Л. Иомдин
Институт проблем передачи информации РАН
Ключевые слова: обработка текстов на естественном языке, машинный перевод, синтаксический анализ и синтез, разрешение неоднозначности, теоретическая грамматика русского языка
Рассматриваются жгучие проблемы автоматического анализа текста, возникающие в процессе работы системы машинного перевода «ЭТАП-3». Основное внимание уделяется двум классам проблем: 1) адекватности синтаксического описания входного языка системы и 2) способам разрешения лексико-синтаксической неоднозначности входного текста. Показано, что сколь бы глубоко и тщательно ни разрабатывался синтаксический анализатор системы МП, в нем неизбежно остаются белые пятна и лакуны. Многие лингвистические факты, в том числе критически существенные для работы анализатора, никогда не попадали в поле зрения ученых просто потому, что они не имели возможности в массовом порядке оперировать материалом неверного или неожиданного синтаксического разбора предложений. Именно такой материал в изобилии поставляет развитая система автоматической обработки текстов, а работа с этим материалом позволяет выявить лакуны научного описания и устранить их. Таким образом, лингвистическое экспериментирование с участием систем автоматической обработки естественного языка становится полноправным и весьма перспективным научным методом, а сами такие системы приобретают способность к (само)обучению. По результатам широкого лингвистического эксперимента, проводимого с помощью системы ЭТАП-3, делается попытка определить границы возможного в машинном переводе и – шире – вообще в автоматической обработке естественного языка:
Вводные замечания
История автоматической обработки текстов на естественном языке и, в первую очередь, история машинного перевода знает свои взлеты и падения. На какой-то стадии развития системы МП ее разработчикам начинает казаться, что сделан решительный прорыв, что еще немного усилий – и задача построения безупречной системы машинного перевода будет полностью решена. Однако проходит немного времени, и перед разработчиками возникают новые, зачастую неожиданные и сложные лингвистические задачи, необходимость решения которых в очередной раз отодвигает завершение проекта далеко за горизонт. Ничего удивительного в этом нет: машинный перевод, по существу, включает в себя всю лингвистику, а эта наука, по счастью, весьма далека от исчерпания. Если с точки зрения разработки системы МП такое положение дел не может вызвать особого энтузиазма, то лингвист, профессионально занимающийся машинным переводом, получает мощный стимул к решению таких задач, а в случае успеха – моральное удовлетворение, вполне адекватно компенсирующее испытанное разочарование.
В настоящей работе будут рассмотрены некоторые поучительные ситуации, возникшие в ходе авторской опытной эксплуатации русско-английского компонента развитой системы машинного перевода «ЭТАП-3». Основные идеи, методы и результаты работы этой системы, базирующейся на лингвистической модели И.А. Мельчука «Смысл Û Текст», изложены, в частности, в [1] – [3] и предполагаются известными читателю хотя бы в самых общих чертах; впрочем, автор постарается избежать чересчур технических деталей.
Все ситуации фактически развивались по одинаковой схеме: система «ЭТАП-3» получала на вход русское предложение и выдавала для него не удовлетворяющий экспериментатора английский перевод. Работа системы подвергалась внимательному анализу, который позволял локализовать ошибки и в благоприятном случае исправить их, а в неблагоприятном показать принципиальную невозможность исправления и тем самым сделать шаг в сторону установления границы возможного в машинном переводе. Отметим, что весь приведенный ниже материал содержался в реальных текстах (в первую очередь, в новостных лентах, доступных в сети Интернет, в частности, в ленте ИТАР-ТАСС 2001 и 2002 годов) и не подвергался сколько-нибудь существенному препарированию (хотя в целях обозримости и экономии места был несколько сокращен).
Урок 1 – синтаксический
Русские сложноподчиненные предложения с определительным придаточным, вводимым союзным словом который, при всей их громоздкости[2], казалось бы, вполне хорошо изучены и, соответственно, полностью представлены в синтаксическом компоненте системы «ЭТАП-3». Тем неожиданнее оказалась грубая ошибка в построенном системой английском переводе несложного предложения
(1) Власти Афганистана издали распоряжение, согласно которому вооруженным лицам предписано покинуть Кабул,
сделавшая результат не только неграмматичным, но и абсолютно непонятным:
(1а) Authorities of Afghanistan have published an order it is prescribed to according to which armed persons to abandon Kabul
(т.е. что-то вроде *Власти Афганистана издали распоряжение, предписано вооруженным согласно которому лицам покинуть Кабул). Загадка разрешилась довольно быстро: как оказалось, синтаксический анализатор породил для (1) следующую синтаксическую структуру (СинтС):
(1¢)[3]
Перевод (1a), как легко заметить, практически без изменений воспроизводит эту структуру. Чем же она нехороша? Классическая русская грамматика (и добросовестно отражающий ее синтаксис ЭТАПа) не дает ответа на этот вопрос. Нетрудно убедиться в том, что в (1¢) союзное слово который – конструктивный элемент придаточного предложения – отстоит от его вершины – краткого причастия предписано – на четыре «древесных» шага. Не этим ли объясняется неправильность структуры, повлекшая за собой столь плачевный результат? Не будет ли достаточным наложить чисто количественное ограничение на допустимость промежуточных шагов между вершиной придаточного и союзным словом, чтобы исключить возможность построения СинтС типа (1¢)? Очевидно, что нет: структура (2¢) приведенной в предыдущей сноске фразы содержит целых шесть древесных шагов и воспринимается весьма естественно:
(2¢)
Остается предположить, что дело не в количестве элементов СинтС (1¢), отделяющих слово который от вершины придаточного, а в характере этих элементов. Рассмотрим их чуть подробнее. Цепочка слов, ведущих в (1¢) от вершины к слову который, содержит всего три слова: существительное лицам, предлог согласно и причастие вооруженным. Существительное и предлог – слишком типичные элементы определительного придаточного, чтобы заподозрить в них причину грамматической неправильности (1¢). Автор вынужден признаться, что поначалу не видел такой причины и в причастии. Дело в том, что семантических препятствий к интерпретации предложения (1) в виде (1¢) по существу нет: если представить сконструированное здесь придаточное как отдельное предложение, мы получим достаточно осмысленный текст: Власти Афганистана издали распоряжение. Вооруженным согласно этому распоряжению лицам предписано покинуть Кабул.
Тем не менее весьма тщательный анализ русского материала показал, что причастия действительно не могут присутствовать в цепочке слов, отделяющих вершину придаточного определительного от союзного слова который (а также, разумеется, и других союзных слов, конституирующих такое придаточное – что и каковой)[4]. Даже в максимально коротких контекстах (причастие непосредственно подчинено вершине и непосредственно подчиняет союзное слово) этот запрет носит абсолютный характер равно для действительных и страдательных причастий – ср.
(3а) *Малыш, позвавший которого дядя пошел купаться, по-прежнему возился в песке и
(3б) *Это ученый, сделанное которым открытие произвело переворот в науке.
Приходится констатировать, что данный запрет, насколько известно автору, до сих пор не отмечавшийся в литературе[5], имеет чисто синтаксическую природу и семантически никак не мотивирован: смысл предложений (3а) и (3б) при их абсолютной неграмматичности весьма прозрачен.
Разумеется, получив такой результат, мы легко можем отразить его в синтаксических правилах системы МП. Благотворность обратной связи здесь обнаруживается немедленно: обновленный анализатор построит для предложения (1) правильную СинтС
(1¢¢)
и, соответственно, удовлетворительный перевод
(1б) Authorities of Afghanistan have published the order according to which it is prescribed to armed persons to abandon Kabul.
Добавим, далее, что ограничения, которые следует наложить на строение определительных придаточных, не исчерпываются запретом на причастия. Еще одно важное ограничение состоит в следующем: в число элементов, отделяющих вершину от союзного слова, не могут входить также никакие личные формы глаголов. Даже при сочинении глагольных сказуемых придаточного слово который не может (ни непосредственно, ни опосредованно) подчиняться второму из этих сказуемых; ср. Это писатель, которым интересуется и даже восхищается современная молодежь, но не *Это писатель, интересуется и которым даже восхищается современная молодежь.
Кроме того, в состав цепочки, связывающей вершину придаточного с союзным словом, по всей вероятности, не могут входить никакие союзы, ср. Это был мастер, подобно которому не работал никто и никогда, но не *Это был мастер, как который <словно который> не работал никто и никогда – впрочем, чтобы сделать окончательный вывод, здесь требуется специальное исследование.
В нашу задачу не входит исчерпывающая формулировка синтаксических особенностей строения придаточных предложений – для этого потребовалось бы написать отдельную и достаточно объемную работу. Нам хотелось бы тем не менее подчеркнуть ту уникальную роль, которую в самой постановке этой непростой синтаксической задачи сыграл машинный перевод: по существу система МП становится одним из полноценных инструментов теоретической лингвистики, стимулирующих ее прогресс. В данном случае МП оказался источником весьма ценного отрицательного языкового материала: спонтанно создать такой материал, на наш взгляд, способен лишь искусственный объект, никакому носителю естественного языка и даже искушенному лингвисту-исследователю это не под силу. В приводимых ниже ситуациях машинный перевод поможет нам извлечь другие типы уроков; его стимулирующее начало, однако, останется неизменным.
Урок 2 – лексико-синтаксический
Рассмотрим еще один свежий образец продукции русско-английского МП системы «ЭТАП-3». Источник – уже упомянутая лента ИТАР-ТАСС, передавшая в числе прочих новостей сообщение
(4) Главная цель Великого поста, который начался для православных, – нравственно возвысить человека.
Построенный первым перевод этого предложения
(4а) The chief aim of the Lent which has begun for the Orthodox – it is moral to raise a person
очевидным образом неадекватен: (4а) приблизительно означает (4б) ‘Главная цель Великого поста… – возвышение человека является нравственным’). В отличие от первого примера, источник ошибки здесь, в общем, виден сразу – система восприняла синтаксически неоднозначную вторую часть идентифицирующего предложения (4) (нравственно возвысить человека) не как инфинитивный оборот, а как двусоставное предложение с пустой связкой[6], что полностью подтверждается сформированной для (4) СинтС
(4¢)
Исправить же эту ошибку, а тем более исключить ее повторение в системе далеко не просто. В самом деле, ни английское предложение (4а), ни его вольный русский перевод (4б) не являются грамматически правильными. В чем, однако, причина их неграмматичности? Она станет более ясна, если попытаться заменить в (4а) и в (4б) слово цель на слово идея: такая замена немедленно сделает оба предложения вполне приемлемыми. Это означает, что структура (4¢) неверна не сама по себе, а только для конкретного лексического наполнения.
Внимательное исследование позволяет нам определить, какое именно лексическое наполнение в (4¢) допустимо, а какое нет. В случае, если первая часть предложения формируется предикатными словами типа цель, назначение, предназначение, задача, проблема, план, намерение, стремление, соответствующая конструкция останется неверной. В то же время широкий класс существительных – такие, как идея, мысль, смысл, пафос, посылка, тезис, положение, принцип, постулат, утверждение, высказывание, лозунг, девиз, результат, итог, урок и т.д. – делают эту конструкцию безупречной. Что же отличает класс слов типа цель от класса слов типа идея?
На наш взгляд, различия между этим двумя классами не сводимы к смыслу – их семантика имеет много общего. Дело здесь именно в синтаксических особенностях приведенных слов. Нетрудно убедиться в том, что все слова первого лексического класса обладают синтаксическим признаком «прединф» - этот популярный в теории «Смысл Û Текст» признак, напомним, приписывается словам, как бы управляющим инфинитивом через (реальную или нулевую) связку, и конституирует конструкции типа Дозвониться на Кавказ стало целой проблемой [=прединф], Нелегкая это работа [=прединф] – из болота тащить бегемота (К. Чуковский), Любить иных – тяжелый крест [=прединф] (Б. Пастернак). Поскольку этим признаком обладает и слово цель, разбор предложения (4) в виде
(4¢¢)
где вторая часть интерпретируется как инфинитивный оборот, абсолютно правильна. Для того же, чтобы была возможной структура типа (4¢), существительное в первой части предложения должно обладатьдругим синтаксическим признаком, содержание которого можно приблизительно сформулировать как способность управлять через (реальную или нулевую) связку целым предложением. Такого признака – по аналогии с «прединф» его удобно назвать «предпредл» – до сих пор ни в теории «Смысл Û Текст», ни в системе ЭТАП-3 не было. Не были, соответственно, зафиксированы и ограничения на устройство идентифицирующего предложения со связкой, вторая часть которого представляет собой простое двусоставное предложение, что и обусловило свободу построения СинтС (4¢) для предложения (4). Приписав признак «предпредл» словам второго из упомянутых классов и введя соответствующие запреты в анализирующие синтаксические правила (синтагмы), мы легко обеспечим построение конструкций для предложений типа Основная идея конкурса – пусть победит сильнейший; Популярным лозунгом брежневских времен было – экономика должна быть экономной; Все гениальное просто – вот принцип многих ученых; Важная мысль стихотворения Пастернака – быть знаменитым некрасиво и т.п. С другой стороны, не приписывая признака «предпредл» целевым словам, мы заблокируем появление СинтС типа (4¢), а также сумеем легко объяснить неправильность фраз типа (4б) или фраз типа *Назначение этой пасты – она хорошо очищает зубы, которые, к сожалению, нередко встречающихся в неграмотной речи. Last butnot least, обеспечив для (4) построение СинтС (4¢¢), мы получим для него и адекватный перевод
(4в) The chief aim of the Lent which has begun for the Orthodox – to raise a person morally
В заключение второго урока сделаем три кратких замечания.
- Обсуждение типов идентифицирующих предложений и их адекватного синтаксического представления в целом мы оставляем в стороне – эта сложная тема требует отдельного исследования и не имеет прямого отношения к рассматриваемой здесь проблеме.
- Подчеркнем, что признаки «прединф» и «предпредл» не являются взаимоисключающими. Хотя все слова первого из приведенных классов обладают только первым из них, а вторым не обладают, многие слова второго класса, помимо признака «предпредл», должны быть снабжены и признаком «прединф». Это такие слова, как идея (ср. заманчивая идея – добиться управляемой термоядерной реакции), принцип, лозунг, девиз и др.
- Не приходится сомневаться в том, что признак «предпредл» находится в тесной корреляции с валентной структурой обладающих им существительных – один из семантических актантов любого из этих существительных представляет собой ситуацию. Тем не менее ни одно из них не способно синтаксически подчинять предложением непосредственно, а не через связку. Эта особенность отличает «предпредл» от других признаков серии «пред», в частности, «прединф», многие из обладающих этим признаком слов управляют соответствующими языковыми элементами и непосредственно (ср. Его план – добиться перевода в столицу и Его план добиться перевода в столицу так и не был осуществлен).
Урок 3. Полузнание хуже незнания
В отличие от двух предыдущих уроков, данный урок, преподанный системой МП, представляется совсем простым. Традиционно разработчики МП считали, что чем больше языковых элементов известно словарю системы и его грамматике, тем лучше система будет работать. Вероятно, это так – за одним важным исключением: если некоторая единица в системе представлена, а другая единица, омонимичная ей полностью или частично, отсутствует, результат может оказаться плачевным и, главное, гораздо худшим, чем в случае полного отсутствия обоих единиц. Мы приведем два из многочисленных примеров такого положения дел, встретившихся в процессе испытаний системы.
- Простейшее предложение типа (5) Александр работает в Актюбинском медицинском центре оказывается системе не под силу просто потому, что ей известно существительное Актюбинск, но неизвестно прилагательное актюбинский. В результате вместо предложного падежа прилагательного слово идентифицируется как творительный падеж существительного, что влечет за собой построение нелепой СинтС
и соответственно к ошибочному переводу Alexander works Aktyubinsk in medical center. Между тем, если бы в словаре системы отсутствовало и слово Актюбинск, результат был бы гораздо лучшим, так как система в общем приспособлена к работе с неопознанными словами. В частности, для (5) был бы получен перевод Alexander works in the Aktyubinskom medical center. Рассчитывать же на то, что система установит, что в обрабатываемом ею тексте имеет место не то слово, которое ей известно, а другое, которое ей неизвестно, увы, не приходится.[7].
- Другой массовый случай неверной интерпретации лексических единиц системой представлен ситуациями, когда мужской вариант фамилии склоняется, а женский нет, причем в словаре присутствует лишь мужская фамилия. В предложениях типа (6) Это письмо было получено Блэр только вчера часто не удается построить адекватную структуру, ср.
и, как следствие, приходится довольствоваться некачественным переводом This letter was obtained Blair only yesterday.
Смысл этого урока состоит в следующем: в системе надо избегать «флюсов», т.е. словарных или грамматических фрагментов, сделанных не до конца. Приступая к описанию некоторого класса элементов явлений, следует стремиться к тому, чтобы этот класс был обработан полностью и максимально тщательно.
Урок 4. Границы возможного
Наконец, самый важный и в то же время самый естественный урок, который удалось извлечь автору из опыта работы над системой МП и с этой системой – возможности машинного перевода ограничены принципиально. Среди многих причин ограниченности особо выделяется одна – невозможность эксплицировать достаточно простыми и формальными средствами все языковые факты, имеющие отношение к неоднозначности той или иной природы. Чтобы проиллюстрировать сказанное, приведем пример синтаксической омонимии, которая мгновенно разрешается человеком, но требует невероятных усилий от системы машинного перевода, какой бы продвинутой она ни была. Предложение
(7) На месте пожара был обнаружен мертвым пожилой сторож
любым носителем русского языка будет воспринято совершенно однозначно в смысле ‘На месте пожара кто-то обнаружил пожилого сторожа. Сторож был мертв’. Между тем анализирующему компоненту системы МП ничто не может помешать интерпретировать слово мертвым как агентивное дополнение при страдательном причастии обнаружен и в результате перевести (7) как An elderly guard was found on thesite of fire by the dead man. На наш взгляд, ни в каком словаре и ни в каком правиле невозможно указать, что мертвец не может быть субъектом действия – потому что он в принципе может им быть! Правда, обнаружить кого-либо он вряд ли может, но вполне может кого-нибудь испугать или удивить. Однако данное знание слишком специфично, чтобы фиксировать его в формализованных языковых описаниях. Соответственно ошибки такого рода для системы МП неизбежны.
Примеры подобного рода встречаются буквально на каждом шагу. Приведем без подробных комментариев еще несколько результатов перевода материала новостных лент, чтобы читатель мог оценить масштабы явления.
Предложение (8) Было подтоплено 820 домовладений (в предшествующем тексте речь шла о наводнении) было переведено как 820 households were heated (т.е. ‘домовладения были подогреты’). Исключить такой перевод можно было бы разве что за счет формализации знания о том, что агентство новостей вряд ли мог бы заинтересовать факт , что кто-то немного подтопил печки в домах, пусть даже их было целых 820.
Предложение
(9) В 1999 году в ФРГ переехало 95 тысяч этнических немцев
получило (наряду с совершенно правильным) перевод
(9а) In 1999 in the Federal Republic of Germany 95 thousand ethnic Germans were run over
(т.е. все эти люди были задавлены автомобилями). Как ни невероятно это звучит, интерпретация (9а) абсолютно законна, поскольку все мыслимые лексические и синтаксические условия для нее полностью соблюдены. Человек, конечно, не примет такой интерпретации и скажет, во-первых, что мир не так плох, чтобы столько народу погибло под колесами за один год, во-вторых, что погибших не стали бы характеризовать по национальной принадлежности, наконец, что слово «переехать» слишком разговорно, чтобы его применяло солидное агентство новостей. Но попробуйте все это формализовать!
Для предложения
(10) В этом году в России будет построено или отремонтировано 150 зданий судов
первый из полученных переводов звучал так:
(10а) In this year 150 buildings of ships in Russia will be erected or repaired.
Разумеется, зданий кораблей, в отличие от зданий трибуналов, на свете не бывает. Может быть, этот факт и можно записать в словарной статье слова здание в виде семантических ограничений на его зависимые – но, пожалуй, только постфактум: составитель массового словаря просто не в состоянии предусмотреть все случайные факторы, которые могут потребовать таких ограничений. Ведь в нормальных текстах никому в голову не придет писать о зданиях чего бы то ни было, кроме учреждений, а осмысление, подобное (9а) – это результат случайных языковых «возмущений», вызванных «блуждающей» неоднозначностью.
Подведем итог. Исследователи в любой науке вынуждены работать в условиях агрессивной среды, блуждающих токов и разнообразных возмущений. Будем продолжать работать в таких условиях и мы.
Литература
- Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л., Лазурский А.В., Перцов Н.В., Санников В.З., Цинман Л.Л. Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1989.
- Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л., Лазурский А.В., Митюшин Л.Г., Санников В.З., Цинман Л.Л. Лингвистический процессор для сложных информационных систем. М.: Наука, 1992.
- Иомдин Л.Л., Сизов В.Г. , Цинман Л.Л. Использование эмпирических весов при синтаксическом анализе. // Труды конференции «Когнитивное моделирование». Геленджик, 2001.
Lessons of russian to-english machine translation taught to linguists
L.L. Iomdin
Key words: natural language processing, machine translation, syntactic analysis and synthesis, ambiguity resolution, theoretical grammar of Russian
The paper discusses burning issues of automatic analysis and parsing of natural text which emerge during the operation of a machine translation system, ETAP-3. An emphasis is laid on two classes of problems: 1) adequacy of syntactic description of the source language of the MT system and 2) ways of resolving lexical and syntactic ambiguity of the source text. It is shown that no parser, however sophisticated or deep, can be made entirely free of omissions and gaps. The reason is that many of the linguistic facts, including those critical for parser operation, have never come into view of researchers because they have had at their disposal no mass material of unexpected or incorrect parsing. It is exactly such material that is amply provided by a highly developed NLP system. If handled properly, the material helps finding and eliminating the gaps of scientific descriptions. Consequently, linguistic experimentation with NLP systems becomes a rightful and very promising scientific method, while the systems increase their self-learning capabilities. The results of mass-scale linguistic experiments held with the help of the ETAP-3 system may help identify the general limits of feasibility in machine translation and NLP.
[1] Автор выражает признательность РФФИ, благодаря поддержке которого (гранты 01-06-80453-а и 02-06-80106-а) это исследование могло быть выполнено.
[2] Громоздкость этих предложений, впрочем, сводится к тому, что само слово который может не непосредственно подчиняться вершине придаточного (человек, который смеется), а достаточно далеко отстоять от вершины в древесной синтаксической структуре (человек, с женой одного из старших братьев которого я хорошо знаком).
[3] Здесь и далее СинтС воспроизводятся в виде моментальных экранных снимков внутреннего графического редактора системы «ЭТАП-3».
[4] Подчеркнем, что речь идет о древесной, а не о линейной цепочке слов: между союзным словом и вершиной причастие вполне может присутствовать, если только оно не входит непосредственно в последовательность идущей от вершины в союзное слово синтаксических связей, ср. человек, с женой одного из уехавших за границу братьев которого я хорошо знаком.
[5] Окончательная формулировка этого запрета была выработана в дискуссиях автора с Ю.Д. Апресяном и И.М. Богуславским, которым автор выражает искреннюю признательность.
[6] Подчеркнем, что такая неоднозначность (инфинитивный оборот vs. двусоставное предложение) обусловлена взаимодействием целого ряда лексико-синтаксических факторов и по сути дела может считаться счастливым стечением обстоятельств: в отсутствие омонимичной словоформы нравственно или даже при замене ее на близкий синоним морально сентенциальная интерпретация была бы невозможной, и настоящего урока не удалось бы извлечь.
[7] Отметим для полноты картины, что в некоторых случаях мы все же пытаемся научить систему справляться с такими ситуациями: например, если некоторое реально существующее слово используется в качестве фамилии человека и выступает в контексте, типичном для фамилии (пишется с большой буквы и следует после инициалов, личного имени или отчества, ср. Геннадий Иванович Кулик, Елена Бережная и т.п.), а самой фамилии в словаре нет, то мы заменяем это слово особой дежурной лексемой и обрабатываем подобно тому, как это происходит с неопознанными словами.