Proceedings 2001

Contents

ИЗ ОПЫТА МАШИННОГО ПЕРЕВОДА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ

Мищенко Н.М.

Институт кибернетики имени В.М. Глушкова НАН Украины

 

В сообщении рассматриваются некоторые итоги разработки и применения программ перевода научно-технических текстов с русского языка на украинский и с украинского языка на русский.

Перевод научно-технических текстов имеет несколько специфических аспектов, влияющих на разработку программ перевода (ПП). Одни из них облегчают процесс разработки ПП, например, сравнительно небольшое число омонимичных лексем. Другие — усложняют, например, необходимостью разработки словарей для различных областей знаний.

В последнее время наряду с рекламой ПП с большими словарями, содержащими сотни тысяч основ, анонсируются отраслевые словари: коммерческий, юридический, медицинский и др. Наш опыт показывает, что, кроме словарей общеупотребительной и отраслевой лексики, необходим словарь узкоспециальной лексики конкретного пользователя или коллектива пользователей, работающих в конкретной научной области. Узкоспециальная лексика составляет от 20 до 35 процентов вхождений в научный текст и является второй по частоте встречаемости после служебных слов (союзов, предлогов, артиклей). Эта лексика, как правило, отсутствует в словарях, и ее адекватный перевод или толкование на другом языке лучше выполнять пользователю —специалисту в соответствующей области.

Пополнением словаря ПП терминами из конкретной области знаний выполняется, по сути, персонализация ПП. Основным требованием к разработке персональной ПП является обеспечение средств, доступных пользователю не только для задания лексем и их эквивалентов на другом языке, но и для задания правил их перевода, в которых должны быть предусмотрены грамматические категории, необходимые для анализа входного слова и для синтеза выходного. В качестве примера таких средств может служить формальный язык описания переводов лексем и словосочетаний [1]. Источником терминов для описания их переводов служат частотные списки лексики, полученные путем статистической обработки некоторого количества специальных текстов или путем формирования частотного списка из множества вхождений неизвестных словоформ, зафиксированных в процессе перевода. Таким образом, персональная ПП — это система языковых процессоров, состоящая из собственно переводчика, программы статистической обработки текстов и программ обработки правил перевода. Среди последних основной является программа пополнения словарей и, при необходимости, расширения блока сопутствующей информации по переводу.

Заметим также, что для перевода научно-технических текстов нет необходимости в больших словарях общеупотребительной лексики, достаточно небольшого словаря, содержащего порядка 20 тысяч основ, которые можно получить непосредственно из специальных текстов. Такой словарь служит основой для его расширения лексикой различных областей знаний.

В машинном переводе с русского языка на украинский и обратно есть аспекты, которые, как правило, остаются неучтенными в силу ряда априорных "мифов", бытующих среди некоторых разработчиков коммерческих ПП. Несостоятельность мифов становится очевидной после анализа результатов перевода с помощью таких ПП, разработанных, очевидно, без участия лингвистов.

Основным источником мифов является близость русского и украинского языков. Рассматриваются три аспекта этой близости: близость лексики, общность морфологических категорий и совпадение синтаксических структур предложений. Обладающие поверхностными знаниями в одном из двух языков, возводят каждый аспект в абсолют, что служит причиной рождения мифа о "едином языке". Но если на бытовом уровне означенная точка зрения — сугубо личное дело, то для разработчиков ПП — широко распространяемого коммерческого продукта — она становится причиной многих ошибок. Тогда в переводах появляются слова, состоящие из украинских основ и русских окончаний и наоборот.

Укажем на некоторые ошибки, происходящие от некорректного составления двуязычных словарей для русского и украинского языков.

Близость общеупотребительной лексики. Мифологизация этого тезиса приводит к тому, что число ошибок перевода из-за некачественно подобранных соответствий в словаре в два раза превышает число остальных ошибок. Заметим, что полное графическое совпадение основ слов русского и украинского языков имеет место примерно для 6% лексики (статистика на трёх тысячах основ). При этом значения, выраженные соответствующими лексемами, могут не совпадать. Значительно чаще встречается совпадение нескольких букв в основах, что не мешает человеку отождествлять слова с такими основами.

Большинство слов русского языка имеет одно соответствие в украинском языке и наоборот. Однако, случается, что слову одного языка соответствуют альтернативные слова-переводы другого в зависимости от контекста их употребления в тексте. И если этот другой язык менее знаком составителю словаря, то в результате перевода появляются некорректные фразы вплоть до бессмысленных. Можно обратиться к словарям, но беда в том, что составитель, зная одну лексему-перевод, уверен, что он знает язык и не станет смотреть в словарь. Этот недостаток в большей степени касается русско-украинских переводов. Например, лексема русского языка определение во всех контекстах переводится на украинский язык лексемой визначення, в то время как в украинском языке существует два варианта перевода: означення как дефиниция и визначення как нахождение, например, корней многочлена. Лексема степень переводится лексемами степіньили ступінь независимо от контекста, хотя первая используется только в математике (степінь многочлена), а другая — при сравнении для фиксации уровня (ступінь кандидата наук). В научных текстах часто встречается глагол следовать: следовать примеру, следует выполнить, следует отметить, из теоремы следует.  Во всех случаях переводы разные, соответственно:брати за приклад, належить виконати, слід зауважити, з теореми випливає.

Несколько слов одного языка, которые образуют устойчивое словосочетание, очень редко можно переводить слово за словом. Что касается идиом, этот факт уже осознан, и большинство словарей содержит списки идиом. Так же следует поступать с составными предлогами и союзами. Примеры: прежде чем перед тим,  но не перш ніж, в то время как тодіяк, но не в той час як, прежде всего передовсім, но не перш за все. В научных текстах часто употребляются так называемые клише, структурирующие текст. Они тоже должны переводиться как единое целое. Например: другими словами інакше кажучи, в заключение підсумовуючи.

Отдельный случай составляют словосочетания входного языка, для каждого из которых существует единственная лексема выходного. Например: бути присутнімприсутствовать, но не быть присутствующим, удобный случай нагода, но не зручний випадок, более простой простіший, но не більш простий.

               Пословный перевод слов и словосочетаний приведенных типов неприемлем и тогда, когда его результат "не режет слух". Иначе с переводом на украинский язык будет такая же ситуация, как и с тем русско-английским переводом, о котором говорят: это русский текст, но с английскими словами.

Общность морфологических категорий: падежей (в украинском языке на один падеж больше), родов и чисел именных частей речи, лиц, чисел, видов глаголов. Общность морфологических категорий отвлекает внимание от различий в конкретных составляющих словоформ, в связи с чем иногда в выходных словоформах смешиваются составляющие, принадлежащие разным языкам. Следует принять во внимание, что словоизменение в украинском языке сложнее (из-за чередования согласных в основах, выпадения и вставок гласных, наличия альтернативных окончаний в некоторых падежах и т.д.) и омонимия окончаний выше, чем в русском языке. Следовательно, правила для анализа или синтеза украинских словоформ сложнее правил анализа или синтеза словоформ русского языка. Ловушкой является перевод предлогов, которые требуют разных падежей от следующих за ними существительных, а также смена категории рода в переводе для достаточно большого числа имен существительных.

С другой стороны, благодаря флективности обоих языков и близости морфологии выполняется распознавание согласования между соседними словоформами входного языка, которое используется для устранения омонимии окончаний при морфологическом анализе и во многих случаях может быть перенесено  на соответствующие выходные словоформы.

Совпадение синтаксических структур предложений. С точки зрения перевода — это важное свойство рассматриваемых языков, позволяющее в большинстве случаев переносить синтаксическую структуру предложений входного языка на предложения выходного. Исключения касаются перевода некоторых отглагольных форм русского языка, для которых нет аналогов в украинском языке. В этих случаях необходима трансформация текста, которую часто игнорируют, заменяя отглагольную форму словообразовательной калькой.

Отсутствие необходимости сложной трансформации научно-технического текста в процессе перевода следует рассматривать как положительный фактор, поскольку сохраняется авторский стиль и расстановка смысловых акцентов. По этой же причине мы придерживаемся правила: постредактирование переводов таких текстов должен выполнять их автор.

В заключение отметим необходимость считать творческую работу по определению переводов слов и словосочетаний в словарях самой важной в построении ПП. Язык описания переводов [1] позволяет детально рассмотреть особенности перевода слов и словосочетаний на стадии написания правил перевода,  что обеспечивает корректность сгенерированных на основе сформированных правил двуязычных словарей и, следовательно, повышение качества результатов перевода.   

Литература

Мищенко Н.М. О генерации языковых процессоров на основе формальной  спецификации лексики обрабатываемых тестов. // Труды Международного семинара Диалог'2000 по компьютерной лингвистике и её приложениям. Том 2. Приложения. —Протвино, 2000. С. 271-278.