КВАЗИИСКУССТВЕННЫЙ ЯЗЫК[1]
Н. Н. Непейвода
Институт Математики СО РАН
nnn@novosoft.ru
Ключевые слова: язык-посредник, алгоритмы перевода, модель смысл ó текст, синтез текста, перифразирование.
В докладе предлагается подход к решению задачи обработки реальных естественных текстов на совокупности языков и в совокупности предметных областей, в котором задача перевода с одного языка на другой рассматривается в неразрывном единстве с задачами преобразования (в частности, перифразирования) текстов, раскрытия косвенных ссылок и восстановления контекста, семантической обработки, построения диалога. Данный подход, в частности, согласован с моделью «СМЫСЛ ó ТЕКСТ» и предназначен для использования при развитии системы ЭТАП. Описываются основные возможности внутреннего квазиискусственного языка-посредника и обращается внимание на уточнение формулировок ряда задач математической лингвистики при явном введении в рассмотрение квазиискусственного языка.
1. Системные и логические аспекты
Под объектами в данном изложении понимаются как реальные, так и идеальные сущности, в мире которых мы живем. В современной науке принято разделение объектов на естественные иискусственные. Характеристический признак искусственного объекта — он создан для некоторой цели и по некоторому плану. Тем самым он имеет генетическое описание. Это генетическое описание логически порождает атрибутивное, описывающее взаимосвязи между структурой объекта и функциями его частей (тот-то элемент был поставлен для такой-то цели). Но еще одно важное различие остается за бортом рассмотрений и поэтому часто возникают недоразумения. Искусственные объекты делятся на два класса, обладающих различными свойствами.
Во-первых, у нас есть собственно искусственные объекты, которые сконструированы из таких элементов, что их свойства могут быть описаны логически и в принципе полно. К таким объектам относятся прежде всего математические конструкции и программы. Создатель такой конструкции выступает в роли демиурга, ограниченного лишь законами логики и собственной мыслительной мощью. Сущность искусственных объектов чаще всего информационная.
Во-вторых, мы встречаемся с квазиискусственными объектами, которые созданы из естественных материалов. Свойства их составляющих, и, соответственно, объекта целиком, даже в принципе не могут быть полно описаны. Такими объектами являются практически все изделия, встречающиеся в материальном мире. Далее, по логическим и системообразующим признакам к таким объектам относятся и многие конструкции, получающиеся формальными преобразованиями естественного языка. Хотя данные конструкции не материальны, но они наследуют от прародительского материала неформализуемость в исключительно сильной форме. Мало того, что они не могут быть даже в принципе описаны полностью формальными методами, они упорно сопротивляются всякой формализации, сами помогая найти противоречащий пример для каждого общего точного утверждения, сделанного о таких объектах. Известно, скажем, что практически каждое точно сформулированное утверждение, касающееся формальных аспектов синтаксиса и особенно семантики естественных языков, может быть опровергнуто на примере. Проблема универсалий является одной из труднейших проблем формального синтаксиса, а уж нахождение нетривиальных универсалий кажется нереальным.
Неформализуемость является не единственным, хотя исключительно важным, аспектом квазиискусственности. Вторым аспектом квазиискусственности является неконтролируемость. Естественный язык сопротивляется всем попыткам ввести его в рамки полной нормативности, а если он вошел в эти рамки, он уже стал мертвым языком. Таким образом, при работе с квазиискусственным объектом мы должны понимать, что это наше детище после создания начинает жить самостоятельной жизнью, видоизменяться по присущим ему законам в соответствии с тем, как видоизменяются те материалы, из которых оно создано.
Третьим аспектом квазиискусственности является возможность достаточно точного и целенаправленного манипулирования данным объектом и видоизменения (при наличии соответствующих инструментов и материалов) его для удовлетворения наших изменяющихся потребностей и, может быть, для достижения новых целей. Таким образом, хотя точные методы при работе с квазиискусственным объектом в любой момент могут дать сбой, они являются самым подходящим инструментом для работы с ним. А идеальных на все случаи жизни инструментов в данной ситуации, так же, как и в любой достаточно сложной и достаточно интересной, просто нет.
2. Квазиискусственные языки
Применяя все вышеизложенное к лингвистике, мы видим, что необходимо явно ввести в рассмотрение упущенный компонент морфологического ящика языков.
Форма |
Естественный |
Искусственный |
Сущность |
||
Естественный |
Естественный |
Квазиискусственный |
Искусственный |
Квазиестественный |
Формальный |
Итак, квазиискусственные языки внешне выглядят как искусственные, но основаны на естественных. Самым ярким (хотя и не до конца последовательным) примером квазиискусственного языка, имеющегося в настоящее время, является UNL. Заметим, что, скажем, эсперанто сделал лишь первые шаги к квазиискусственности. В нем искусственный синтаксис и морфология сочетались с семантикой и прагматикой, полностью унаследованной от естественного языка. Оба рассмотренных примера показывают, что квазиискусственный язык регулярно возникает тогда, когда предпринимается попытка конструирования интерлингвы, языка-посредника.
Продолжая анализ общего понятия квазиискусственного языка, мы видим, что квазиискусственный язык полезен в следующих отношениях.
- Сохраняя семантическое пространство естественного языка, квазиискусственный язык не требует формализации текста для перевода на данный язык.
- Могут резко облегчаться различные формальные преобразования текста.
- Могут делаться более явными различия в семантических пространствах разных языков (например, как это происходит при использовании UNL).
- Появляется новая возможность многоуровневого текста, в котором заложены различные семантические и синтаксические пространства, уточняющие друг друга, и
выявляющиеся лишь в определенных ситуациях использования данного текста.
- Появляется возможность углубления и развития преимуществ иероглифической записи, в которой, при основной опоре на смысл, имелись средства для передачи звучания слова, поскольку в квазиискусственном языке множество единиц, соответствующих иероглифам, вполне может быть не фиксированным, а средства конструирования такой единицы сколь угодно богатыми.
Но для того, чтобы как следует воспользоваться предоставляемыми возможностями, нужно четко осознать специфику квазиискусственного языка в новых условиях, когда обработка данного текста может производиться программными системами, а для человека он вполне может выглядеть как обогащенный естественный текст.
3. Некоторые предложения по квазиискусственному языку, базирующемуся на UNL
UNL, международный квазиискусственный язык, развиваемый UNL Society, сделал несколько важных шагов в направлении развития квазиискусственного языка.
Прежде всего, в UNL решительно отошли от линейной формы текста, который представляется как гиперграф.
Во-вторых, явочным порядком введена концепция сверхиероглифа, явно не сформулированная в языке. Основной единицей является не слово, а UW элемент (английская основа слова) с семантическими и синтаксическими модификаторами. Но продвижение в этом направлении было не до конца последовательным.
В-третьих, хотя и не очень последовательно, изгоняются служебные слова, которые заменяются на модификаторы в сверхиероглифах и на отношения в предложении.
В-четвертых, нет никакой попытки кодифицировать список сверхиероглифов, и в этом смысле UNL стал первым языком с полностью открытым словарем. Рассмотрим хотя бы выражение на UNL глагола «жениться»
Marry(agt>man,obj>woman).
Дополнительные ограничения, отсутствующие в ближайшей английской основе, свободно вводятся как модификаторы в сверхиероглиф.
Более того, любое отношение (т. е. на самом деле целое предложение) может быть определено внутри текста как составное слово.
В UNL имеются и такие особенности, которые мешают его использованию в качестве квазиискусственного языка-посредника для некоторых целей. Приведем наиболее бросающиеся в глаза из них (соответственно, не обязательно самые важные из мешающих).
Во-первых, привязка к английским основам заставила различать в UW слова, имеющие смысл существительного, прилагательного и глагола. Но на самом деле, например, идея передвижения является первичной по отношению и к глаголу, и к существительному move, moving и т. д. По той же причине часто английские омонимы вынуждены различаться как различные сверхиероглифы с семантическими модификаторами, что концептуально противоречит роли UW-основы как семантического ключа в сверхиероглифе.
Во-вторых, семантические модификаторы воспринимаются как абсолютные. В то время как часто использование того или иного слова означает большую вероятность выбора того или другого варианта. Например, «изба» означает скорее всего русский деревенский деревянный дом, «казак» скорее всего русский либо украинец (но и калмыки были казаками). Ни вероятных, ни альтернативных свойств в UNLнет.
В-третьих, никаких указаний на звучание слова, кроме возможной записи его в английском варианте (например, izba или ikebana) в UNL нет.
И эти, и другие мешающие основной цели особенности UNL связаны с ресурсным ограничением. UNL создавался таким образом, чтобы человек почти без лингвистического образования, но с достаточной культурой, мог вручную переписать свой текст на UNL.
Здесь даются некоторые наброски концепции UNL-подобного квазиискусственного языка. Мы сосредотачиваемся на принципиальных вопросах, а не на деталях представления, которые могут еще многократно меняться.
Поскольку наш квазиискусственный язык предназначен для машинной генерации и машинных же преобразований, мы полностью отбрасываем ресурсные ограничения UNL и не стесняемся вводить более строгие, но гораздо более громоздкие, концепции и описания. Ограничителем при этом остается наличие простого, хотя, возможно, и теряющего информацию, алгоритма перевода текста на внутреннем квазиискусственном языке на язык UNL.
Поскольку для многих применений естественного языка важно прослеживать не только поверхностные семантические связи, но и второй слой намеков и связей, в языке имеются возможности описания альтернативных и неточных семантических модификаторов и ассоциативных связей, что заставляет вводить модификаторы модификаторов. Далее, квазиискусственный язык должен давать возможность выражать неоднозначность и структуры представляемого текста (например, если некоторая договорная или юридическая формулировка была записана намеренно двузначно). Все это заставляет вводить многослойные описания на всех уровнях представления предложения.
Далее, поскольку минимальной относительно замкнутой единицей текста является абзац, и даже разбиение на предложения в разных языках и в разных стилях текста на одном и том же языке может меняться, предложение практически исчезает как единица представления, оставаясь лишь указателем на то, что в данном случае была сделана соответствующая пометка в исходном тексте.
Для обеспечения перечисленных выше возможностей вводится временный словарь для данного текста, иерархически подчиненный словарю для данной совокупности текстов, иерархически подчиненный словарю для данного стиля текстов и для данной предметной области, иерархически подчиненный словарю для данного языка.
Поскольку язык создается для целей применения в модели смысл ó текст, структура внутреннего языка сразу ориентируется именно на данную модель.
Язык создается таким образом, чтобы в крайнем случае квалифицированный математик-программист-лингвист мог руками поправить внутреннее представление текста, но никаких попыток сделать это общедоступным не предпринимается.
4. Некоторые определения и критерии
Перейдем теперь к принципиальным моментам, связанным с самим алгоритмами преобразований текста, в частности, с методами перевода. При этом считается, что каждый такой метод имеет некоторое пространство параметров настройки, определяющих предпочтения. Такие параметры могут влиять на предпочтение той или иной синтаксической альтернативы, некоторых омонимов, на подробность представления следующих уровней смысла в результирующем тексте, на метод синтеза текста, чтобы, например, обеспечить его принадлежность некоторому стилю.
Например, при взаимодействии между союзными силами в операции против бандитов вполне может считаться эквивалентной следующая переформулировка текста.
Микола, сделай того, что справа!
Полковник Перерепенко! Я прошу Вас отдать приказ своим подчиненным нейтрализовать преступника, находящегося за сараем.
Первый из них просто принадлежит неформальному стилю, а второй —автоматизированно создаваемому официальному отчету об операции.
Таким образом, от выбора параметров настройки существеннейшим образом зависит один из основных постулатов концепции «смысл ó текст» о существовании эквивалентных текстов. Если настройки у нас буквоедские и вдаются во второй и третий слои смысла, то эквивалентных текстов нет. Если они у нас ориентированы на выполнение конкретных задач, то их может быть очень много.
Рассмотрим, в частности, задачу перевода с естественного языка на язык-посредник и задачу синтеза текста на том же естественном языке. Метод перевода на посредник назовем Analysis(S,j), где S — переводимый текст естественного языка, j — некоторая структура параметров настройки. Считается, что на выходе метода мы получаем частично-упорядоченное множество альтернативных вариантов перевода на язык-посредник. Вариант T называется предпочтительным, если он является максимальным элементом множества Analysis(S,j). Метод синтеза текста естественного языка опишем как преобразованиеSynthesis(T,f), T — текст квазиискусственного языка, f — структура параметров настройки. На выходе мы имеем частично-упорядоченное множество текстов естественного языка.
Пара методов перевода и синтеза считается корректной, если для каждого короткого текста S найдутся такие параметры настройки и такой предпочтительный вариант его перевода TÎ Analysis(S,j), чтоSÎSynthesis(T, f) и является его предпочтительным элементом.
Конечно же, в живой системе, которой является любой естественный язык, к любому формальному определению можно найти контрпримеры. Но это не избавляет нас от необходимости искать уточнения, которые могут быть использованы в большинстве случаев.
Автор выражает благодарность акад. Ю. Д. Апресяну и другим членам семанара ИППИ по математической лингвистике за обсуждение идей работы.
Литература
- Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л. и др. Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1989.
- Мельчук И. А. Опыт теории дингвистических моделей «СмыслóТекст». М.: Наука, 1974.
- Мельчук И. А. Курс общей морфологии, т. 1–4. Москва, Вена, 1999-2001.
- Тестелец Я. Г. Введение в общий синтаксис. М.: РГГУ, 2001.
Quasi artificial language
Nikolai Nikolaevich Nepejvoda
Keywords: interlingva, automatic translation, meaning ó text, text synthesis, paraphrasing.
An approach to wide scope information processing and exchange in natural multi-language environment is described here. Translation tasks form here a holistic system with paraphrasing, indirects solving, context mining, semantical processing, natural language multi-lingual dialogue. The current realization of the approach is intended first of all to extend the Melchuk’s «MEANING ó TEXT» concept. It is used during development of the new generation of ETAP natural language processor and knowledge base system. Various aspects of quasi-artificial language are presented, including formalisms, synthesis and analysis algorithms and their validation aspects, integration with ontologies and NL processors. Some program realizations will be presented.
[1] Данная работа частично поддержана РГНФ, грант 02-03-18307а.