СООТНОШЕНИЕ МОРФОЛОГИЧЕСКОГО АНАЛИЗА И МОРФОЛОГИЧЕСКОГО СИНТЕЗА
А. К. Ганькин
Московский государственный университет имени М.В. Ломоносова
ganart@yandex.ru
Ключевые слова: морфологический анализ, морфологический синтез, морфологическая структура, лемматизация, набор грамматических характеристик, дефектность парадигмы, лексико-морфологическая омонимия, морфологическая сннонимия.
На первый взгляд кажется, что эти два процесса взаимно обратны. Однако такое суждение очень условно: они хоть и действуют в противоположных направлениях, так что вход одного является выходом другого и vice versa, но не являются зеркальными, симметричными. Cначала рассмотрим специфические проблемы, связаные с морфологическим анализом, никак не проявляющиеся при морфологическом синтезе: лемматизация, обработка лексико-морфологической омонимии. Затем перейдём к проблемам синтеза, а именно – обеспечению адекватности входа и выхода - и покажем, как они могут решаться с точки зрения анализа, хоть это и сопряжено с определёнными трудностями.
1. Основные понятия
Морфологический анализ (МА) – это преобразование входного текста в его морфологическую структуру. Единицы морфологического анализа (не считая оборотов) – словоформы, на которые делится текст.Морфологическая структура текста – это последовательность морфологических структур входящих в текст словоформ, причём эти элементы располагаются в том же порядке, что и соответствующие словоформы – в тексте. Далее, морфологическая структура словоформы – это имя соответствующей лексемы с набором грамматических характеристик. Таким образом, МА словоформы, как частный случай МА текста, представляет собой преобразование входной словоформы в её морфологическую структуру.
Допустим, что МА обработает последовательно отдельные словоформы, хотя, конечно, можно было бы использовать тот факт, что контекст в определённой степени определяет и саму лексему, и её морфо-синтаксическое оформление.
Морфологический синтез (МС) – это, наоборот, преобразование морфологической структуры в выходной текст. На уровне морфологической структуры словоформы МС представляет собой образование конкретной формы заданной лексемы по заданному набору грамматических характеристик. В другом понимании МС заключается в порождении всех допустимых словоформ входной лексемы, каждая из которых сопровождается одним или несколькими наборами грамматических характеристик.
Надо упомянуть, что, пожалуй, самыми естественными и главными требованиями к системе автоматической обработки текста являются те, о которых говорится, например, в [1] по поводу системы ЭТАП: «предлагаемая модель русской морфологии удовлетворяет требованиям полноты и адекватности». В целом под полнотой подразумевается, что в ней учитываются все возможные словоформы от лексем (присутствующих в словаре). Под адекватностью подразумевается, что все словоформы, учитываемые моделью, реально существуют в языке. Эти требования являются взаимно обратными и могут применяться по отдельности к МА и к МС, причём отдельно к их входу или выходу, чем мы в дальнейшем и воспользуемся.
- Проблемы МА
МА в полной реализации (но без прочих возможных компонентов досинтаксического анализа) состоит из двух частей. Во-первых, это лемматизация словоформы, т.е. установление лексемы, парадигма которой включает входную словоформу. Во-вторых, сопоставление входной словоформе набора её грамматических характеристик, т.е. набора значений релевантных грамматических категорий. Эти две части морфологического анализа не разделены строго, они взаимодействуют между собой сложным образом. В ряде прикладных задач можно ограничиться МА в редуцированном виде, т.е. либо только лемматизацией, либо только установлением грамматических характеристик. При вышеупомянутом понимании МС - с парадигмой (а не словоформой) на выходе - можно и для него рассматриватьредуцированные варианты, аналогичные редуцированным вариантам МА: построение полной парадигмы лексемы в виде простого списка словоформ или её характеризация в виде соответствующих наборов грамматических характеристик.
Вообще говоря, МА очевидным образом сложнее МС из-за лемматизации (если она требуется). При анализе у нас нет априорной информации, какие словоизменительные аффиксы присутствуют во входной словоформе. В тривиальном случае она может быть начальной (т.е. леммой), и тогда её можно не анализировать лишь при двух условиях: если в словаре хранятся леммы и если нам достаточно одного варианта анализа. Иначе же трудности возникают даже в том элементарном случае, когда словоизменение осуществляется исключительно путём добавления ровно одного аффикса к основе с определённой стороны. Ведь его длина обычно может варьировать, а значит, задача его выделения в словоформе нетривиальна.
Нельзя не упомянуть такую проблему МА, как обработка некорректных словоформ. Они должны распознаваться в качестве таковых и не получать никакой морфологической структуры. Иначе нарушается адекватность входа МА, что приводит, вчастности, к неприменимости системы для проверки орфографии. Хотя, если ошибка окажется, так сказать, невольно предусмотренной в морфологической модели, то синтаксический и семантический анализ текста не только не пострадает, но и будет спасён! К тому же адекватностью входа МА иногда вообще пренебрегают, если не предусмотрено того или иного словаря лексем.
Несколько иначе преподносится большая (относительно МС) сложность МА в [1]: «задачи морфологического анализа и синтеза не являются в точности обратными друг другу, так как морфологическая структура, подаваемая на вход процедуры синтеза, не должна содержать неоднозначностей, т.е. в ней для каждой словоформы будущего текста задаётся ровно один вариант лексико-морфологического разбора. При этом процедуре синтеза свойственна и одновариантность на выходе: в случае морфологической синонимии выдаётся только один, стилистически более предпочтительный вариант».
Явление морфологической синонимии (обратное по отношению к морфологической омонимии) заключается в возможности образования нескольких словоформ с одним и тем же набором грамматических характеристик от одной и той же лексемы. В русском языке это явление не очень распространено, хотя встречается регулярно: например, сравнительная степень прилагательных и наречий («сильней/сильнее») и творительный падеж единственного числа существительных женского рода на –а/я («водой/водою», «саблей/саблею»).
Итак, в приведённой цитате подразумевается, что МА противопоставлен МС своей многовариантностью, выражающейся в омонимии. Однако в системе ФР, напротив, не только собственно перевод (выдача всех русских эквивалентов, записанных в статье французской лексемы), но и МС характеризуется многовариантностью (пример с родом см. ниже), хотя речь идёт не о морфологической синонимии.
Более того, многовариантность распространяется на синтез и в другом смысле: «возможность многовариантности синтеза должна использоваться только в тех случаях, когда строящийся вариант не может быть достроен или построенный вариант неудовлетворителен» [3]. Во втором случае неудовлетворительность может оцениваться интер-редактором (на промежуточных стадиях) или пост-редактором, что нас интересует больше, так как это происходит уже после МС. Очевидно, однако, что возможная неудовлетворительность обычно не характерна для самого МС, а зарождается ещё до него; иначе получилось бы, что он неадекватен на выходе. Поэтому, если речь не идёт о подборе другого морфологического синонима, исправление, как и разновидность первого случая – невозможность МС, – требует возвращения по меньшей мере к предыдущему, синтаксическогму, этапу.
3. Омонимия
А теперь подробнее рассмотрим явление омонимии, столь затруднющее МА. В отличие от морфологической синонимии, относящейся к морфологической семантике, это явление затрагивает и лексику, что не исключает его из сферы наших интересов постольку, поскольку именно лексикой оперирует лемматизация. В общем случае оно заключается в том, что одна словоформа может получать несколько вариантов лексико-грамматического разбора. Это может случиться по нескольким причинам.
3.1) При морфологической омонимии одинаково выглядят несколько форм одной лексемы, имеющие различные наборы грамматических характеристик. В русском языке есть регулярные случаи такой омонимии, особенно при падежном (или падежно-числовом) синкретизме. Например, винительный падеж не оформлен самостоятельно у существительных, прилагательных и причастий (в полной форме, в положительной/превосходной степени) мужского/среднего рода и/или во множественном числе. Поэтому у одушевлённых существительных мужского рода и/или во множественном числе и согласованных с ними прилагательных возникает регулярная омонимия винительного/родительного падежей, а у аналогичных неодушевлённых, как и у существительных среднего рода в единственном числе независимо от одушевлённости – регулярная омонимия винительного/именительного падежей. Два дополнительных падежа (местный и партитивный) вообще никогда не получают самостоятельного графического выражения: оба они (первый – только если игнорировать различие по ударению) всегда совпадают с дательным («нет сахару», «в лесу»). Такая омонимия стала бы регулярной, распространившись на все прилагательные, причастия и остальные существительные, при альтернативном варианте описания.
3.2) У разных лексем могут совпадать аналогичные формы. Тогда каждому из вариантов лексического разбора приписывается один и тот же набор грамматических признаков. Прежде всего, речь идёт олексических омонимах. У них, если они раздельно включены в словарь, часто совпадают все формы (полные лексические омонимы). Впрочем, совсем не обязательно все. В частности, симметрию нарушают возможных лакуны в парадигме одного из лексических омонимов (ср. «мир1/мира1/.../Æ», с одной стороны, и «мир2/мира2/.../миры» и т.д., с другой стороны; «очко/.../очки1/очков1/...» и т.д., с одной стороны, и «Æ/очки2/очков2», с другой стороны).
3.3) Входная словоформа может соответствовать аналогичным формам нескольких лексем (но уже не лексических омонимов, как в предыдущем случае). Например, у существительных «пар» и «пара» совпадают формы единственного числа предложного падежа, а также множественного числа (кроме родительного падежа): «паре», «пары» и т.д. А словоформа «паре» осложнется, вдобавок, синкретизмом (дательный/предложный падеж женского рода). Заметим, что в данном примере лексемы различаются по классифицирующей категории рода, однако это совсем не обязательно.
3.4) Наконец, те случаи, когда каждому варианту лексического разбора соответствует свой вариант морфологического, иногда называют омоформами. Например, глагольная словоформа «спали» может образовываться от «спать» (несовершенный вид, изъявительное наклонение, прошедшее время, множественное число), «спадать» (совершенный вид, всё остальное то же), «палить» (совершенный вид, повелительное наклонение, единственное число, второе лицо); последний вариант – при условии игнорирования акцентуационного различия. Более того, несколько лексем, к которым возводится омонимичная словоформа, могут даже принадлежать к разным частям речи: например, «стекло» может образовываться от глагола «стекать» (совершенный вид, изъявительное наклонение, прошедшее время, единственное число, средний род) или совпадать с леммой существительного. А в данном примере дело осложняется и синкретизмом именительного/винительного падежей.
В общем, получается три логические возможности: варианты лексико-грамматического разбора отличаются друг от друга в лексическом, в грамматическом или в обоих аспектах. Наконец, как уже было показано на примерах, возможны и комбинации этих случаев, если вариантов разбора оказывается более двух.
Итак, значительной части входных словоформ алгоритм анализа сопоставляет несколько морфологических структур. Какая из них подходит в каждом случае, на этапе собственно МА неизвестно. Разрешение лексической омонимии может (но не обязано!) происходить как на этапе синтаксического анализа, так и на ещё более глубоком уровне. В случаях синтаксической омонимии подходят сразу несколько морфологических омонимов, т.е. при выборе любого из них текст получает некоторую синтаксическую структуру, которая, впрочем, на более глубоком уровне может устраняться. Но чаще всего морфологические омонимы создают, так сказать, синтаксический шум, устраняемый уже на этапе синтаксического анализа, но порождающий множество лишних синтаксических гипотез.
Если поочерёдно рассматривать все варианты морфологической структуры текста, то появляется опасность комбинаторного взрыва. Поэтому иногда принимается решение строить «комбинированную» морфологическую структуру текста. Его элементами становятся, в общем случае, комплексы из одной или нескольких морфологических структур соответствующих словоформ. Далее, для снятия морфологической и отчасти лексической омонимии словоформы достаточно обратиться к её ближайшему линейному контексту. Иногда такие операции выделяются в отдельный блок, следующий за морфологическим анализом.
4. Проблемы адекватности входа МС
Существует две принципиальные проблемы, с которыми с скмого начала может столкнуться МС при обеспечении адекватности входа. Тот случай, когда в словаре системы нет лексемы, поступившей на вход, составляет отдельную проблему, которая может решаться путём прогнозирования словоизменительного типа лексемы по её орфографическому виду для обеспечения полноты входа МС. Впрочем, это довольно странный случай, т.к. обычно лексема, прежде чем поступить на вход МС, берётся именно из словаря. Так что нас здесь интересует другой случай: когда у входной лексемы не встречается данный набор грамматических характеристик. Рассмотрим несколько вариантов.
4.1) Не хватает значения релевантной грамматической категории. В этом случае можно породить его по умолчанию. Например, в системе ФР [2] у прилагательных в русском словаре лексем бывают специальные пометки о роде, которые указывают, по какому роду субстантивируется прилагательное при необходимости, т.е. если переводимое французское слово было существительным. А по умолчанию, т.е. при отсутствии такой пометки, субстантивация происходит по среднему роду. Далее, в русском языке для причастий допустимы 6 сочетаний признаков: залог, время, вид (в настоящем времени – только несовершенный). Однако в силу специфики французского языка на вход морфологического синтеза системе ФР приходят только два сочетания: действительное причастие настоящего времени, получающееся из Participe Présent, и страдательное причастие прошедшего времени совершенного вида, получающееся из Participe Passé. Таким образом, для причастий определение значений этих трёх категорий всегда происходит по умолчанию.
4.2) Присутствует значение нерелевантной грамматической категории. Вообще, релевантность грамматической категории зависит от значений других грамматических категорий, как классифицирующих, так и словоизменительных. Прежде всего, множество релевантных категорий сильно варьируется по частям речи (классифицирующая категория). Например, признак падежа всегда релевантен для существительного (даже неизменяемого, т.к. прилагательное согласуется с ним по падежу), но никогда не релевантен для наречия. А для прилагательного – не в краткой форме и не в сравнительной степени (словоизменительные категории). Даже релевантность классифицирующей категории может зависеть от значений других классифицирующих категорий: например, признак рода (как и падежа) всегда релевантен для существительного, но никогда не релевантен для наречий.
В любом случае лишнее значение можно просто игнорировать.
4.3) Наиболее важный случай: нужное значение грамматической категории не может быть выражено. В таком случае для выполнения требования адекватности входа результатом синтеза должен быть отказ(т.е. сообщение об ошибке). Впрочем, он является и альтернативным результатом для первых двух случаев. Перечислим возможные причины ошибки.
4.3.1) Данное значение вообще не встречается у данной категории (или вообще не встречается данная категория). Эти тривиальные случаи свидетельствуют о грубой ошибке в построении системы.
4.3.2) Данное значение данной категории несовместимо с другой категорией, некоторое значение которой содержится в морфологической структуре. Этот случай можно рассматривать и с другой стороны – как нерелевантность той самой «другой» категории при данном значении данной категории. Нас, опять же, не интересует тривиальный случай, когда несовместимы между собой целые категории (например, лицо и степень сравнения) постольку, поскольку нет словоформы, для которой они обе были бы релевантны.
4.3.3) Данное значение категории не сочетается со значением другой категории, содержащимся в морфологической структуре. Например, в ЭТАП признак падежа релевантен для причастий, прилагательных и существительных, но «дополнительные падежи (партитив и местный) выделяются только в единственном числе некоторых существительных мужского рода» [1]. Т.е. здесь ограничение связано со значениями и словоизменительной, и классифицирующей категорий, да ещё к тому же действует на лексическом уровне. Впрочем, авторы тут же замечают: «Другое возможное решение, согласно которому ПАРТ и МЕСТ есть у всех прилагательных, причастий и остальных существительных, но они всегда омонимичны падежам РОД и ПР соответственно, мы считаем менее предпочтительным хотя бы в силу громоздкости». Нетрудно представить себе и ситуацию, когда возможное значение классифицирующей категории не допкускается значеничми других классифицирующих категорий.
4.3.3.1) Важный частный случай: обычно считается, что несовместимы друг с другом несколько значений одной и той же категории (по крайней мере, в русском языке); имеется в виду их конъюнкция, а не дизъюнкция (которая представляет собой морфологическую омонимию).
4.3.3.2) Важный частный случай: дефектность парадигмы (см. ниже), точнее – лакуна как раз в той клетке, заполнение которой требуется от МА.
- Проблемы адекватности выхода МС
И здесь в некотором смысле МС превосходит МА по сложности. МС должен исключить формы, отсутствующие в языке. Опасность их появления может быть двоякой.
5.1) В первую очередь (лишь по очевидности, но не по важности!) речь идёт о дефектных лексемах, т.е. лексемах с неполной парадигмой, у которых выражаются не все теоретически возможные сочетания грамматических характеристик. Для них априори вполне можно ожидать, что на вход синтеза поступят именно те наборы морфологических характеристик, которые при данной лексеме не могут выражаться. Дефектность парадигмы часто бывает семантически мотивированной (например, только 3 лицо и единственное число безличного «моросить»), однако мотивировка часто бывает и весьма туманной (чтобы не сказать отсутствует) или иметь фонетический характер, заключаться в тенденции к эвфонии (например, видимо, родительный падеж множественного числа от существительного «кочерга», если не считать редкую форму «кочерёг»). Вызванные последней причиной лакуны довольно легко предусмотреть без использования словаря, так как такая тенденция будет действовать не на лексическом уровне, а на фонетическом, который обычно заменяется на графический.
Что касается семантически мотивированных лакун, то они, в некотором смысле, вызовут ещё меньше проблем при МС (конечно, не в том понимании, где у него на выходе – парадигма). Их можно вообще не учитывать. Ведь если на вход синтеза поступит требование построить словоформу (т.е. часть «текста» в терминах модели Смысл <=> Текст), которая не отвечает никакому «смыслу», то, значит, семантический или синтаксический этапы выдали неудовлетворительный результат.
В остальных случаях, если всё же от МС потребуется образование некорректной формы, то он может просто от этого отказаться. Однако, если рассматривать морфологический синтез в общем контексте задачи синтеза текста, то простым отказом удовлетвориться нельзя. Надо искать другой способ выражения того же значения: через морфологический синоним, какую-либо форму другой лексемы и/или через другую синтаксическую конструкцию. Т.е. система должна вернуться к предыдущим этапам.
Во всех этих случаях запрещённые формы, построенные по аналогии, будут, конечно, грамматически неправильными. Но в их оправдание можно сказать: «если бы данная лексема допускала данный набор грамматических характеристик, то соответствующая словоформа выглядела бы именно так». Злоупотребление такими формами свойственно не только искусственному интеллекту, но и естественному. Они встречаются в просторечии, а также в речи людей, в недостаточной мере владеющих языком.
В некоторых случаях принято считать, что пустоты парадигмы заполняются формами от другой основы:
5.1.2) Если парадигма форм от неё также дефектна и не имеет как раз тех форм, аналоги которых имеет первая, то получается, что они взаимно дополняют друг друга. Это называется супплетевизмомоснов, и их естественно объединять в одну лексему (например, классическая, хоть и несколько спорная, пара «человек» – «люди»).
5.1.3) О заполнении пустот инородными формами можно говорить и в несколько другой ситуации: один из квази-синонимов не образует каких-либо форм, а вместо них используются аналогичные формы другого – нормального – квази-синонима. Здесь принадлежность этих квази-синонимов к одной лексеме, наоборот, более чем сомнительна. К тому же, вследствие такого решения нормальный квази-синоним получил бы много супплетивных морфологически синонимичных форм. Например, скорее всего, нежелательно считать, что существительное «дети» (оставляя в стороне «дитя») – не Pluralia tantum, а имеет формы единственного числа «ребёнок» и т.д., хотя они соответствуют своим собственным (хоть и по малопродуктивной модели) формам множественного числа «ребята» и т.д.
5.2) Некорректные формы могут появиться (опять же по аналогии!) для лексем, на которые будут ошибочно распространены те или иные правила словоизменения. При этом вполне могут появляться псевдо-синонимичные формы, одна из которых некорректна, если, конечно, случайно не совпадёт с какой-либо посторонней словоформой.
Таких случаев, конечно, надо тщательно избегать. Для этого приходится точно задавать для каждой лексемы её словоизменительный тип. Это достижимо двумя комбинирующимися средствами. Во-первых, можно с помощью словарных помет точно задавать те и только те правила, которые порождают от неё корректные словоформы. Во-вторых, можно в самих правилах ограничивать их сферу действия. В чистом виде эти средства реализуются, соответственно: во-первых, путём указания конкретных номеров правил при лексемах, во-вторых, путём оперирования чисто графическим внутрисловным окружением, количеством графем и т.д. С этой точки зрения классифицирующие грамматические категории реализуют сразу оба типа средств, т.к. их значения указываются и в словаре, и в условиях применения правил.
Как же МА соотносится с обоими этими случаями, представляющими сложность для МС? Дело в том, что часто он может их просто игнорировать, исходя из следующей посылки: некорректные формы не встретятся в реальных текстах, а потому не имеет значения, что может произойти при попытке их анализа. Тогда лакуны в парадигме можно вообще игнорировать. А правила словоизменения разных типов часто можно задавать вместе (одной группой) для лексем разных словоизменительных типов. Всё равно для каждой словоформы окончательно сработают только релевантные правила, а остальные, попытавшись найти в словаре несуществующие лексемы и найдя в лучшем случае лексемы с отсылками к другим группам правил словоизменения, останутся без последствий.
В реальности картина далеко не столь оптимистична, и возникает тем больше ошибок, чем дальше зашло укрупнение групп правил, т.е. неразличение словоизменительных типов. Выше уже было сказано о нежелательности нарушения адекватности входа МА.
Кроме того, серьёзная опасность заключается в побочном эффекте контаминации с посторонними лексемами при анализе корректных словоформ. Здесь уже речь идёт об ошибке, связанной снекорректностью самой операции МА, при том что её вход и выход сами по себе не вызывают нареканий. Обычно такие случаи довольно трудно предусмотреть. При предварительном применении нерелевантного правила и поиске получившейся гипотетической лексемы может случайно оказаться, что, вопреки ожиданиям, она не только есть в словаре, но и даже, возможно, с отсылкой к группе, включающей данное правило. Тогда даже лемматизация (точнее, один из её вариантов) будет произведена неправильно, в результате чего появится лишний вариант лексико-грамматического разбора, создающий ложную омонимию или ложно усиливающий омонимию. Плюс к тому неправильно может быть и приписывание набора грамматических характеристик, и в результате получится морфологическая структура не только не той лексемы, но и не той клетки парадигмы.
В результате в рамках лингвистического процессора на этап синтаксического анализа поступит лишняя морфологическая структура. В конечном счёте текст в лучшем случае будет признан некорректным позже. Однако на этапе МА надо сделать как можно больше, чтобы не загружать следующие модули. Недаром вводится специальный промежуточный модуль предсинтаксического анализа. Но ещё хуже будет, если получившаяся искажённая морфологическая структура получит какую-либо синтаксическую, а потом и семантическую интерпретацию. Тогда выявить ошибку можно будет только при пост-редактировании (при отсутствии интер-редактирования).
- Заключение
Теоретически Ма и МС могут реализовываться независимо. И для того, и для другого необходимо та или иная формальная морфологическая модель. Однако собственно лингвистическая информация, необходимая для них, в основном совпадает. Поэтому естественное решение – это совмещение обеих морфологических моделей в одной. Конечно, при этом подразумевается выполнение требования декларативности задания лингвистиечкой информации. Именно такая модель и имеется в виду, например, в [1]: «необходимо и достаточно уметь описывать словоизменение любой лексемы рассматриваемого языка. Другими словами, надо иметь средства, позволяющие для любой лексемы указать множество возможных для неё наборов морфологических характеристик и каждому набору из этого множества поставить в соответствие определённую словоформу (или несколько словоформ)».
Литература
- Апресян Ю.Д., Богуславский Ю.М., Йомдин Л.Л., Лазурский А.В., Митюшин Л.Г., Санников В.З., Цинман Л.Л., Лингвистический процессор для сложных информационных систем. М: Наука, 1992.
- Кулагина О.С., О системе французско-русского машинного перевода ФР-II // Проблемы кибернетики. М: Физматгиз, вып. 27, 1973.
- Кулагина О.С., Исследования по машинному переводу. М: Наука, 1979.
Correlation between morphological analysis and morphological synthesis
- K. Gankine
Keywords: morphological analysis, morphological synthesis, morphological structure, lemmatization, set of grammatical characteristics, paradigm deficiency, lexical-morphological homonymy, morphological synonymy.
One can have impression that these two processes are in inverse proportion. But this correlation is very approximate. Although they are directed inversely, so that the input of analysis is the output of synthesis and vice versa, they are not symmetrical. First we will concentrate on the specific problems connected with analysis, that we don’t have to deal with in synthesis: lemmatization, lexical-morphological homonymy processing. Then we’ll consider the problems of synthesis (that is, ensuring the adequacy of input and output) and show how they can be solved in the aspect of analysis, although it is connected to some difficulties.