Грузинский спелчекер на базе двунаправленного морфологического процессора
Л.П. Маргвелани
Отдел языкового моделирования
Институт систем управления им. А. Элиашвили
Академия Наук Грузии
Создание грузинского спелчекера связано с некоторыми специфическими проблемами, основной из коих является отсутствие защиты литературного языка от пагубных для него ошибок, которые допускаются говорящими сплошь и рядом. Первоочередной задачей, требующей проведения радикальных мер, является создание ряда систем, которые если не устранят, то хоть в какой-то степени уменьшат языковые отклонения и неточности. Одной из таких систем является спелчекер, как механизм, регулирующий и удостоверяющий языковые нормы, а за одно фиксирующий и упорядочивающий характерные языковые ошибки.
Базой системы "полноценного" спелчекера является анализирующий процессор, с помощью которого устанавливается правильность/неправильность содержания и построения фраз и словоформ.
До окончательной разработки анализирующего процессора (морфологическая часть которого корректируется) предлагается спелчекер смешанного вида, построенный на базе двунаправленного процессора (имеются в виду анализ-синтез). Ниже дается описание данного варианта.
Предлагаемый вариант спелчекера может устранить ошибки лишь морфологического характера, число которых весьма велико.
Из составляющих спелчекера основной частью является процессор, синтезирующий грузинские словоформы. Он состоит из словаря основ (корней) и интегрированного с ним алгоритма, строящего из основы и аффиксов правильные (установленные в литературном языке) словоформы (Маргвелани, 1997). Алгоритм работает в нескольких режимах. Одним из них является режим, строящий парадигму и приписывающий ее членам полный набор соответственных морфологических характеристик, т.е. всевозможные параметры, отражающие категории, изобилием которых характеризуются грузинские как глагольные, так и именные формы.
Полученные таким образом словоформы могут использоваться спелчекером в качестве эталонов. Словоформа, подаваемая на вход системы правильность/неправильность которой должна быть установлена, сравнивается с эталоном. В результате сравнения устанавливается идентичность/неидентичность форм. Для решения задачи необходимо проделать следующие шаги: идентифицировать основу, построить эталоны и предложить правильную форму, если попытка идентификации терпит неудачу. Как было отмечено, система, строящая эталоны, реализована и при наличии основы может выполнить свою задачу. Для выделения же основы предлагается подсистема, анализирующая префиксальную часть словоформы (Маргвелани, 1999), Добыть основу из сложной словоформы (например, ga-m-a-ket-eb-in-eb-d-e-s, где основой является ket) проблема довольно сложная. Одним из ее аспектов является выбор общего направления процедуры поиска основы: слева направо или наоборот - справа налево. Предпочтение отдано направлению слева направо из следующих соображений: во-первых, опыт показал, что проанализировать словоформу справа налево никак не легче, (нередко даже намного труднее), а отсюда, во-вторых, следует, что нет смысла нарушать интуитивно более приемлемый обычный порядок чтения и письма - слева направо.
Данная подсистема усекает префиксальную часть, а остаток (который может состоять из основы и суффиксальной части), посылает в словарь основ, в результате чего происходит отсечение основы от суффиксальной части. В результате, определив основу, можно включить вышеупомянутую систему получения эталонов.
Очевидно, что в системе предлагаемого спелчекера значительное место занимает словарь основ. Коснемся вкратце основных положений составления и смысловой нагрузки словаря. Надо отметить, что словарь обслуживает как синтезирующую, так и анализирующую компоненту процессора. Составлен он из основ (корней) слов. В качестве словарной единицы для всех форм данного слова выделена лишь одна основа. Изменяемая часть основы (при наличии таковой) представлена переменной, указывающей на соответствующее морфофонологическое правило (см. Чикоидзе,1995).
Каждая основа в словаре снабжена набором параметров, составляющим морфологический код слова. Параметры необходимы для снятия неоднозначности (омонимии-синонимии) маркеров, являющейся помехой для синтезирования/анализирования словоформ. Покажем это на примере глагола, часто отличающегося сложнейшей структурой. Параметры, обслуживающие синтезирование глагольных форм, делятся на основные и второстепенные (вспомогательные) параметры. Основными принято считать параметры, способствующие в большинстве случаев снятию неоднозначности. Таковыми считаются т.н."темис нишнеби"-показатели темы (т.е. основы) - av, am, eb, ev, em, i, ob, op, 0, соответственно которым глаголные основы делятся на девять основных групп. Им по "мощности" и объяснительной силе уступают маркеры страдательного залога (d, i/e, 0). Со своей стороны, маркеры страдательного залога делят основные группы на подгруппы. Немаловажную роль играют и второстепенные (менее "мощные") параметры, выявляющие индивидуальный характер глагола. Они тоже делят группы на подгруппы и тем самым доводят процедуру конструирования/разбиения словоформ до конца. В итоге получается длинный список параметров, образующий словарную информацию слова. Проиллюстрируем вышесказанное.
Маркерами опосредствованного контакта, выражающего в зависимости от контекста принудительность, просьбу, желание помочь, являются in и evin. Условия оформления названной категории при помощи in таковы (подгруппы перенумерованы): a. основы, показателями, темы которых являются eb, ev, em, ob, op, 0, требуют маркера inпосле показателей темы (после "темис нишнеби"): aketeb(делаешь)-aketebineb, acmev(одеваешь)-acmevineb, miscem(дашь)-miacemineb, asrob(сушишь)-asrobineb, qop(делишь)-aqopineb, cer(пишешь)-acerineb; b. Из-за наличия в основе сонорного звука у глаголов третьей подгруппы остаток маркера v(¬ av) с позиции суффикса перемещается в основу: ganglav-agangvlineb; c. Сугубо индивидуальный характер выявляет глагол plav(закопать). В отличие от других глаголов на av, у глагола plav перед маркером in вместо ожидаемого av появляется ob, маркер темы совершенно другой группы глаголов: plav-aplobineb. d. Не лишен интереса и тот факт, что все глаголы на av (кроме данного и глаголов второй, шестой и десятой подгрупп) перед in требуют v-остаток маркера av: xatav(рисуешь)-axatvineb, lesav(точишь)-alesvineb, zogav(бережёшь)-azogvineb… e. Маркера in требуют и глаголы на i типа toxnis ( т.е. тринадцатая подгруппа): toxni(мотижишь)-atoxnineb, kortni(клуёшь)-akortnineb, тогда, как у большинства глаголов на i опосредствованный контакт образуется при помощи маркера evin, тоже проявляющего особенности. В частности: a. Глаголы на am при образовании вышеупомянутой категории присоединяют к основе маркер evin после редуцированного am, теряя при этом v, принадлежащее основе: abam(привязываешь)-abmevineb, asxam(лёшь)-asxmevineb, agikvam(воспринимаешь)-agakmevineb. b. После редуцированного av следует evin у глаголов на av второй, шестой, десятой подгрупп: rgav(сожаешь)-argvevineb, txzav(сочиняешь)-atxzvevineb…; с. У глаголов второй подгруппы редуцированный v переходит в основу, а evin следует за основой: klav(убиваешь)-akvlevineb, krav(связываешь)-akvrevineb; d. Все глаголы на i (кроме вышеупомянутых) требуют evinнепосредственно после основы: tli(обтесаешь)-atlevineb, sli(стираешь)-aslevineb, zrdi(ростишь)-azrdevineb… см. схему строящую основу опосредствованного контакта.
Аналогичным способом регулируются все случай неоднозначности.
Что касается последнего вопроса - сравнения подаваемой на вход спелчекера словоформы с эталоном и замены неправильной формы правильным вариантом, то нами разрабатывается интерактивная система, которая представляет собой совокупность подсистем. Каждая подсистема обслуживает предназначенную ей сферу (это - морфологическая подсистема, синтаксическая подсистема и т.д.). Значительное место в подсистемах занимает упорядоченное (и соответственно классифицированное) описание ошибок. Данный вариант системы спелчекера можно изобразить схематически:
|
|
|
|
WF W WF
Символы обозначают: WF - словоформа, W WF - правильная словоформа, PAP - процессор, анализирующий префиксальную часть, L -словарь, SP(PR) - синтезирующий процессор в режиме парадигмы, IS - интерактивная система.
Литература:
- Маргвелани, 1997 - Л.П. Маргвелани, Л.А. Самсонадзе, Н.Г. Джавашвили. Вопросы компьютерного синтеза грузинской словоформы, Сборник трудов Института Систем Управления, Тбилиси, 1997.
- Маргвелани, 1999 - Л.П. Маргвелани. Об алгоритме морфологического анализа префиксальной части грузинской словоформы. Сборник трудов Института Систем Управления, Тбилиси, 1999.
- Чикоидзе, 1995 - Chikoidze G. -Report on Project "Machine Translation in Georgian Language, UNESCO,1995.
|