Proceedings 2002

Contents

АВТОМАТИЧЕСКИЙ ОРФОГРАФИЧЕСКИЙ СЛОВАРЬ РУССКОГО ЯЗЫКА (ГЛАГОЛЬНЫЙ КОМПОНЕНТ)

 

 

Г. Б. Чикоидзе

Институт систем управления АН Грузии

gogichikoidze@yahoo.com,

chiko@contsys.acnet.ge

 

Н. Г. Джавашвили

Институт систем управления АН Грузии

kaxelinj@yahoo.com,

chiko@contsys.acnet.ge

 

Е. А. Доквадзе

Институт систем управления АН Грузии

chiko@contsys.acnet.ge

 

Л. Ф. Нозадзе

Институт систем управления АН Грузии

l_nozadze@hotmail.com,

chiko@contsys.acnet.ge

 

 

Ключевые слова: базисная форма слова, парадигма, морфологическая сеть, порождение, орфографический словарь

 

Предложена  схема системы, порождающей парадигму слова исходя из его базисной формы. Oсновой для представления  cлужит сетевой подход, ранее успешно использованный для двунаправленных морфологических процессоров и задачи бессловарного  тегирования. В отличие от этой  последней, использовавшей вместо словаря лишь краткие списки исключений, задача порождения парадигмы решается на основе структурированных списков исходных форм, организованных таким образом, что принадлежность к некоторому подсписку равнозначна определению всех характеристик, необходимых для построения соответствующей парадигмы. система тестирована на русских глагольных парадигмах. В полном виде она будет выполнять функции  автоматического орфографического словаря.

 

 

  1. Введение

 

Данная работа должна рассматриваться в контексте развития сетевого подхода к построению морфологических процессоров различного назначения и характера для различных языков. Прямым предшественником этого подхода является система синтезирования сложного грузинского имени, описанная в [Е. Доквадзе, Г. Чикоидзе, 1975], однако, за отправной пункт его непрерывного развития, по-видимому, надо принять доклад, представленный на "Диалог'1997" [Г. Чикоидзе, 1997]. Уже в следующем (1998) году морфологические сети были применены для создания обратимого процессора, что и являлось основной целью обращения к сетевому методу представления: в [G.Chikoidze, 1998 а] был описан именной компонент русского морфологического процессора, работавшего без каких-либо изменений структуры в обоих направлениях - синтеза/анализа - , т.е. синтезировавшего по заданной лексеме и морфологическим характеристикам соответствующую им словоформу, и наоборот, определявшего лексему и морфологические характеристики по произвольной заданной (именной) словоформе. Тогда же на той же сетевой основе был построен полный дву-направленный (би-модальный) процессор для английской морфологии [G. Chikoidze, 1998 b].

Основным стимулом для этих разработок служило (возможно, весьма наивное!) принципиальное убеждение, что би-функциональность должна приближать языковые процессоры к их естественному прототипу, который (в принципе) не должен иметь нелепо расточительную организацию, опирающуюся на разделенные системы синтеза/анализа. Впрочем, очевидна, как и всегда в подобных случаях, также и чисто прагматическая выгода, связанная с использованием единой системы анализа/синтеза в прикладных задачах. Более того, возник вопрос и о возможности приложения разработанной системы сетевого представления и, в частности, ее програмного обеспечения к практическим задачам, не связанным (по крайней мере напрямую) с моделированием естественного языкового механизма (как это имеет место для перевода или диалога), и поэтому не нуждающихся в дву-направленности процессора. Наряду с самостоятельной практической ценностью, такого рода опыты представляют интерес и для сетевого подхода самого по себе: с одной стороны, они тестируют метод с чисто формальной точки зрения, намечая область его возможной применимости, хотя бы в рамках задач морфологического характера; с другой стороны, опыты по расширению области применимости метода стимулировали внесение определенных изменений, которые могут повысить эффективность его использования и в непосредственных языковых моделях.

Первой такой прикладной задачей явилась разработка морфологического тегера. Построенная на сетевой основе система была тестирована на русских возвратных глаголах см. [Е. Доквадзе и др., 2001]. Система не получила дальнейшего развития, однако, даже такой скромный объем тестового объекта, во-первых, позволил установить несомненную перспективность сетевого подхода для решения задач тегирования, в частности, даже при некоторых существенных упрощениях; а, во-вторых, обусловил необходимость введения некоторых дополнений, которых мы коснемся ниже и которые могут оказаться весьма полезными и для реализации обычных процессоров (синтез/анализ словоформы).

В том же году в  [G. Chikoidze, 2001] была набросана схема возможного применения сетевого метода для представления систем вида

"basic form ® paradigm".

Настоящая работа посвящена дальнейшей разработке этой схемы и ее применению к части русской морфологии (глагольному ее компоненту), что, в свою очередь, может послужить в дальнейшем основой для создания полного автоматического орфографического словаря.

 

 

  1. Сетевое представление

 

Отсылая  за более или менее подробными описаниями к другим упомянутым здесь работам и, в первую очередь, к [Е. Доквадзе и др., 2001], мы все же дадим здесь краткое описание того, что мы подразумеваем под морфологической сетью (MN): как и в любой сети это множество узлов, соединенных направленными дугами, не образующими замкнутых контуров, причем сеть имеет единственные "входной" и "выходной" узлы (последнее условие всегда выполняется в принципе, хотя и не всегда отражено на графических схемах). Как узел, так и дуги могут быть помечены, причем последние - с обеих сторон, левой (LHL) и правой (RHL) метками; при этом метка узла (LBL) и  LHL выражают одно из условий "открытости" данной дуги для продвижения активной точки (AP), а RHL изображает второе условие того же движения. Если оба условия выполнены AP продвигается по соответствующей дуге, в противном случае тестируется следующая дуга, исходящая из того же узла, а если такие дуги исчерпаны, то процесс терпит неудачу. "Благополучное" завершение процедуры требует беспрепятственного прохода AP от входного до выходного узла сети.

Семантика этой процедуры выявляется из ее соотношений с "внешним миром", т.е. с переменным входом/выходом и словарем, представляющим собой, по сути дела, постоянный компонент входа, содержащий "львиную долю" необходимой информации: если переменные компоненты определяют, что именно надо синтезировать/анализировать, то этот последний "подсказывает" как надо выполнить эту задачу. Переменные компоненты меняют свой характер с изменением модальности: при синтезе входом служат лексема+значения морфологических категорий, т.е. элементы плана содержания, а выходом - соответстенное выражение (словоформа), при анализе - наоборот. Подчеркнем, что эта зависимость от модельности является в случае сетевого процессора единственной. Что касается функции левой метки, точнее пары (LBL, LHL), и правой - RHL, то первая всегда связана с упомянутыми морфологическими характеристиками, в частности, LBL обозначает некоторую категорию, а LHL - список ее значений, унифицируемость которого с текущим значением LBL обеспечивает выполнение первого условия проходимости дуги; в свою очередь, RHL, как правило, соотносится с противоположной стороной языкового знака, т. е. с выражением:в ординарных случаях RHL представляет собой запись некоторого одиночного фрагмента словоформы, унифицируемость которого с текущим отрезком выхода (при синтезе) или входа (при анализе) равносильна выполнению второго условия, окончательно открывающего дугу для очередного шага AP. Вместе с тем, на RHL возложена также и "неординарная" функция обращения к преобразователю сети: роль этого последнего заключается в адаптации сети, представляющей некий широкий класс парадигм (как правило, определенную часть речи), к особенностям некоторого подкласса этого множества: так например, своеобразие русского именного склонения вызывает для определенных подклассов существительных слияние дуги винительного падежа с дугами то именительного, то родительного падежей.

Еще одной специфической функцией RHL является  обращение к подсетям данной сети, наличие которых позволяет упростить структуру основной сети, выделяя и отражая в ней лишь наиболее общие и существенные черты "обслуживаемого" ею класса парадигм (части речи). Это обращение, согласно схеме реализации, принятой для би-модальных процессоров, может осуществляться как изолированными особыми символами, так и символами этого рода, включенными в запись фрагмента словоформы, представленного RHL: например, фрагмент, имеющий вид mAn  или fOOt, в случае английского морфологического процессора вызовет обращение к подсети общей сети существительных, обеспечивающей выполнение соответсвующих фонемных чередований (а/е, оо/ее) и коррелирующих с ними чередований значения (ед./мн. число).

Опыт сетевого представления морфологического тегера, общая схема которого дана в [Г. Чикоидзе, 2000], а применение ее к русским глаголам - в [Е. Доквадзе и др., 2001], показал, что в этом случае можно избежать исползования обычного словаря основ, заменив его ограниченным набором сравнительно коротких списков определенных словоформ. Более того, отпала необходимость использования преобразователя и оказалось вполне целесообразным избегать включения обращений к подсетям в запись фрагментов RHL, хотя явная эффективность использования самих подсетей вполне сохранилась. Эти упрощения непосредственно отразились на структуре RHL, претерпевшей, впрочем, одно существенное усложнение, оказавшееся практически необходмым: переход от записи одиночного фрагмента словоформы к представлению списков таких фрагментов, в некоторых случаях усложненных определенной иерархической структурой.

Другим усложнением, опять-таки связанным с RHL, но необходимым при попытке бессловарного тегирования сугубо суффиксального языка, вроде русского, явилось обеспечение возможности менять направление анализа словоформы, выбирая в соответствии с ситуацией попытку идентификации с элементами RHL начального или концевого отрезка текущего остатка входной словоформы.

Очевидно, оба эти дополнения - переход к спискам фрагментов и возможность варьирования направления процессирования одной словоформы - могут оказаться весма полезными и для построения би-функционального морфологического процессора. Так, второе из этих дополнений определенно отвечает требованиям, предъявляемым к этим процессорам префиксально-суфиксальными языками, вроде грузинского.

Поиски адекватного сетевого решения для задачи порождения типа

"basic form ® paradigm",

начатые в [G. Chikoidze, 2001], привели, прежде всего, к выводу, что в этом случае роль словаря может быть возложена на определенным образом иерархически структурированные списки базисных ("словарных") форм, например, в случае русского глагола представленных инфинитивными формами. Однако, наиболее принципиальным, с формальной точки зрения, представляется отказ от "монополии" унификационной операции как для LHL, так и для RHL условий. В случае LHL, наряду с обычной попыткой унификации, устанавливающей наличие/отсутствие непустого пересечения значений LHL и текущих значений LBL категории и затем привсваивающей это непустое пересечение категории LBL, была дополнительно введена и простая операция проверки ('='), отличающаяся от унификации отстутствием присваивания результата сравнения LBL категории. Тот же принцип выполняется и для простой проверки фрагментов из записи RHL: в случае удачи идентификации идентифицированный фрагмент все же не отсекается от текущего отрезка словоформы. Эта операция также символизируется знаком равенства: '='. Что касается пробразований некоторого фрагмента F за счет добавления к нему или отсечения от него фрагмента f, то первая из этих операций помечена знаком '+', а вторая -  '-':

F+f, F-f,

причем число таких добавлений, вычитаний не ограничено и, более того, они могут сочетаться и с операциями идентификации ('='):

F & f1 & f2 & … & fn,                             (1)

где & символизирует любую из операций: '=', '+', '-'. В случае, если выражение (1) предваряет знак '>', операции выполняются, начиная с начала фрагмента F, отсутствие этого символа соответствует их применению к концу F, т.е. в направлении справа - налево, Условие, связанное с правой меткой (RHL) выполнено, если выполнены все '=f' идентификации и '-f' трансформации, т.е. если в момент выполнения этих операций F действительно оканчивается (в случае '>' - начинается) отрезком f; в отличие от этой пары трансформация '+f' всегда выполнима.

Записи фрагментов (F,f) представляют собой последовательности букв, которые в некоторых случаях могут содержать группы символов, заключенные в  фигурные скобки {L} и указывающих на некоторый список фрагментов:

l1 l2 … li{L} li+1                                       (2)

Группа символов {L}может выступать и изолировано: RHL={L}.

Наконец, RHL и в контексте данной задачи используется для обращения к подсетям: RHL=(SN).

Подводя итоги, можно сказать, что сетевое решение данной задачи, как и в случае тегирования, не нуждается ни в преобразователе сетей, ни в "регулярном" словаре основ, снабженных соответствующей подробной информацией. Правда, списки, заменяющие словарь на сей раз имеют гораздо больший объем и существенно более сложную структуру: иерархия списков должна быть организована таким образом, чтобы принадлежность входной базисной формы к одному из них определяла все отсутствующие в явном виде данные, необходимые для общей характеристики входной базисной формы и построения ее парадигмы.

Основное усложнение связано с переходом от начального варианта RHL, представлявшего собой в случае би-модального процессора единственный фрагмент, сначала к списку фрагментов (для тегера), а теперь к еще более сложной формуле (1) с фрагментами типа (2), т.е. возможно содержащими списки внутри записи или изолировано. Целесообразность введения сложных трансформаций (1), (2) вместо фрагментов или простых списков обусловлена характером самой задачи, требующей порождения множества членов парадигмы, т.е. определенного множества словоформ, исходя из единственной входной (базисной), а этот процесс порождения наиболее естественным образом реализуется через трансформации входной  словоформы, выполняемые под управлением информации, полученной в ходе ее первоначальной идентификации, наконец, выбор этих трансформаций может дополнительно зависеть и от состава (фонемного/буквенного) трансформируемой единицы (операции '=', '-'), а сами трансформации могут быть сведены к добавлениям ('+'), отсечениям  ('-') и/или заменам ('-', '+') некоторых фрагментов трансформируемой единицы. Наконец, качества простоты и "прозрачности", ценные для любого варианта представления процессора, диктуют желательность единой записи каждой "осмысленной" трансформации, что, в конечном итоге, и приводит к приданию RHL формы (1), (2).

Общий план структуры предполагаемой модели порождения представлен на Рис. 1. Эта общая блок-схема будет иметь различные конкретные реализации для различных классов "родственных" парадигм (скорей всего, частей речи). Однако, насколько можно судить по пока единственному примеру русского глагола, эти реализации должны иметь определенные общие черты и, в частности, то, что процесс в начале  должен быть совершенно общим для всех элементов данного класса, затем постепенно "растекаться" по различным "руслам" - ветвям, соответствующим уже частично определенным подклассам, достигать наибольшей степени разобщенности в среднем прямоугольнике блок-схемы, соответствующем определению набора основ, выражающему максимальное разнообразие внутри единого общего класса, а затем на этапе завершения, выраженном нижним квадратом схемы, опять становиться достаточно общим, отражая тенденцию к конвергенции суффиксальных схем одного общего класса (части речи). Впрочем, как и все попытки построения общих схем в области языка, данная схема также неизбежно подвергнется определенным отклонениям и натолкнется на определенные исключения (так, например, система субстантивных окончаний русского языка может оказаться существенно более разнообразной, чем вариации соответвтвующих основ).

 

 

  1. "Инфинитив®глагольная парадигма"

 

Сетевой подход к решению задачи порождения парадигмы по ее базисной форме пока разработан лишь применительно к русским невозвратным глаголам: получив на входе инфинитив такого глагола, система отвечает выдачей соответствующей парадигмы, а именно, полного набора личных форм как прошедшего, так и настоящего/будущего времени, а также форм повелительного наклонения и деепричастий обоих времен; что касается причастий, то они пока представлены на экране лишь исходными формами (ед. ч., м. р., им. п.) и сопровождаются многоточием '…', сигнализирующим пользователю возможность высвечивания на экране полного набора форм данного причастия (пока, впрочем, как уже упоминалось выше, не реализованную). Такое решение обусловлено в первую очередь, нецелесообразностью перегрузки экрана и даже технической невозможностью такой демонстрации. Сама же реализация порождения причастных форм отложена до разработки компонента системы, порождающего прилагательные, ввиду очевидной однородности обеих подзадач. Кроме того, что при каждом члене парадигмы указываются его морфологические характеристики, заглавный член (инфинитив) сопровождается некоторыми общими характеристиками данного глагола, такими как вид, переходность, возвратность.

Переходя к описанию самой процедуры порождения, прежде всего отметим, что практически все конкретные данные, касающиеся русского глагола, соответствуют [А. А. Зализняк, 1977]. В частности, "старт" процедуры имитирует основную для этого словаря классификацию глаголов по типам 1-16, используя при этом приведенные там же характерные для каждого типа окончания инфинитивов. На Рис. 2 изображен компонент "стартовой" сети, анализирующий входные базисные формы на -ать, -ти, -чь; остальные возможные варианты окончаний инфинитива (-ять, -еть и т.д.) символизированы прерывистой дугой. Записи RHL, представляющие фрагменты словоформы (инфинитива) упрощены в двух отношениях: во-первых, отсутствует символ, (F) определяющий анализируемую словоформу; во-вторых, опущен знак (&) перед фрагментом (f).Это возможно, так как здесь всюду подразумевается одна и та же входная словоформа (INF) и одна и та же операция вычитания '-', т.е. полное выражение этих RHL, соответствующее определениям (1), (2), должно выглядеть, например, как:

INF-f,

где f принимает значения: ть, а, ав, ев и т.д. Символ T указывает переменную, принимающую значения типа глагола (1-16), вариант RHL вида (Ti) представляет собой обращение к подсети, идентифицирующей и характеризующей глаголы i-го типа.

В качестве примера подобной подсети на Рис. 3 приведена часть сети T8, обрабативающей инфинитивы на -чь, т.е. относящиеся к 8-му типу. Чертеж изображает небольшой компонент этой сети, одной из наиболее сложных среди подсетей этого рода, а именно ту ее часть которая процессирует подмножество глаголов 8-го типа, имеющих чередование г/ж, т.е. образованных от корней глаголов 'жечь', '(прене)бречь', 'беречь', 'стеречь', '(за)прячь'; остальные глаголы с тем же чередованием (' лечь ', 'стричь', 'мочь', остались "за кадром" Рис. 3, не говоря об остальных глаголах этого типа ('толочь', 'влечь', 'сечь', и т.д.), имеющих чередование к/ч. Пример иллюстрирует, в частности, и то обстоятельство, что процесс прохождения подобных сетей наряду с идентификацией входной словоформы и определением данных, необходимых лишь для построения парадигмы (VA - чередование гласных, CA - чередование согласных, SS - схема ударения), устанавливает и некоторые общие характеристики парадигмы: ASP - вид, TR - переходность. Здесь кстати приняты те же упрощения RHL, что и на Рис. 2.

Большая доля сложностей, характеризующих нижнюю часть сети T8 (не изображенную на Рис. 3), обусловлена наличием неоднозначностей, связанных с формами 'печь', 'сволочь', 'облечь'. В первых двух случаях возникает альтернатива: выдать обе парадигмы (глагола и существительного) или обратиться с соответствующим  вопросом к пользователю (например, "Глагол?"); в случае тегера предпочтение было отдано второму ("вопросному") варианту, что позволило избежать использования механизма возврата, а вместе с тем и резкой неоднозначности результатов  тегирования. Однако, в случае с "облечь" (облягу/облеку и т.д.), по видимому, неизбежно включение механизма возврата, аналогичного тому, который использовался в би-модальных процессорах в ходе их функционирования в модальности синтеза, которая, естственно, сродни процедуре порождения, рассматриваемой здесь.

Сети Рис. 2,3 иллюстрируют реализацию верхнего квадрата блок-схемы Рис.1. Средний квадрат той же блок-схемы соответствует процедуре порождения основ глагольной парадигмы. Упрощая следующий шаг процессирования (порождение полных словоформ путем добавления окончаний), система порождает все 19 основ, соответствующих членам парадигмы, хотя многие из них (почти) всегда совпадают. Мы предпологаем, что это множество основ образует список ST, элементы которого после завершения этой части процедуры соответствуют всем различным членам парадигмы:  ST0 - основа инфинитива, ST1 - 1-го л. ед. ч. наст./буд.вр., ST2 - 2-го л. ед. ч. наст./буд. вр., … и т.д. Забегая вперед, отметим, что аналогичную структуру имеет и список, представляющий парадигму P: P0 - инфинитив, P1-1-е л. ед. ч.наст./буд. вр. и т.д.

Выбор характера самой процедуры порождения основ может колебаться между построением отдельной сети для каждого типа (именно этот путь, как наиболее простой в выполнении, избран нами предварительно) и созданием единой сети, общей всем типам. По-видимому, наиболее разумным должен быть некий компромиссный вариант, отдающий должное индивидуальным особенностям отдельных типов и, вместе с тем, использующий ряд общих для них свойств. Компромисный вариант, в свою очередь, может быть осуществлен многими различными путями: например, созданием общих сетей для близких с точки зрения структуры основ глагольных типов (например, для Т1, Т2 и Т3); построением единой общей для всех типов сети, обращающейся на этапах порождения, зависящих от принадлежности к определенному типу (классу типов), к соответственным подсетям и мн. др. Некоторые из этих вариантов, по-видимому, заслуживают опробования.

Что касается заключительного этапа порождения (нижний квадрат блок-схемы Рис. 1), то был выбран вариант построения общей для всех типов сети, один из участков которой изображает Рис. 4. Несмотря на очевидные различия между типами, чаще группами типов, выбор правильного решения в большинстве случаев зависит от весьма ограниченного круга факторов: кроме самой принадлежности к тому или иному типу (Т), такими источниками информации могут быть схема ударения (SS) и "отклонения от стандартного спряжения", отмечаемые в [А. А. Зализняк, 1977] пометой "цифра в кружке" (PC); ряд решений может быть принят и на основе фонемного/буквенного состава конца основы: таковы, например, проверки на конечную гласную - {VW}, шипящую - {ч, ш, ж, щ} и др. Лишь несколько глаголов, не подпадающих ни под какие регулярности, выделены индивидуально, т.е. представлены единственным фрагментом (хотеть, чтить, бежать, есть и др.)

Фрагмент, представленный на Рис. 4, отражает наиболее сложный этап добавления окончания к основе, а именно, порождение форм повелительного наклонения P10, P11 от соотвестсвующих (всегда совпадающих) основ ST10, ST11. Подразумевается, что в начальный момент работы сети в целом все STi заполнены соответственными основами, а все Pi - пусты, и поэтому операция вида

Pi+STi

соответствует  переписке основы на место будущей словоформы; отклонения (PC), кодированные числами 2, 3, 12, 13, соответствую пометам словаря [А. А. Зализняк, 1997] -

               
         
       

 

                                   ,       ,              ,               ;

наконец, число '-4',отмечающее одну из дуг,исходящих из узла T, означает "все типы кроме 4-го". Отметим следующие предположения, несколько отклоняющиеся от обычных словарно-грамматических схем: под основой повелительного наклонения (P10, P11) для глагола 'есть' подразумевается 'еш', а для глаголов типа T11 фрагмент, оканчивающийся на гласную '-е' (ше-, ле-, бе- и т.д.), в результате чего эти глаголы вписывются в общую схему сети Рис. 4. Такой прем взаимной адаптации сетей, порождающих основы и трансформирующих их в словоформу добавлением окончания, очевидно, может быть применен и в ряде других случаев, приводя к упрощению и обобщению тех или иных компонентов системы.

В завершение экскурса по системе сетей, порождающих глагольную парадигму, отметим, что в том виде, в котором она реализована, ей недостает до полноты по крайней мере двух моментов: учета парадигм возвратных глаголов и порождения причастных форм. Как было упомянуто выше, последняя задача отложена до решения проблемы порождения парадигм прилагательных, находящихся в очевидно близком родстве с причастиями; что же касается возвратности, то здесь, по-видимому, будет необходимо ввести допольнительную классификацию, разбивающую список исходных форм на три класса: глаголы образующие обе категории (взять, принять и др.), только невозвратные (лезть, умереть и др) и только возвратные (улыбаться, смеятсья и т.д.) глаголы.

 

 

  1. Заключение

 

Рассмотренная здесь система порождения парадигмы слова исходя из его базисной формы завершает определенный цикл исследований сетевого метода представления морфологических процессоров: начавшись с опытов по реализации би-модальных систем, осуществляющих в рамках единого процесса единой системы моделирование обоих основных языковых процессов (синтез/анализ), этот метод был затем применен к системе одного лишь анализа (тегирование), а в рассматриваемом случае - и к системе синтеза-порождения, вклюяающей лишь начатки анализа, необходимые для идентификации базисной формы.

Параллельно с изменением характера модели резко менялся и статус словаря: би-модальные процессоры с необходимостью исползовали полноценные словари (запись основы +приосновная информация); тегер обходился практически без словаря (его заменили незначительных размеров списки словоформ, а в некоторых случаях обращения к пользователю); решение принятое для данной системы можно охарактеризовать как порождение словарной единицы исходя из заданной базисной формы на основе структурированного списка базисных форм, в результате чего процесс порождения парадигмы может быть изображен и так:

базисная единица®словарная единица®парадигма.

С практической точки зрения, как на это указывает само заглавие данной работы, эта модель порождения парадигмы может быть положена в основу автоматического орфографического словаря, выдающего все члены парадигмы и основные морфологические характеристики слова. В этом контексте большим, хотя и вполне преодолимым недостатком данной системы является отсутствие на выходе указания позиции ударения. Именно это соображение диктует ближайшую задачу в этом направлении.

 

Литература

 

  1. Доквадзе Е. А., Чикоидзе Г. Б. Формообразовательный этап синтеза грузинского имени // Машинный перевод. Тбилиси: Труды ИСУ АН ГССР, 1975. Т. XШ, 3. С. 60-119.
  2. Чикоидзе Г. Б. Графовое представление морфологического уровня // Ясная поляна (Россия): Труды Международного семинара Диалог’97 по компьютерной лингвистике и ее приложениям,. 1997. С. 298-299.
  3. G. Chikoidze Net Representation of Reversible Morphologic Processor // Tbilisi: Proceedings of the Second Tbilisi International Symposium on Language, Logic, Computation, 1998 a. P. 37-62.
  4. G. Chikoidze Bi-functional English Morphologic Processor // Tbilisi: Proceedings of A. Eliashvili Institute of Control Systems, 1998 b. P. 150-161.
  5. Доквадзе Е. А., Лордкипанидзе Л. Л., Чикоидзе Г. Б. Бессловарный сетевой морфологический тегер // Прикладные проблемы. Аксаково: Труды Международного семинара Диалог 2001 по компьютерной лингвистике и ее приложениям, 2001. Т. 2. С. 100-110.
  6. G. Chikoidze Net representation of morphologic model "basic form®paradigm" // Tbilisi: Proceedings of A. Eliashvili Institute of Control Systems, 2001. P. 116-124.
  7. Чикоидзе Г. Б. Сетевое представление морфологического тегера // Тбилиси: Сборник трудов Института Систем Управления им. А. И. Элиашвили, 2000. С. 127-134.
  8. Зализняк А. А. Грамматический словарь русского языка. М.: Русский язык, 1977.

 

Automatic russian spelling dictionary

  1. B. Chikoidze, N. G. Javashvili, J. A. Dokvadze, L. F. Nozadze

 

Key word: basic  word form, paradigm, morphologic net, generation, spelling, spelling dictionary.

 

Principal scheme of a system, generating word paradigm proceeding from its basic (dictionary) form, is proposed. The system is represented by morphologic nets, which were earlier successfully used for bi-directional (synthesis/analysis) morphologic processors and for morphologic tagger without dictionary. The system under consideration uses instead of full range dictionary list of basic forms, which is structured in the way, that belonging to some of its sub-lists is sufficient for definition of all characteristics necessary for building of corresponding paradigm. The system is tested on Russian verb paradigms. Being accomplished it should serve as automatic Russian spelling dictionary.

 

 

 

 

 

Рис. 1.

Общая блок-схема процедуры «базисная форма®парадигма»

для класса родственных парадигм (частей речи)