К УНИФИКАЦИИ ПРЕДСТАВЛЕНИЯ РУССКОЙ МОРФОЛОГИИ В СИСТЕМАХ ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ
С. А. Коваль
Филологический факультет Санкт-Петербургского университета
Ключевые слова: компьютерная морфология, лингвистические базы данных, русский язык.
Рассматриваются перспективы создания генерального представления данных о морфологии русского языка как единого источника для разнообразных систем обработки текстовой информации. Обсуждены основные принципы отбора материала для такого представления, описана структура данных. Приводится перечень процедур, необходимых для адаптации данных к тем или иным подъязыкам и к различным функциям в компьютерных приложениях.
- Потребность в унификации представления русской морфологии
В настоящее время в сфере разработки компьютерных приложений для обработки русского текста сложилась парадоксальная ситуация. Имеется спрос и созданы предпосылки для построения новых поколений традиционных систем, а также для разработки ряда новых видов компьютерных приложений. Эти виды программного обеспечения, работающие с русским языком, немыслимы без модулей морфологии. В то же время каждый разработчик новых систем обработки текстовой информации должен решать проблему построения морфологического модуля специально, полагаясь, в основном, на собственные ресурсы, даже если морфология не является основным объектом моделирования в разрабатываемом приложении.
В качестве альтернативных вариантов может быть рассмотрено приобретение готового морфологического модуля у таких фирм, как, например, петербургская «Руссикон» [1] и московская ABBYY SoftwareHouse. [2].
В большинстве случаев, особенно в инициативных проектах, подобные компоненты являются недоступными по цене для разработчиков из научных и учебных учреждений. Даже при достаточном финансировании проекта приобретение готового модуля, не учитывающего функциональные особенности разрабатываемой вновь системы и специфику подъязыка, с которым предстоит работать, является, по меньшей мере, рискованным вложением средств.
Разумеется, опыт построения модулей морфологического анализа и синтеза для русского языка имеет давнюю традицию, которая получила отражение в научной литературе. Эти прецеденты могут использоваться при построении новых систем, хотя они описаны с разной степенью детализации (наиболее подробны [3-7]). В то же время наиболее подробные и информативные описания в печатных источниках требуют наибольших усилий при воспроизведении (полном или частичном) в собственных разработках. Кроме того, все имеющиеся публикации описывают в первую очередь систему словоизменительных классов, но не лексическую базу данных, то есть словарь, в котором лексемам эти словоизменительные классы приписаны. Для этой цели может служить лишь классический словарь А.А.Зализняка [8], доступный в определенных кругах на машиночитаемых источниках, а для подсистемы глагольных форм - еще и появившийся сравнительно недавно словарь С.А.Кузнецова [9], который, насколько известно автору, на компьютерных носителях пока не распространяется.
- Постановка задачи унификации на функциональном уровне
В типичном случае при разработке лингвистического обеспечения для некоторой прикладной программы исходным материалом, еще не ориентированным на данное приложение, являются представления знаний о языке в традиционной и формальной лингвистике и, с другой стороны, компиляторы, преобразующие код на языках программирования высокого уровня в объектный код для конкретных процессоров. На этих уровнях разработчики используют готовые решения, а их собственный вклад заключается в создание прикладной инженерно-лингвистической модели для соответствующего подъязыка и ее программировании. При этом объектом приложения усилий компьютерных лингвистов и прикладных программистов являются как данные (недостаточно или неадекватно формализованные во внекомпьютерной лингвистике), так и процедуры (наиболее специфическая часть конкретных приложений).
Сутью предлагаемого подхода является унификация данных по хорошо описанным языкам (к которым, несомненно, относится русский) для широкого круга инженерно-лингвистических приложений. В первую очередь такой унификации могут быть подвергнуты данные о морфологическом ярусе языка.
При этом не оспаривается тот факт, что для различных задач данные должны быть представлены в различной форме. Классическим примером является оппозиция морфологических представлений для синтеза и для анализа, преодолеть которую, кажется, не удалось еще ни в одной коммерческой или промышленной системе автоматической переработки текста.
К синтезу и анализу добавляется третья типовая функциональная сфера использования данных о морфологии - морфологическая типизация (то есть автоматическое или полуавтоматическое определение словоизменительного типа для слова, не зафиксированного в словаре), различные подходы в которой описаны в [10-14]. Опыт этих реализаций, а также работы творческих коллективов, в которых участвовал автор [15], показывает, что для оптимального выполнения задачи типизации данные о морфологии должны быть также соответствующим образом препарированы.
Решить задачу триединого представления морфологических данных предлагается за счет внедрения процедурных элементов в декларативный компонент лингвистического обеспечения. Предлагается сделать неотъемлемой частью представления данных вспомогательные процедуры, которые будут служить не для осуществления самих функций морфологического анализа или синтеза, а для преобразования данных в форму, наиболее приспособленную для выполнения этих функций тем или иным методом. Тем самым одна и та же база данных (снабженная необходимым комплектом модифицирующих ее процедур) может быть применена для широкого круга задач, и разработчики, воспользовавшиеся экспортом данных из этого «генерального представления», получат возможность сосредоточить усилия на построении процедурного компонента приложения
- Средства и принципы обобщенного представления данных о русской морфологии
При современном состоянии программного обеспечения потребность в легко адаптируемых представлениях данных может быть удовлетворена даже в коммерческих СУБД общего назначения типа MicrosoftAccess. Наличие в базах данных этих СУБД таких компонентов, как запросы и команды VBA, позволяет легко видоизменять объем и структуру данных непосредственно перед их экспортом из генерального представления в адаптированные варианты представления для конкретных приложений.
При отборе данных для собственно декларативного компонента генерального представления русской морфологии мы руководствовались следующими принципами:
· модель морфологии описывает русский язык в его письменной форме; предусматривается обработка текстов в неакцентуированной орфографической записи, в которых, однако, нельзя исключить окказиональное использование буквы «ё»;· модель морфологии обслуживает функции анализа, синтеза и морфологической типизации;· основным источником информации при построении модели является «Грамматический словарь русского языка» А.А.Зализняка;· главным способом представления всех морфологических явлений является конкатенация строк символов, зафиксированных в соответствующих таблицах («псевдоагглютинация»);· в фрагменте генерального представления, отражающем подсистемы именного словоизменения, словоформы компонуются как продукт конкатенации двух сегментов: «машинной основы» (в отдельных случаях нулевой) и единственного «машинного аффикса», или «машинного окончания», хотя при адаптации к функциональным особенностям конкретным приложений не исключено разложение переменной части словоформы на большее число «машинных аффиксов» с применением грамматики порядков;· непосредственное отражение в модели получают варианты словоформ, если сфера варьирования затрагивает переменную часть словоформы («машинное окончание»), например, баржевый/баржевой, георгин/георгина .· непосредственное отражение в модели получают указания на стилистический регистр, за которым закрепляется та или иная форма, например, профессиональное дизеля (им./вин. п. мн.ч.) при нейтральном дизели, устаревшее козырной при нейтральном козырный;· полная морфологическая характеристика лексемы может быть разбита на несколько информационных кластеров, каждый из которых соответствует подмножеству всего множества форм данной лексемы; например, достаточно естественным представляется разбиение морфологической характеристики прилагательного на характеристики: а) его склоняемых форм, б) его кратких форм, в) формы сравнительной степени; в общем случае набор различных значений, заполняющих отдельные кластеры, не так велик, как набор значений полной морфологической характеристики;· важнейшей характеристикой элементарного словоизменительного класса (типовой парадигмы) является не только набор машинных окончаний, но и набор основ, к которым эти окончания присоединяются; непосредственное отражение в модели получают также характеристики типовых парадигм как открытых или закрытых множеств;· информация должна выводиться в максимально удобной для пользователя-лингвиста форме: хотелось бы получить в итоге «машинную морфологию с человеческим лицом» вместо рядов труднозапоминаемых кодов или неудобопроизносимых усеченных основ.
- Подсистема русского именного словоизменения в генеральном представлении русской морфологии
В соответствии с идеологией реляционных баз данных информация о морфологии русского языка представлена в виде ряда связанных друг с другом реляционных таблиц, каждая из которых отражает фрагмент данных, относительно независимый от данных других таблиц.
Каждая лексическая единица представлена одной записью в лексиконе, идентифицируемой по ее ключу. Чтобы обеспечить наибольшую дружественность по отношению к пользователю-лингвисту, в качестве ключа выбрана строка, включающая начальную форму лексемы и № омонима/лексико-семантического варианта в скобках, если у данной начальной формы таковые имеются, например:
прут (1); прут (2); прутик; прутковый
Ключу лексемы ставится в соответствие комплексная морфологическая характеристика («морфологический тип»), идентифицируемая числовым кодом, который может вообще не выводиться для пользователя-лингвиста. Такому морфологическому типу сопоставлены идентификаторы парадигм, которых, как правило, несколько, так что каждая из приписанных парадигм отражает лишь часть словоформ данной лексической единицы.
Максимальное число парадигм, комбинация которых определяет тот или иной морфологический тип, зависит от класса (машинной части речи), поставленного в соответствие данному морфологическому типу, и отражается в общем для данного класса поле «Количество кластеров». Для класса прилагательных, как уже указывалось, предусмотрено три кластера (склоняемые формы, краткие формы, сравнительная степень), для класса существительных - два кластера (единственное число и множественное число).
Таким образом, лексические единицы прут (1) и прут (2) описываются одной и той же парадигмой в единственном числе, но разными (прутья, прутьев и т.д. vs пруты, прутов и т.д.) - во множественном, и им вполне закономерно приписываются два различных морфологических типа.
Парадигмы характеризуются указанием на окончание, с присоединением которого к основе данной парадигмы формируется начальная форма («Поле 0»), а также информацией о том, открыто или закрыто множество слов, описываемых данной парадигмой. Поскольку информация о словоизменении лексической единицы разбивается на несколько кластеров, каждому из которых соответствует отдельная парадигма, лексема может иметь несколько значений «Поля 0», например, у прилагательного толстый в парадигмах, описывающих его склоняемые и краткие формы, это поле принимает значение ый, а в парадигме для образования сравнительной степени - значение стый. Это обеспечивает необходимую гибкость структуре данных в условиях, когда при различных адаптациях одна и та же лексема может соотноситься с более или менее широким набором словоформ.
Прочие (кроме «Поля 0») поля парадигмы с машинными окончаниями, хранятся в общей для всех парадигм таблице, где для каждого такого окончания указывается стилистический регистр результирующей формы (фрагмент этой реляционной таблицы представлен ниже как таблица 1)
Таблица 1. Фрагмент реляционной таблицы «Поля парадигм» (экспорт из MS Access).
ИдПар |
Nполя |
Правило |
Регистр |
… |
|||
9 |
7 |
ая |
Норм |
9 |
8 |
ой |
Норм |
9 |
9 |
ую |
Норм |
9 |
10 |
ою |
Норм |
10 |
12 |
ые |
Норм |
10 |
13 |
ых |
Норм |
10 |
14 |
ым |
Норм |
10 |
15 |
ыми |
Норм |
11 |
1 |
|
Неоп |
11 |
2 |
а |
Неоп |
11 |
4 |
о |
Неоп |
11 |
6 |
ы |
Неоп |
12 |
1 |
|
Норм |
12 |
2 |
а |
Норм |
12 |
4 |
о |
Норм |
12 |
6 |
ы |
Норм |
… |
В приведенном фрагменте парадигмы с идентификаторами 9 и 10 (значения в столбце «ИдПар») описывают склоняемые формы прилагательных, а с идентификаторами 11 и 12 - краткие формы.
С точки зрения пользователя-лингвиста такое представление в нескольких реляционных таблицах слишком фрагментировано. Чтобы привести парадигмы в привычный для компьютерного лингвиста вид, используются различные варианты запросов на выборку и форм, которые строятся один раз для всей морфологической подсистемы языка и впоследствии не подвергаются изменениям.
- Сущность адаптационных процедур
При адаптации генерального представления к конкретному инженерно-лингвистическому приложению предстоит решить ряд общих вопросов, например,
· следует ли различать буквы «ё» и «е»;· в какой мере следует учитывать варианты словоформ;· целесообразно ли включение в морфологическую характеристику лексических единиц всех имеющихся в генеральном представлении кластеров (например, сравнительной степени) и отдельных полей (например, второго родительного падежа) и др.
Если ответы на эти вопросы показывают, что для данного приложения требуется не вся информация, заложенная в генеральном представлении, в базу данных вводятся соответствующие изменения, приводящие к редуцированию состава полей в парадигмах, состава парадигм в морфологических типах, и укрупнению морфологических типов, а также к изменениям в составе лексикона за счет добавления некоторых форм в виде отдельных лексических единиц.
Далее, для морфологических типов, представляющих собой закрытые множества, может быть установлено, встречаются ли представители этих типов в данном подъязыке. Так, среди морфологических типов, выделенных нами, имеется тип, описывающий лишь две лексические единицы бурлескный, гротескный, или тип, описывающий лишь единицы заём, наём, госзаём, поднаём, перенаём. Очевидно, что эти морфологические типы будут представлены не во всех подъязыках, что позволяет провести дальнейшее редуцирование системы парадигм.
Для приложений, выполняющих функцию синтеза, следует произвести фильтрацию вариантов словоформ, предусматриваемых генеральным представлением. Пользователь должен сделать выбор для ситуации порождения в пользу одной из форм для случаев типа: тракторы - трактора, (пять) килограмм - (пять) килограммов, лифтовый - лифтовой и под.
На следующем шаге адаптации оставшиеся после редуцирования данные будут преобразованы в тот вид, который требуется для поддержания функциональности данного приложения. Речь идет о выполнении программируемых заранее преобразований, которые соответствуют функциям анализа, синтеза и типизации и их конкретным разновидностям. Такими преобразованиями являются:
· агрегация (укрупнение) типовых парадигм с введением гиперграфем (например, для описания поведения беглых гласных) при адаптации к целям синтеза, если алгоритмы синтеза могут работать с данными в такой форме;· выявление омонимичных основ и основ, длина которых менее установленного порога, если морфологический анализ производится слева направо детерминированно по принципуthe longest match (способ, предпочитаемый в разработках группы «Статистика речи»);· оптимизация порядка полей, соответствующих аффиксам в компьютерном представлении, если анализ производится с применением конечных автоматов;· построение дерева окончаний, если морфологический анализ производится справа налево;· построение системы правил применимости, упорядоченных в направлении от исключений к общим случаям (см. [15]), которые могут быть использованы при определении словоизменительного типа несловарных слов с включением их в «открытые» типовые парадигмы.
Простейшие задачи из названных решаются запуском запросов, более сложные задачи сейчас решаются запуском автономных программ на языках высокого уровня (Delphi 5) применительно к данным, экспортированным в CSV-файлы (текстовые). Не вызывает сомнения принципиальная возможность переписывания их на языке VBA и последующего интегрирования в базу данных в виде процедурных модулей базы данных Microsoft Access.
- Заключение
Унификация представления русской морфологии в виде базы данных с развитым процедурным компонентом представляется оправданной при условии, что будет создан доступный лингвистический ресурс многократного использования, построенный с применением распространенных программных средств и отражающий в дружественной (с точки зрения пользователя-лингвиста) форме максимум информации, необходимой для построения различных инженерно-лингвистических приложений. Возможность многообразного использования этого ресурса должна поддерживаться процедурами, адаптирующими его для включения в те или иные приложения.
Такая база данных в настоящее время создается. На момент написания данного текста лексикон базы включает около 15000 существительных и прилагательных, снабженных полной информацией об образовании их склоняемых форм, а для прилагательных - еще и кратких форм и сравнительной степени. Пополнение лексикона идет со скоростью 5000 единиц в месяц, параллельно создается процедурный компонент в виде запросов и модулей команд VBA. Сказанное позволяет надеяться, что база данных, отражающая информацию о русской морфологии в рамках «Грамматического словаря…» А.А.Зализняка, будет готова к опытной эксплуатации в обозримом будущем.
Литература
- Yablonsky S. A. Russicon Slavonic Language Resources and Software //Translation Equivalence. Proceedings of the Third European Seminar. Montecatini Terme (Italy), 1998. P. 217-227
- Анисимович К., Балл В., Селегей В. ABBYY Retrieval & Morphology Engine // Труды Международного семинара Диалог’2000 по компьютерной лингвистике и ее приложениям. Протвино. Том 2. Прикладные проблемы.http://www.dialog-21.ru/Archive/2000/Dialogue 2000-2/13.htm.
- Кулагина О. С. Морфологический анализ русских глаголов // Препринт № 195 / Институт прикладной математики АН СССР. М., 1985. 28 с.
- Кулагина О. С. Морфологический анализ русских именных словоформ // Препринт № 10 / Институт прикладной математики АН СССР. М., 1986. 26 с.
- Лингвистический процессор для сложных информационных систем / Ю. Д. Апресян, И. М. Богуславский, Л. Л. Иомдин и др. / Отв. ред. Л. П. Крысин. М.: Наука, 1992. 256 с.
- Лингвистическое обеспечение системы ЭТАП-2 / Ю. Д. Апресян, И. М. Богуславский, Л. Л. Иомдин и др. / Отв. ред. Р. Л. Добрушин. М., Наука, 1989. 296 с.
- Белоногов Г. Г., Кузнецов Б. А., Новоселов А. П. Автоматизированная обработка научно-технической информации. Лингвистические аспекты // Итоги науки и техники. Сер. Информатика. Т. 8. М.: ВИНИТИ, 1984. 316 с.
- Зализняк А. А. Грамматический словарь русского языка. Словоизменение. - М.: Русский язык, 1977. 880 с.
- Кузнецов С. А. Русский глагол: Формообразовательный словарь-справочник. СПб: Норинт, 2000. 262 с.
- Белоногов Г. Г., Зеленков Ю. Г. Алгоритм морфологического анализа русских слов // Вопросы информационной теории и практики. № 53. Автоматическая словарная служба. Автоматическое индексирование документов. М., 1985. С. 62-93.
- Каневский Е. А. Некоторые вопросы пополнения морфологического словаря терминами предметной области // Труды Международного семинара Диалог’2001 по компьютерной лингвистике и ее приложениям. Аксаково. Т. 2. 2001. С. 156-160.
- Поминов А. Некоторые вопросы организации автоматических словарей // Обработка текста и когнитивные технологии. 1997. № 1. С. 61-72.
- Санников В. З. О словоизменительном компоненте в системе автоматической обработки русских текстов // Семиотика и информатика. Вып. 36. М., 1998. С.203-210.
- Mikheev A., Liubushkina L. Russian Morphology: An Engineering Approach // Natural Language Engineering. Vol.1, 1995. No. 3. P. 235-260.
- Коваль С. А., Ван Нюнен П. Нидерландская словоизменительная морфология (имя существительное) в рамках концепции лингвистического автомата // Язык и культура. Материалы конференции "Бельгия - Нидерланды - Россия". Вып. 2. М., Наука: 1999. С. 303-318.
Towards a generalised representation of russian morphology
in text processing systems
- A. Koval
Key words: computational morphology, linguistic databases, Russian.
The paper discusses the prospects for a generalised representation of data on the Russian morphology as a feeding data bank for various text processing systems. An outline is given for the principles of morphological knowledge coverage and data structuring. The procedures adapting the data to certain sublanguages and application functions are listed.