Proceedings 2001

Contents

Программное обеспечение системы РУСЛО 2

А.В.Рафаева

НИВЦ МГУ

 

  1. Система РУСЛО. В НИВЦ МГУ разрабатывается система РУСЛО (РУсское СЛОвообразование), предназначенная для автоматического анализа и синтеза производных и сложных слов русского языка. Словообразовательная модель русского языка разработана Н.Н.Перцовой (см. [Перцова, Черемхин 1992; Перцова 1998]). Первый вариант программного обеспечения системы был написан А.В.Черемхиным ([Перцова, Черемхин 1992]) и работал в среде DOS. В настоящей работе описывается второй вариант программного обеспечения системы, работающий в среде Windows' 95 и выше. Программное обеспечение системы реализовано в среде разработки С++ Builder 4. В системе используются БД в формате Paradox; частично поддерживаются БД в формате СУБДSTARLING (разработка С.А.Старостина); в системе используются (с некоторыми упрощениями, обусловленными спецификой поставленной задачи) лингвистические алгоритмы, разработанные С.А. Старостиным.
  2. Основные отличия второго варианта системы РУСЛО. В системе РУСЛО 2 лингвистическая информация и программное обеспечение разграничены, что позволяет свободно изменять лингвистическую информацию, не затрагивая программной реализации системы.

Лексической базой системы является "Грамматический словарь русского языка" А.А.Зализняка ([Зализняк 1977]); в отличие от первого варианта, в системе используется не только словник, но и информация о типе словоизменения, содержащаяся в словарных статьях. Информация о словообразовательных моделях содержится в БД в формате Paradox.

Система РУСЛО 2 позволяет осуществлять просмотр, сортировку и редактирование лингвистических БД непосредственно во время сеанса работы с системой.

  1. Архитектура системы РУСЛО.

 

 
   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 1. Базовая архитектура системы РУСЛО

 

На рис. 1. представлена архитектура системы РУСЛО. Основными модулями системы являются: пользовательский интерфейс, лингвистический процессор и модуль данных. Пользовательский интерфейс получает запрос пользователя, производит первичную обработку данных и определяет режим работы лингвистического процессора.

Блок данных содержит компьютерную версию словаря Зализняка в текстовом формате и лингвистические БД, содержащие информацию к словообразовательной модели русского языка.

  1. Внутреннее представление данных в системе. На основе анализа словарной статьи из словаря Зализняка система заполняет структуру, содержащую следующую информацию:

а) исходная форма слова;

б) основное ударение;

в) дополнительное ударение (если оно имеется);

г) часть речи;

д) тип словоизменения;

е) дополнительная информация.

При помощи этой структуры блок лингвистического анализа находит основу слова, включая основы, в которых происходят регулярные словоизменительные чередования. Найденные основы затем передаются блоку словообразовательного анализа.

  1. Режимы работы системы РУСЛО 2. Система может работать в одном из трех режимов: исследование, работа с лингвистической информацией (просмотр БД) и просмотр результатов обращения к словарю Зализняка.

            5.1. Исследование. В этом режиме система производит анализ и синтез производных слов русского языка. На начало 2001 г. реализованы функции словарного синтеза; функции анализа разрабатываются.

Для исследовательских целей (изучение неологизмов, построенных по редким и непродуктивным словообразовательным моделям, проверка условий БД на избыточность, изменение представления данных) необходимо иметь возможность отключать некоторые ограничения и разрешать системе построения по моделям, которые в обычной ситуации закрыты для расширения. В настоящее время пользователю разрешено включать и выключать обращение ко всем реализованным в системе лингвистическим функциям, за исключением обращения к словарю Зализняка. Для обработки неологизмов, однако, необходимо отключать и это обращение.

Результаты эксперимента выводятся на экран. Пользователь может внести в протокол эксперимента свои замечания; по желанию пользователя протокол эксперимента может быть сохранен в файле в текстовом формате.

               5.2. Работа с лингвистической информацией. В этом режиме пользователь может просматривать и редактировать БД, осуществлять переход к нужной записи по номеру, а также искать записи, отвечающие условию, заданному пользователем по одной из следующих моделей:

  • найти все записи, поле <X> которых равно <Y>;
  • найти все записи, поле <X> которых начинается с текста <Y>;
  • найти все записи, поле <X> которых пусто.

Условия такого вида могут произвольно комбинироваться с помощью скобок и операторов И, ИЛИ и НЕ.

Ряд полей БД содержит условия и ограничения, накладываемые на мотивирующее слово или дериват, например, наличие/отсутствие признака одушевленности. Такие признаки могут комбинироваться; синтаксис БД позволяет использовать в таких полях операторы И, ИЛИ и НЕ, а также их комбинации.

            5.3. Просмотр результатов обращения к словарю Зализняка. Эта операция позволяет вывести на экран внутреннее представление словарной статьи для любого слова, введенного пользователем. По умолчанию внутреннее представление словарной статьи скрыто; для его вывода требуется запрос пользователя. Такая возможность используется прежде всего в справочных целях, если результат эксперимента нуждается в дополнительной проверке.

 

 

Литература

 

Зализняк 1977 –  Зализняк А.А. Грамматический словарь русского языка: Словоизменение. М.: "Русский язык", 1977.

Перцова, Черемхин 1992 – Перцова Н.Н., Черемхин А.В. Эксперименты по построению формальной модели русского словообразования // Труды машинного фонда русского языка. Т. 2. М.: ИРЯ РАН, 1992. С. 86 – 103.

Перцова 1998 – Перцова Н.Н. Анализ окказиональных слов в системе РУСЛО // Труды международного семинара  Диалог’98 по компьютерной лингвистике и ее приложениям: В 2 т. Казань: ООО "Хэтер", 1998. - Т. 2,  С.846 – 847.

Рафаева 2000 – Рафаева 2000 – Автоматическая система русского словообразования РУСЛО 2 // Труды международного семинара Диалог’2000 по компьютерной лингвистике и ее приложениям. В 2 т. Протвино, 2000 г. Т. 2. Прикладные проблемы. / под ред. А.С. Нариньяни. С. 296.