Программное обеспечение системы РУСЛО 2
А.В.Рафаева
НИВЦ МГУ
- Система РУСЛО. В НИВЦ МГУ разрабатывается система РУСЛО (РУсское СЛОвообразование), предназначенная для автоматического анализа и синтеза производных и сложных слов русского языка. Словообразовательная модель русского языка разработана Н.Н.Перцовой (см. [Перцова, Черемхин 1992; Перцова 1998]). Первый вариант программного обеспечения системы был написан А.В.Черемхиным ([Перцова, Черемхин 1992]) и работал в среде DOS. В настоящей работе описывается второй вариант программного обеспечения системы, работающий в среде Windows' 95 и выше. Программное обеспечение системы реализовано в среде разработки С++ Builder 4. В системе используются БД в формате Paradox; частично поддерживаются БД в формате СУБДSTARLING (разработка С.А.Старостина); в системе используются (с некоторыми упрощениями, обусловленными спецификой поставленной задачи) лингвистические алгоритмы, разработанные С.А. Старостиным.
- Основные отличия второго варианта системы РУСЛО. В системе РУСЛО 2 лингвистическая информация и программное обеспечение разграничены, что позволяет свободно изменять лингвистическую информацию, не затрагивая программной реализации системы.
Лексической базой системы является "Грамматический словарь русского языка" А.А.Зализняка ([Зализняк 1977]); в отличие от первого варианта, в системе используется не только словник, но и информация о типе словоизменения, содержащаяся в словарных статьях. Информация о словообразовательных моделях содержится в БД в формате Paradox.
Система РУСЛО 2 позволяет осуществлять просмотр, сортировку и редактирование лингвистических БД непосредственно во время сеанса работы с системой.
- Архитектура системы РУСЛО.
Рис. 1. Базовая архитектура системы РУСЛО
На рис. 1. представлена архитектура системы РУСЛО. Основными модулями системы являются: пользовательский интерфейс, лингвистический процессор и модуль данных. Пользовательский интерфейс получает запрос пользователя, производит первичную обработку данных и определяет режим работы лингвистического процессора.
Блок данных содержит компьютерную версию словаря Зализняка в текстовом формате и лингвистические БД, содержащие информацию к словообразовательной модели русского языка.
- Внутреннее представление данных в системе. На основе анализа словарной статьи из словаря Зализняка система заполняет структуру, содержащую следующую информацию:
а) исходная форма слова;
б) основное ударение;
в) дополнительное ударение (если оно имеется);
г) часть речи;
д) тип словоизменения;
е) дополнительная информация.
При помощи этой структуры блок лингвистического анализа находит основу слова, включая основы, в которых происходят регулярные словоизменительные чередования. Найденные основы затем передаются блоку словообразовательного анализа.
- Режимы работы системы РУСЛО 2. Система может работать в одном из трех режимов: исследование, работа с лингвистической информацией (просмотр БД) и просмотр результатов обращения к словарю Зализняка.
5.1. Исследование. В этом режиме система производит анализ и синтез производных слов русского языка. На начало 2001 г. реализованы функции словарного синтеза; функции анализа разрабатываются.
Для исследовательских целей (изучение неологизмов, построенных по редким и непродуктивным словообразовательным моделям, проверка условий БД на избыточность, изменение представления данных) необходимо иметь возможность отключать некоторые ограничения и разрешать системе построения по моделям, которые в обычной ситуации закрыты для расширения. В настоящее время пользователю разрешено включать и выключать обращение ко всем реализованным в системе лингвистическим функциям, за исключением обращения к словарю Зализняка. Для обработки неологизмов, однако, необходимо отключать и это обращение.
Результаты эксперимента выводятся на экран. Пользователь может внести в протокол эксперимента свои замечания; по желанию пользователя протокол эксперимента может быть сохранен в файле в текстовом формате.
5.2. Работа с лингвистической информацией. В этом режиме пользователь может просматривать и редактировать БД, осуществлять переход к нужной записи по номеру, а также искать записи, отвечающие условию, заданному пользователем по одной из следующих моделей:
- найти все записи, поле <X> которых равно <Y>;
- найти все записи, поле <X> которых начинается с текста <Y>;
- найти все записи, поле <X> которых пусто.
Условия такого вида могут произвольно комбинироваться с помощью скобок и операторов И, ИЛИ и НЕ.
Ряд полей БД содержит условия и ограничения, накладываемые на мотивирующее слово или дериват, например, наличие/отсутствие признака одушевленности. Такие признаки могут комбинироваться; синтаксис БД позволяет использовать в таких полях операторы И, ИЛИ и НЕ, а также их комбинации.
5.3. Просмотр результатов обращения к словарю Зализняка. Эта операция позволяет вывести на экран внутреннее представление словарной статьи для любого слова, введенного пользователем. По умолчанию внутреннее представление словарной статьи скрыто; для его вывода требуется запрос пользователя. Такая возможность используется прежде всего в справочных целях, если результат эксперимента нуждается в дополнительной проверке.
Литература
Зализняк 1977 – Зализняк А.А. Грамматический словарь русского языка: Словоизменение. М.: "Русский язык", 1977.
Перцова, Черемхин 1992 – Перцова Н.Н., Черемхин А.В. Эксперименты по построению формальной модели русского словообразования // Труды машинного фонда русского языка. Т. 2. М.: ИРЯ РАН, 1992. С. 86 – 103.
Перцова 1998 – Перцова Н.Н. Анализ окказиональных слов в системе РУСЛО // Труды международного семинара Диалог’98 по компьютерной лингвистике и ее приложениям: В 2 т. Казань: ООО "Хэтер", 1998. - Т. 2, С.846 – 847.
Рафаева 2000 – Рафаева 2000 – Автоматическая система русского словообразования РУСЛО 2 // Труды международного семинара Диалог’2000 по компьютерной лингвистике и ее приложениям. В 2 т. Протвино, 2000 г. Т. 2. Прикладные проблемы. / под ред. А.С. Нариньяни. С. 296.