НЕКОТОРЫЕ ВОПРОСЫ ПОПОЛНЕНИЯ МОРФОЛОГИЧЕСКОГО СЛОВАРЯ ТЕРМИНАМИ ПРЕДМЕТНОЙ ОБЛАСТИ [1]
Е.А.Каневский
Санкт-Петербургский экономико-математический институт РАН
- Постановка задачи
Проблема обработки естественно-языковых текстов, "понимания" текста компьютером была и остается актуальной. Среди множества задач, которые сводятся к решению данной проблемы, можно назвать такие, как общение с компьютером на естественном языке, информационный поиск, извлечение содержательной информации из текстов и пополнение баз знаний.
В процессе создания базы знаний наиболее трудоемкой является процедура пополнения ее новой информацией, извлекаемой из специальных естественно-языковых текстов: деловых, научных, технических, медицинских, юридических и т. п. Очевидно, что при этом, в первую очередь, соответствующими терминами должны быть пополнены морфологический и семантический словари, на основе которых и выполняется анализ текстов. Рассмотрим ряд вопросов, связанных с пополнением морфологического словаря, поскольку вопросы организации и пополнения семантического словаря находится вне рамок настоящей статьи.
Задача пополнения морфологического словаря терминами предметной области является самостоятельной задачей и требует, прежде всего, разработки соответствующей методики. Морфологический анализатор, разработанный по алгоритмам В.А.Тузова, в процессе функционирования использует 17 рабочих словарей, в число которых входят основной словарь, два словаря основ и словари окончаний [1, 2]. Словари окончаний делятся на две группы. К первой группе относится словарь окончаний лексем, в котором хранятся наборы окончаний лексем из основного словаря и двух словарей основ. Обращение к этому файлу осуществляется по адресу, указанному в словарной статье. Вначале выбирается один байт, в котором хранится размер данного набора окончаний, а затем – сам набор.
Вторую группу составляют словари возможных окончаний слов, предназначенные для поиска лексемы произвольно задаваемого слова. Эти словари представляют собой обычные текстовые файлы, в которых окончания отделены друг от друга каким-либо разделителем, например, пробелом, а разделители строк отсутствуют. В словарях содержится информация о возможных окончаниях, получаемых при склонении или спряжении основ. В отличие от словаря окончаний лексем, где каждому слову сопоставляется присущий ему набор различных окончаний, в словарях второй группы содержится абстрактный набор окончаний, не принадлежащий в полной совокупности какому-либо отдельно взятому слову.
Все эти словари автоматически строятся по исходному словарю, что дает возможность легкой его модификации. Исходным словарем является грамматический словарь А.А.Зализняка [3]. Объем словаря – около ста тысяч слов. Общее количество словоформ, которые способен анализировать морфологический анализатор, – более двух миллионов.
В общем случае задача морфологического анализа распадается на две подзадачи: прямую и обратную. В данном случае прямой задачей является генерация по исходной форме слова (единственное число, именительный падеж – для склоняемых частей речи, инфинитив – для глаголов) всей парадигмы этого слова. Для решения этой задачи достаточно двух словарей: основного словаря и словаря окончания лексем. Обратная задача – по произвольной форме слова восстановить его основную форму. Эта задача значительно сложнее предыдущей, но, в конечном счете, сводится к ней. Произвольная форма слова может сильно отличаться от своей исходной формы (ШЕЛ – ИДТИ), поэтому основная проблема при решении обратной задачи – поиск исходной формы в словаре. Для ее решения используются все 17 словарей.
Возможны два подхода к организации словарей, обеспечивающих их пополнение. Первый подход заключается в использовании дополнительных словарей пользователя, что позволяет хранить информацию в основных словарях в неизменяемом упакованном формате. Второй подход требует хранения всей информации в виде, допускающем коррекцию, пополнение и удаление словарных статей. Особенности представления информации при таком подходе достаточно подробно рассмотрены в [4].
- Методика пополнение словаря
Естественно, что любое новое слово, отсутствующее в морфологическом словаре, тем или иным образом должно пополнить его. Для этого каждому новому слову (его лексеме) следует приписать такие морфологические характеристики, которые позволят в дальнейшем осуществлять разбор любой его словоформы по тем же правилам, по которым работает морфологический анализатор. Вообще говоря, возможен и другой вариант: если новые слова будут храниться в отдельном словаре, а не пополнять уже имеющийся морфологический словарь, то можно хранить, например, все словоформы для каждой новой лексемы. В этом случае морфологический разбор осуществляется по сравнительно простым правилам, а морфологические характеристики для каждой словоформы минимальны.
Однако в обоих случаях для пользователя весьма желательно наличие подсказки, а именно, варианта набора всех словоформ данной лексемы. Как отмечается в [5], наиболее приемлемой в данном случае является почти полностью автоматизированная процедура склонения и спряжения, реализованная в виде диалога с пользователем. Считается, что достаточно ограничиться четырьмя знаменательными частями речи: существительными, прилагательными, глаголами и наречиями.
Одним из возможных подходов к решению данной задачи является метод подбора окончаний. Суть его заключается в следующем: за основу берется существующий (основной) морфологический словарь. Если для анализируемой лексемы подобрать из словаря такое слово, окончание которого совпадает с окончанием этой лексемы по максимально возможному количеству букв, то очень велика вероятность того, что лексема изменяется так же, как и найденное слово.
Разберемся, прежде всего, с именами существительными. Основной морфологический словарь В.А.Тузова, включает в себя около 97400 слов, в том числе имен существительных мужского рода – 21500, женского рода – 18000 и среднего – 6400. Как описано в [1, 2], каждая статья этого словаря содержит соответствующую лексему русского языка, ее морфологический описатель и адрес в файле окончаний лексем. Так статья "АНАЛИТИК" имеет следующий вид:
АНАЛИТИК м3о 214
где "м3о" (морфологический описатель) обозначает существительное мужского рода, третьего класса, одушевленное, а число "214" – адрес соответствующих этой лексеме падежных окончаний в файле окончаний лексем.
Очевидно, что в словаре имеется множество слов с совершенно одинаковыми окончаниями и морфологическими описателями, так что следовало бы осуществить их разумную редукцию. Для этого была использована следующая методика: все существительные были разделены на десять массивов (по родам и по признаку одушевленности). Отдельный массив составили прилагательные (глаголы и наречия на первом этапе не обрабатывались). Следует сразу отметить, что предварительно для удобства обработки словарных статей в начала каждой из них было помещено обратное отображение слова, после чего словарь был пересортирован по алфавиту. Все слова в каждом из массивов были разделены на группы так, что в каждой группе оказались слова, у которых совпадают три последние буквы окончания. Затем слова в каждой группе были разделены по морфологическому описателю и адресу окончания. Ниже приведен пример такой группы, у всех статей которой совпадает как морфологический описатель, так и адрес падежных окончаний:
АКЖУЛС СЛУЖКА м3о 1077
АКЖУРД ДРУЖКА м3о 1077
АКЖЫРЯ ЯРЫЖКА м3о 1077
АКЖЯНТРОП ПОРТНЯЖКА м3о 1077
Очевидно, что из такой группы достаточно выбрать только одну статью, что и осуществлялось путем визуального отбора. При этом обращалось особое внимание на само слово, оставляемое в словаре: оно должно было быть достаточно простым и употребительным. Из приведенного выше набора слов, на наш взгляд, самым простым является слово ЯРЫЖКА.
Рассмотрим другую группу, у статей которой не совпадает ни морфологический описатель, ни адреса падежных окончаний:
АЖДАР РАДЖА м4о|2 13408
АЖДАРАГАМ МАГАРАДЖА м4о|2 13408
– – – – – – – – – –– – – – –– – – – –– – – – –
АЖДОХ ХОДЖА м4о 250
Статьи этой группы разделены на две подгруппы так, что в каждой из них совпадает как морфологический описатель, так и адрес падежных окончаний. Выбираем из первой подгруппы слово РАДЖА, а из второй – ХОДЖА. При таком подходе в каждом массиве будут отобраны слова с несовпадающими морфологическими описателями и адресами падежных окончаний.
В результате применения такой методики удалось сократить массивы существительных и прилагательных в соответствии со следующей таблицей:
Тип массива |
Всего слов |
Отобрано слов |
Сокращено в … раз |
Сущ. муж. од. |
8456 |
1933 |
4.4 |
Сущ. муж. неод. |
13041 |
4893 |
2.7 |
Сущ. жен. од. |
3274 |
312 |
10.5 |
Сущ. жен. неод. |
14726 |
1738 |
8.5 |
Сущ. ср. од. |
54 |
30 |
1.8 |
Сущ. ср. неод. |
6332 |
1075 |
5.9 |
Сущ. м-ж. од. |
416 |
147 |
2.8 |
Сущ. м-ж. неод. |
23 |
13 |
1.8 |
Сущ. м-с. од. |
22 |
22 |
– |
Сущ. ж.-с. од. |
2 |
2 |
– |
Прилагат. |
20878 |
2547 |
8.2 |
Таким образом, нами был получен набор массивов в виде текстовых файлов, пользуясь которыми можно пополнять морфологический словарь.
- Технология пополнение словаря
Система пополнения морфологического словаря, реализующая рассмотренную выше методику, достаточно проста. Пользователю предлагается три окна и набор кнопок. Вручную или из заранее подготовленного файла новое слово вводится в первое окно. Выбором соответствующих кнопок задается принадлежность введенного слова к прилагательным или существительным, в последнем случае задается также род и тип одушевленности.
Программа осуществляет получение обратного отображения заданного слова и поиск статьи из соответствующего файла, в которой имеет место совпадение заданного слова с первым словом соответствующей статьи этого словаря по максимальному количеству букв, начиная с трех. В случае если необходимое трехбуквенное сочетание вообще отсутствует в файле, ищется двухбуквенное сочетание или одна буква. После нахождения подходящей статьи, введенное слово, морфологический описатель и адрес падежных окончаний отобранной лексемы передаются в морфологический анализатор. Последний по исходной форме введенного слова (единственное число, именительный падеж – для склоняемых частей речи) выполняет генерацию всей его парадигмы. Для решения этой задачи достаточно словаря окончания лексем. Результат генерации выводится во второе окно по числам и падежам для имен существительных и по падежам для мужского и женского родов и множественного числа для прилагательных.
Если пользователя не устраивает предлагаемый ему вариант изменения введенного слова, то он может выбрать для образца какое-нибудь другое слово. Набор таких слов предлагается в третьем окне. При необходимости возможна процедура отката к совпадению по двум или даже одной букве. После осуществления выбора введенному слову приписываются морфологический описатель и адрес падежных окончаний отобранной лексемы.
Предварительные испытания системы показали вполне удовлетворительные результаты, однако, выявились два момента. Во-первых, очень многие русские фамилии, особенно такие, которые оканчиваются на –ов, -ев, -ин, склоняются по типу слова ТОПТЫГИН, так что целесообразно для ускорения обработки таких фамилий ввести особую кнопку. Во-вторых, в исходном словаре Зализняка [3] вообще не оказалось ни одного слова, которое бы склонялось по типу фамилий СИДОРОВА, ИВАНОВА и т. п., так что пришлось в основной словарь добавить статью
ИВАНОВА ж11о 27937
и также ввести на нее особую кнопку для обработки подобных фамилий.
- Заключение
Полная проверка системы пополнения морфологического словаря проводится в настоящее время на корпусе текстов, взятых из текущей периодики, интернетовских сообщений и других средств массовой информации. Из этих текстов выделено около 16000 слов, которые должны пополнить словарь терминами, относящимися к наиболее актуальным интересам общества. Из них около 2000 слов начинаются на буквы “И–Л”. Они имеют следующий состав:
– около 865 существительных, обозначающих имя, отчество или фамилию;
– 280 слов (в основном, существительных), обозначающих географические названия;
– 360 прилагательных, образованных, в основном, от существительных, обозначающих географические понятия;
– 240 слов (в основном, существительных), обозначающих названия предприятий, компаний, газет, банков и других организаций.
Остальные слова, в основном, являются существительными и представляют собой ряд специальных терминов в различных областях человеческой деятельности (банки, промышленность, политика, информация и др.). Имеется небольшое количество глаголов и отглагольных форм, еще меньше прилагательных, наречия практически отсутствуют. Некоторые из этих слов являются претендентами на пополнение основного морфологического словаря. Следует отметить значительное количество дефисно-аппозитивных слов, отсутствующих в довольно большом их списке, приведенном в [7]. Ряд таких слов приведен ниже:
ИНЖЕНЕР-ГЕОФИЗИК КОМПАНИЯ-ПОСТАВЩИК
ИНЖЕНЕР-МЕХАНИК КОМПАНИЯ-РАЗРАБОТЧИК
ИНЖЕНЕР-СТРОИТЕЛЬ КОМПАНИЯ-СОВЛАДЕЛЕЦ
ИНЖЕНЕР-ТЕХНОЛОГ КОМПАНИЯ-УЧАСТНИК
ИНЖЕНЕР-ФИЗИК КОМПАНИЯ-УЧРЕДИТЕЛЬ
ИНЖЕНЕР-ЭКОНОМИСТ КОМПАНИЯ-ЧЛЕН
ИНЖЕНЕР-ЭЛЕКТРИК КОМПАНИЯ-ЭКСПОРТЕР
ИНЖЕНЕР-ЖЕЛЕЗНОДОРОЖНИК КОНГРЕССМЕН-ДЕМОКРАТ
КАМБАЛА-КАЛКАН КОНГРЕССМЕН-РЕСПУБЛИКАНЕЦ
КАМЕНЬ-РАКУШЕЧНИК КОНКИСТАДОР-ЗАВОЕВАТЕЛЬ
КАНДИДАТ-ОДНОМАНДАТНИК КОНТРАГЕНТ-ЗАДОЛЖНИК
КОМПАНИЯ-АКЦИОНЕР КОРАБЛЬ-ПРИЗРАК
КОМПАНИЯ-ИНВЕСТОР ЛЕТЧИК-ДАЛЬНИК
КОМПАНИЯ-ОПЕРАТОР ЛЕТЧИК-ПИЛОТАЖНИК
КОМПАНИЯ-ПЕРЕВОЗЧИК
Литература
- Тузов В.А. Морфологический анализатор русского языка //Вестник СПбГУ, сер. 1. 1996. Вып. 1 (N15). С. 41–45.
- Каневский Е.А., Колпакова Н.В. К вопросу построения морфологического анализатора //Труды Международного семинара Диалог'99 по компьютерной лингвистике и ее приложениям. Москва: РосНИИ Искусственного Интеллекта, 1999. Т.2. С. 98–106.
- Зализняк А.А. Грамматический словарь русского языка. М.: Русский язык, 1987. 890 c.
- Поминов А. Некоторые вопросы организации пополняемых автоматических словарей //Труды Международного семинара Диалог'97 по компьютерной лингвистике и ее приложениям. Москва: РосНИИ Искусственного Интеллекта, 1997. С. 233–237.
- Светова С.Ю. Опыт создания средств редактирования словаря пользователя системы машинного перевода семейства ПРОМТ //Труды Международного семинара Диалог'99 по компьютерной лингвистике и ее приложениям. Москва: РосНИИ Искусственного Интеллекта, 1999. Т.2. С. 98–106.
- Сегалович И., Маслов М. Русский морфологический анализ и синтез с генерацией моделей словоизменения для не описанных в словаре слов //Труды Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. Казань: ООО "Хэтер", 1998. Т.2. С. 547–552.
- Федорова О.В. Мой диван-кровать или моя диван-кровать? (Дефисно-аппозитивные словокомплексы в русском языке //Труды Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. Казань: ООО "Хэтер", 1998. Т.2. С. 610–618.
[1] Работа выполнена при поддержке РФФИ, проект № 00-01-00443.