Proceedings 2002

Contents

НЕКОТОРЫЕ ВОПРОСЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ ТЕРМИНАМИ ПРЕДМЕТНОЙ ОБЛАСТИ

 

 

Е. А. Каневский

Санкт-Петербургский экономико-математический институт РАН

kanev@emi.spb.su

 

В. А. Тузов

Санкт-Петербургский Государственный университет

spbuoasis3@peterlink.ru

 

 

Ключевые слова: корпус текстов, новые термины, семантический словарь, лексема, фразеологизм

 

В статье рассматриваются вопросы, связанные с пополнением словарей терминами предметной области. В качестве источника используется корпус текстов общественно-политической направленности. Из выделенных 89 тысяч различных словоформ сформировано 4 словаря. Словарь сокращений содержит более 900 строк, каждая из которых состоит из оригинального сокращения и его расшифровки. Словарь наименований объектов содержит около 4 тысяч статей, каждая из которых представляет собой наименование объекта и его тип. Морфологический словарь содержит около 13 тысяч терминов, в том числе около 10 тысяч существительных и 3 тысяч прилагательных.

Наиболее сложным является составление семантического словаря новых терминов. Этот словарь является дополнением к основному семантическому словарю В.А. Тузова. Создание этого словаря повлекло за собой увеличение количества классов семантического словаря. Это связано с появлением большого количества собственных имен и различных наименований объектов (около 1600 географических названий, 1700 названий учреждений, 4800 имен, отчеств и фамилий). Рассматривается ряд типовых описания лексем простых и составных прилагательных, образованных от географических названий или существительных, являющихся базовыми понятиями. Показано, что в таких простых случаях процесс составления семантического описания лексем поддается определенной автоматизации. В более сложных случаях семантическое описание лексемы представляет собой формулу, составленную из базисных функций и базовых понятий. Ясно, что в общем случае эта задача не может быть полностью автоматизирована.

Предлагается оригинальный способ описания фразеологизмов и устойчивых словосочетаний (в частности, сложных предлогов) русского языка и механизм вычисления их смысла. При этом описание фразеологизма размещается в семантическом словаре стандартным образом и мало чем отличается от описания отдельного слова. По способу обработки близкими к фразеологизмам оказываются дефисно-аппозитивные существительные, такие как, шофер-дальнобойщик, летчик-истребитель и т. п. После обработки фразеологизмов и дефисно-аппозитивных существительных в конкретном предложении семантический анализатор работает с ними так же, как и с отдельным словом.

 

 

Введение

 

В процессе создания базы знаний наиболее трудоемкой является процедура пополнения ее новой информацией, которая извлекается из специальных естественно-языковых текстов  (деловых, политических, научных, юридических и т. п.). При этом в первую очередь, соответствующими терминами должны быть пополнены морфологический и семантический словари, на основе которых и выполняется анализ текстов [1, 2].

Задача пополнения морфологического словаря терминами предметной области является сравнительно простой задачей и может быть выполнена с помощью специально разработанной для этого системы [3]. Значительно сложнее задача пополнения семантического словаря. В настоящее время семантический словарь В.А. Тузова содержит более 100 тысяч лексических единиц [2]. Его основу составляют более 20 тысяч базовых понятий, разделенных на 1450 классов. Остальные лексические единицы (лексемы) образуются из этих базовых понятий с помощью 25 базисных функций [4]. Новые лексемы, образованные из терминов предметной области, могут как пополнять базовые понятия, так и являться производными из уже имеющихся лексем. Кроме того, как это будет показано ниже, для некоторых лексем приходится вводить новые классы.

Введем некоторые обозначения, которые можно встретить во многих работах по формальной лингвистике, но это совпадение чисто внешнее. Здесь они обозначают семантические базисные функции,которые имеют следующее толкование:

Oper00 (X,Y) – X проявляет [СВОЙСТВО] Y;

Oper01 (X,Y) – X совершает [ДЕЙСТВИЕ] Y и т. д. (до Oper11);

Copul (X,Y) – X является Y (X имеет свойства Y);

Em (X,Y) – X способен (склонен)  к Y.

Hab (X,Y) –  X имеет Y;

No (X) –  отрицание X;

Loc (X,Y) – X находится в Y;

Rel (X,Y) – X имеет отношение к Y.

Кроме того, используются

_a1 – указатель, заменяющий слово «который»;

Magn – префикс, означающий «очень»;

$<номер> – номер базового класса (понятия);

# – замещает отсутствующий аргумент;

!, %, N, ~, @ и т. п. – вспомогательные символы.

 

 

  1. Результаты анализа корпуса текстов

 

Рассмотрим подробнее результаты анализа имеющегося в нашем распоряжении корпуса текстов общественно-политической ориентации. Тексты в объеме более 12 МБ взяты из текущей периодики, интернетовских сообщений и других средств массовой информации. Из этих текстов методом пословной обработки было выделено около 89 тысяч разных словоформ. В результате обработки полученных словоформ морфологическим анализатором из них отобрано около 18 тысяч лексем, из числа имеющихся в морфологическом словаре Зализняка. Оставшиеся словоформы были подвергнуты тщательному анализу, в результате чего нам удалось сформировать 4 новые словаря.

Первый словарь – это словарь сокращений. Он является самостоятельным словарем, содержащим более 900 выделенных сокращений, и представляет собой текстовый файл, в каждой строке которого расположено сокращение и отделенная знаком равенства его расшифровка. Несколько строк этого словаря приведено ниже:

КОР. = Корпус                       МЛРД = Миллиард

КОРП. = Корпус                    МЛРД. = Миллиард

КП = Коммунистическая партия        НХК = Нефтехимическая компания

КП = Комсомольская правда             НХК = Нефтехимический комбинат

КУБ. М = Кубический метр                ПР. = Прочее

КУБ.М = Кубический метр                 ПР. = Проспект

                                                                 ПР-Т = Проспект

Следует обратить внимание на то, что часто одно и тоже обозначение используется в разных текстах по-разному. Таковы, например, сокращения “КП”,“НХК” и “ПР.”. С другой стороны, многочисленны случаи, когда для одного и того же термина используется несколько сокращений.

Второй словарь – это словарь наименований объектов (заводов, банков, организаций, газет, журналов и т. п.). Он является самостоятельным словарем, содержащим около 4 тысяч статей, и представляет собой текстовый файл, в каждой строке которого расположено наименование объекта и помещенный в косые скобки тип этого объекта. Несколько строк этого словаря приведено ниже:

Автопорт-Чоп /ТЕРМИНАЛ/                                              Момент истины /ТЕЛЕПРОГРАММА/

Аграрная партия России /ОРГАНИЗАЦИЯ/                     Русь и великая степь /КНИГА/

Азовсталь /КОМБИНАТ/                                                     Русский янтарь /ПРЕДПРИЯТИЕ/

Азерэнерго /КОМПАНИЯ/                                                  Русский земельный банк /БАНК/

Алтайская правда /ГАЗЕТА/                                                 Трансалл-акс /ФИРМА/

Амурский судостроительный завод /ЗАВОД/                  Трансметаллпрокат /КОНЦЕРН/

В состав этого словаря входят морфологически изменяемые наименования объектов, выделенные в тексте кавычками или каким-либо другим образом, а также наименования объектов, не подверженные морфологическим изменениям, даже если они и не выделены в тексте.

Третий словарь – это морфологический словарь новых терминов. Он является дополнением к основному морфологическому словарю Зализняка. Третий словарь содержит около 13 тысяч терминов и представляет собой текстовый файл, в каждой строке которого расположено слово в основной форме, его морфологический описатель и адрес окончания данного слова в словаре окончаний лексем [1, 5]. При этом в словаре содержится около 10 тысяч существительных, около 3 тысяч прилагательных, 85 глаголов и 15 наречий. Следует отметить, что при его составлении наблюдаются определенные трудности с распознаванием целого ряда фамилий, совпадающих с именами нарицательными (в различных падежах). Таковы, например, фамилии Козлов, Лебедь, Кроликов, Зайцев, Волков и т. п. Очень часто географические названия совпадают с наименованиями предприятий, компаний, газет, банков и других организаций.

 

 

  1. Пополнение семантического словаря

 

Четвертый словарь – это семантический словарь новых слов, выделенных при анализе корпуса текстов. Этот словарь является дополнением к основному семантическому словарю В.А. Тузова. Четвертый словарь содержит около 13,5 тысяч новых терминов и представляет собой текстовый файл, в каждой строке которого расположена лексема и ее семантическое описание. Следует заметить, что создание этого словаря повлекло за собой значительное увеличение количества классов в классификаторе семантического словаря. В частности, только для собственных имен и различных наименований объектов было добавлено более 50 новых классов. Приведем некоторые вновь введенные классы с указанием частоты встречаемости:

наименование транспортных средств (сухопутных, водных и воздушных) – 70,

наименование печатных изданий – 60,

наименование месторождений – 120,

наименование земных ландшафтов  (горы, долины, пустыни) – 40,

названия островов – 40,

наименование водных ландшафтов (реки, озера, моря, океаны) – 130,

наименование различных построек (санатории, резиденции) – 25,

названия сооружений разного рода (мосты, трубопроводы) – 180,

наименование населенных пунктов (села, деревни, поселки) –  185,

названия городов – 750,

названия уездов (области, края, провинции) – 115,

названия стран – 140,

наименование регионов (например, ДАЛЬНИЙ ВОСТОК, КАВКАЗ) – 80,

названия учреждений (организации, предприятия, фирмы) – 1710,

имена людей – 1190,

отчества людей – 140 ,

фамилии людей – 3635.

Приписывание семантических характеристик терминам такого рода заключается просто в определении соответствующего класса. Ниже приведены примеры подобных терминов для названий самолетов, городов, провинций, стран, регионов, предприятий, а также для имен, отчеств и фамилий людей:

АН-124  $12132430

КАРС  $123021

БАВАРИЯ  $123011

КУВЕЙТ $123001

ДОНБАСС  $12272310

ЗАБАЙКАЛЗОЛОТО  $123100

БОРИС  $1241301

НИКОЛАЕВИЧ  $1241302

ЕЛЬЦИН  $1241303

Аналогичным образом поступают при определении семантики терминов, которые можно отнести к базовым понятиям. Так, например, классы учреждений (это классы $1231101 – $123112) пополнились приблизительно 160 новыми терминами. Примеры таких терминов приведены ниже:

СУПЕРМАРКЕТ  $123102(!Род)

ДИСКОТЕКА  $123103(!Род)

ХИМЗАВОД  $123106(!Род)

ГЕНКОНСУЛЬСТВО  $123107(!Род)

АВИААГЕНТСТВО  $123109(!Род)

АВТОКОНЦЕРН  $123111(!Род)

Определение семантики для терминов, которые нельзя отнести к базовым, представляет собой довольно сложную задачу. Дело в том, что семантическое описание такой лексемы представляет собой некую формулу, составленную из базисных функций и базовых понятий. В общем случае эта задача не может быть формализована, однако, в отдельных случаях некоторые элементы формализации могут иметь место. Рассмотрим подробнее варианты формализации семантических описаний производных лексем на примере прилагательных, количество которых, как указывалось выше, составляет около 3 тысяч.

Наиболее просто составляется семантическое описание новых прилагательных, образованных от географических названий, например:

КАМСКИЙ  N%~КАМА$1224240 (Rel_a1(НЕЧТО$1~%1,КАМА$1224240))

КАРСКИЙ  N%~КАРС$123021(Rel_a1(НЕЧТО$1~%1,КАРС$123021))

КУВЕЙТСКИЙ  N%~КУВЕЙТ$123001(Rel_a1(НЕЧТО$1~%1,КУВЕЙТ$123001))

КУНГУРСКИЙ  N%~КУНГУР $717(Rel_a1(НЕЧТО$1~%1,КУНГУР $717))

Здесь НЕЧТО$1~%1 указывает допустимый класс того существительного (в данном случае – любой), к которому относится данное прилагательное, и место, куда будет вставляться это существительное. Отметим, что в последних версиях семантического словаря Тузова описание производной лексемы начинается с указания на класс той базовой лексемы, от которой образовано данное прилагательное, например, N%~КАМА$1224240. Для простоты в дальнейших примерах этого раздела такое указание опущено. Отметим также, что последний пример относится к, так называемым, неизвестным географическим названиям. Этот случай имеет место, когда для прилагательного в словаре отсутствует соответствующее географическое название. Тогда такому существительному приписывается класс $717 (в данном словаре имеется более 500 подобных прилагательных).

Аналогичным образом составляются семантические описания составных прилагательных, образованных от географических названий. Несколько таких примеров приведено ниже:

ВОЛГО-КАМСКИЙ  Rel_a1(НЕЧТО$1~%1,ВОЛГА$1224240&КАМА$1224240)

БАЙКАЛО-АМУРСКИЙ  Rel_a1(НЕЧТО$1~%1,БАЙКАЛ$1224230&АМУР$1224240)

АНГЛО-ДАТСКИЙ  Rel_a1(НЕЧТО$1~%1,АНГЛИЯ$123001&ДАНИЯ$123001)

АНГЛО-НОРВЕЖСКО-ТУРЕЦКИЙ  Rel_a1(НЕЧТО$1~%1,АНГЛИЯ$123001&

НОРВЕГИЯ$123001&ТУРЦИЯ$123001)

Несмотря на сравнительную простоту семантических описаний подобных прилагательных, их роль чрезвычайно важна вследствие их количества: в четвертом словаре имеется около 250 прилагательных, образованных от названий водных и земных ландшафтов, и более 700 прилагательных, образованных от названий стран.

Аналогичным образом составляются семантические описания прилагательных в том случае, когда в одном из семантических словарей (основном или дополнительном) присутствуют соответствующие существительные, являющиеся базовыми понятиями. Ниже приведено несколько подобных примеров:

БАРТЕРНЫЙ  Rel_a1(НЕЧТО$1~%1,БАРТЕР$1515302)

АОРТОКОРОНАРНЫЙ  Rel_a1(НЕЧТО$1~%1,АОРТА$1241/4&КОРОНА$121368)

АПАТИТО-НЕФЕЛИНОВЫЙ  Rel_a1(НЕЧТО$1~%1,АПАТИТ$12125&НЕФЕЛИН$12125)

БАНКОВСКО-ДЕНЕЖНЫЙ  Rel_a1(НЕЧТО$1~%1,БАНК$123110&ДЕНЬГИ$1214)

Как видно из приведенных выше примеров, при однородности тех исходных лексем, от которых образуется соответствующее прилагательное, они соединяются знаком “&”. Если же отношения между ними носят характер подчиненности, то одно из них берется в круглые скобки:

ВАЛЮТООБМЕННЫЙ  Rel_a1(НЕЧТО$1~%1,ОБМЕН$1515302(ВАЛЮТА$12141))

ВЕЛИКОУЗБЕКСКИЙ  Rel_a1(НЕЧТО$1~%1,ВЕЛИКИЙ$11016/10(УЗБЕК$124133))

ВЗАИМОДОВЕРИТЕЛЬНЫЙ  Rel_a1(НЕЧТО$1~%1,ВЗАИМНЫЙ$1100/071(ДОВЕРИЕ$130113))

АВИАДВИГАТЕЛЕСТРОИТЕЛЬНЫЙ  Rel_a1(НЕЧТО$1~%1,СТРОИТЕЛЬСТВО$15131

(МОТОР$1213221(САМОЛЕТ$1213243)))

Аналогичным образом сконструированы и нижеприведенные лексемы, они отличаются от предыдущих только используемой базисной функцией Loc_a1:

                        ВНЕСУДЕБНЫЙ  Loc_a1(НЕЧТО$1~!%1,ВНЕ$12/00203(СУД$123107))

                        ВНУТРИБАНКОВСКИЙ  Loc_a1(!%1,ВНУТРИ$12/00203(БАНК$123110))

                        ВНУТРИКРЕМЛЕВСКИЙ  Loc_a1(!%1,ВНУТРИ$12/00203(КРЕМЛЬ$1232))

                        НАДСОЛЕВОЙ  Loc_a1(НЕЧТО$1~!%1,НАД$711(СОЛЬ$12111))

                        ПОДКОВЕРНЫЙ  Loc_a1(НЕЧТО$1~!%1,ПОД$711(КОВЕР$121374))

Подобным же образом сконструированы и нижеприведенные лексемы, они отличаются от предыдущих только используемой базисной функцией Hab_a1:

ДЕСЯТИМИЛЬНЫЙ  Hab_a1(НЕЧТО$1~!%1,ДЕСЯТЬ$12001(МИЛЯ$12/0011))

ПОЛНОФОРМАТНЫЙ  Hab_a1(НЕЧТО$1~!%1,ПОЛНЫЙ$12/01907(ФОРМАТ$14222/8))

РЕДКОМЕТАЛЬНЫЙ  Hab_a1(НЕЧТО$1~!%1,РЕДКИЙ$16/03(МЕТАЛЛ$12122))

ТРЕХПАРТИЙНЫЙ  Hab_a1(НЕЧТО$1~!%1,ТРИ$12001~ПАРТИЯ$12411207)

Похожим образом сконструированы и нижеприведенные лексемы, они отличаются от предыдущих только используемой базисной функцией Oper00_a1:

ЛЕДОСТОЙКИЙ  EmOper00_a1(НЕЧТО$1~!%1,СОПРОТИВЛЕНИЕ$1(ЛЕД$122/14))

НАДЗИРАТЕЛЬНЫЙ  Oper00_a1(НЕЧТО$1~!%1,НАДЗОР$1516032(!Над\!заТв))

НЕПРЕДВЗЯТЫЙ  NeOper00_a1(НЕЧТО$1~!%1,ПРЕДВЗЯТОСТЬ$131562)

ОЗОНО-БЕЗОПАСНЫЙ  NeOper00_a1(НЕЧТО$1~!%1,ОПАСНОСТЬ$13012222(ОЗОН$121152))

Таким образом, мы рассмотрели некоторые типовые варианты описания прилагательных, из которых видно, что даже в таких, сравнительно простых случаях возникает проблема выбора соответствующей функции. Очевидно, что этот выбор в значительной степени индивидуален и вряд ли поддается какой-либо формализации.

 

 

  1. Фразеологизмы и словосочетания

 

Фразеологизмом будем называть устойчивое словосочетание не менее чем из двух слов, семантически эквивалентное одному слову. В частности, фразеологизмами являются составные и сложно-составные предлоги. Удалось найти достаточно простой способ описания фразеологизмов и на его основе построить алгоритм семантического разбора предложений, содержащих фразеологизмы [6]. Приведем и прокомментируем несколько примеров описания фразеологизмов.

Фразеологизм Бабушка надвое сказала. Смысл: неизвестно, что и как будет. Словарная статья:

БАБУШКА N%~НАДВОЕ_СКАЗАЛА$0 (Copul (ВСЕ$1, НЕОПРЕДЕЛЕННЫЙ$1100/02))

Буквальное толкование: всё неопределенно. Грамматический тип – Предложение.

Фразеологизм Астраханские известия. Смысл: название газеты. Словарная статья:

АСТРАХАНСКИЙ $12151110 (N%~ИЗВЕСТИЯ$0 (ГАЗЕТА$1215111))

Буквальное толкование определяется классом $12151110 (названия газет и журналов). Грамматический тип – Что.

Как видно из примеров формальное описание фразеологизма может быть одним из двух видов. Одни фразеологизмы имеют идентифицирующий описатель $0, другие – _$0. Наличие первого описателя указывает на постоянство грамматических форм всех (кроме первого) входящих в словосочетание слов. Например, Бабушка надвое сказала. Второй описатель указывает на то, что входящие в словосочетание слова могут менять падежную форму, сохраняя сочетаемость по роду, числу и падежу (Астраханские известия). При этом любая падежная форма считается допустимой, что не всегда соответствует действительности. Например, Астраханское известие остается названием газеты.

Фразеологизмы делятся на два типа: одни из них имеют собственный класс, другие – не имеют. Фразеологизмы первого типа могут быть изменяемыми и неизменяемыми. Ниже приведены примеры первых из них, у которых название класса совпадает со словами фразеологизма:

БИСКАЙСКИЙ  $1224250(N%~ЗАЛИВ_$0(ЗАЛИВ$122425))

БЕЛЫЙ  $1224220(N%~МОРЕ_$0(МОРЕ$122422))

КАСПИЙСКИЙ  $1224220(N%~МОРЕ_$0(МОРЕ$122422))

КРАСНЫЙ  $1224220(N%~МОРЕ_$0(МОРЕ$122422))

МОСКОВСКИЙ  $1231060(N%~ВЕРТОЛЕТНЫЙ_ЗАВОД_ИМ_МИЛЯ$0(ЗАВОД$123106))

ОРГАНИЗАЦИЯ  $123100(N%~ОБЪЕДИНЕННЫХ_НАЦИЙ$0(УЧРЕЖДЕНИЕ$1231))

Название класса может не совпадать со словами фразеологизма:

АДМИРАЛЬСКИЙ  $1601(N%~ЧАС_$0(ПОЛДЕНЬ$1601))

АСТРАХАНСКИЙ  $12151110(N%~ИЗВЕСТИЯ_$0(ГАЗЕТА$1215111))

БЕЛОВЕЖСКИЙ  $1224120(N%~ПУЩА_$0(ЛЕС$122412))

БОСФОРСКИЙ  $1224250(N%~ПРОЛИВ_$0(ЗАЛИВ$122425))

Фразеологизмы первого типа могут быть неизменяемыми:

МАЙН  $1215080(N%~КАМПФ$0(КНИГА$121508))

Фразеологизмы, которые не имеют собственного класса (в этом случае им приписывается класс $0), также могут быть изменяемыми

АНТОНОВ  N%~ОГОНЬ_$0(ГАНГРЕНА$124/21(!У))

МАРТЫШКИН  N%~ТРУД_$0(NeHab_o1(ТРУД$151~!%1,ПОЛЬЗА$11018))

или неизменяемыми

БАЛЕТ  N%~НА_ЛЬДУ$0(Loc_o1(БАЛЕТ$14151~!%1(!Из\!Откуда),ЛЕД$122/14))

БАРАШЕК  N%~В_БУМАЖКЕ$0(ВЗЯТКА$121403)

В  N%~ОДИН_ГОЛОС$0(Oper00_e(#,ОДИН$12001(МНЕНИЕ$13156(#))))

КАТАТЬСЯ  N%~СО_СМЕХУ$0(Oper01(!Им,Magn~СМЕХ$1300122))

СЛОН  N%~НА_УХО_НАСТУПИЛ$0(NeHab(!Дат,СЛУХ$124/002))

Аналогичным образом определяются составные и сложно-составные предлоги:

В  N%~ОТНОШЕНИИ$0(Rel_e(#,НЕЧТО$1~!Род))

ПО  N%~СОСТОЯНИЮ$0(Oper00_y(#,СОСТОЯНИЕ$1113~!Дат))

В  N%~ОТЛИЧИЕ_ОТ$0(Oper00_e(НЕЧТО$1~!Род,Copul_o(#,РАЗНЫЙ$1100/11)))

ПО  N%~ОДНОМУ_ИЗ$0(Usor_e(#,!Род))

Таким образом, как видно из рассмотренного выше, методика описания фразеологизмов с успехом может быть использована для представления в семантическом словаре как словосочетаний типаБискайский залив, Белое море, так и составных наименований объектов типа Московский вертолетный завод им. Миля, Организация Объединенных Наций, т. е. всех статей словаря наименований объектов.

Ранее уже указывалось на значительное количество дефисно-аппозитивных слов [3]: археолог-любитель, бандит-провокатор, безбожник-ино­странец и т. п. Такие слова встречаются в тексте до 250 раз. Комбинации образуются самые разнообразные и нецелесообразно все эти комбинации хранить в семантическом словаре. Предлагается способ, позволяющий не вводить в семантический словарь специальные лексемы для таких слов. Для этого морфологический анализатор разбивает их на два слова, анализирует каждое из них обычным образом и оставляет семантическому анализатору некоторую информацию об их связи. Семантический анализатор, проверив сочетаемость этих слов по падежу и числу, упрятывает второе слово в описание первого. Технически эта процедура достаточно проста и применима к подавляющему большинству дефисно-аппозитивных слов, значение которых определяется по первому слову (банк-агент, вертолет-амфибия, жук-носорог). Несколько подобных слов, значение которых не определяется по первому слову (игла-рыба, гоголь-моголь, Москва-река), легко могут быть представлено в виде фразеологизмов. Ниже приведены примеры подобного разбора дефисно-аппозитивных слов.

Он был археологом-любителем.

был(@ОН$702 Он,@Тв археологом-любителем).

археологом-любителем

 (* (\\Опр. \\любителем ЛЮБИТЕЛЬ {Сущ Муж Одуш@ОН$702@Тв}

 $12402(Z1:s> ЖИВОЙ$124,Z2: !Род\!Инфин) \\)`Опр.*)

АРХЕОЛОГ {Сущ Муж Одуш $124132~@ОН$702@Тв} $124132(Z1:s> СПЕЦ$124132)

Они посетили выставку-продажу.

посетили(@ОНИ$702 Они,@Вин выставку-продажу).

выставку-продажу

(* (\\Опр. \\продажу ПРОДАЖА {Сущ Жен Неодуш @ОНА$702@Вин}

$15153022(Z1: !Тв,Z2: !Род, Z4: !заВин) \\)`Опр.*)

ВЫСТАВКА {Сущ Жен Неодуш $123103~@ОНА$702@Вин} $123103(Z1: !Род)

 

 

Литература

 

  1. Тузов В.А. Морфологический анализатор русского языка //Вестник СПбГУ, сер. 1. 1996. Вып. 1 (N15). С. 41–45.
  2. Тузов В.А. Компьютерная семантика русского языка//Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. Москва: РосНИИ Искусственного Интеллекта, 2001. Т.2. С. 356–363.
  3. Каневский Е.А. Некоторые вопросы пополнения морфологического словаря терминами предметной области //Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. Москва: РосНИИ Искусственного Интеллекта, 2001. Т.2. С. 156–160.
  4. Тузов В.А. Синтаксический анализ предложения //Инфор­ма­ционные технологии в гуманитарных и общественных науках. СПб: СПбЭМИ РАН, 1998. Вып. 7. С. 29–41.
  5. Каневский Е.А., Колпакова Н.В. К вопросу построения морфологического анализатора //Труды Международного семинара Диалог'99 по компьютерной лингвистике и ее приложениям. Москва: РосНИИ Искусственного Интеллекта, 1999. Т.2. С. 98–106.
  6. Тузов В.А. Описание и обработка фразеологизмов //Инфор­ма­ционные технологии в гуманитарных и общественных науках. СПб: СПбЭМИ РАН, 2001. Вып. 11. С. 30–38.

 

 

Some problems of addition of the semantic dictionary by the terms of data domain

  1. A. Kanevskiy, V. A. Tuzov

 

Key words: corpus of texts, new terms, semantic dictionary, lexeme, idiom

 

The problem we consider is an addition of knowledge domain terms to a dictionary. Our source is the corpus of social and political texts and its size is about 12 Mb. New terms extracted from the texts can be classified in 4 dictionaries as follows: abbreviations, object names, morphologic dictionary and semantic dictionary. To create the first and the second ones we just extract terms from the text manually. The morphologic dictionary is created on the base of the new terms using one of the already existing approaches. The most difficult task is to create the semantic dictionary of the new terms. We consider some procedures to formalize the creation of semantic description for lexemes of several types. We propose an original method for the description of idioms and fixed word-groups. The idioms are presented in the semantic dictionary in the standard way and their description has little differences in comparison with the description of a single word.