автоматизированный анализ терминологии в русскоязычном корпусе текстов по
корпусной лингвистике[1]

automatic analysis of terminology in
the russian text corpus on corpus linguistics

Митрофанова О.А. (alkonost-om@yandex.ru),
Санкт-Петербургский государственный университет (СПбГУ)

Захаров В.П. (vz1311@yandex.ru),
Санкт-Петербургский государственный университет (СПбГУ),
Институт лингвистических исследований РАН (ИЛИ РАН)

В докладе рассматриваются результаты анализа русскоязычной терминологии корпус­ной лингвистики, полученные при совмещении ручной и автоматической обработки спе­циального корпуса текстов. Особое внимание уделяется выявлению однословных и неодно­словных терминов, использованию лексико-грамматических шаблонов для описа­ния внут­рен­ней структуры терминов, а также терминообразующих контекстов.

1. Постановка проблемы, цели и задачи исследования

В многообразии жанров корпусов текстов особое место занимают корпусы специальных, прежде всего, научных текстов, отражающие знания по отдельным предметным областям. Особенности данных корпусов – наличие жёстких ограничений по типу и тематике текстов, входящих в их состав; формализованность содержа­ния текстов, опирающегося на логико-понятийную схему предметной области; высокая структурированность словаря текстов за счёт насыщенности терминами; очевидное влияние научного стиля на лексико-семан­тические, морфологические, синтаксические параметры текстов в корпусе [Герд 2005]. Сочетание указанных особен­ностей специальных текстов делает их хотя и сложным, но всё же весьма привлекательным материалом для исследования. Многие проблемы, возникающие при работе со специальными корпу­сами текстов, не имеют оче­видных и однозначных решений. Таковы вопросы о том, что считать терми­ном той или иной области знаний, как описать, представить значения и связи терминов в терминосистеме, как разра­ботать специальный корпус текстов, как выделить термины из текстов в таком корпусе и др. Следует подчеркнуть, что полное ре­ше­ние данных вопросов выходит за рамки нашего исследования; в процессе работы с терминологией мы используем нестро­гое понимание термина как лексической единицы, характерной для некоего текста или мно­жества текстов.

Результаты анализа корпусов текстов, сформированных для отдельных предметных облас­тей, имеют высокую прикладную ценность. Специальные корпусы текстов и извлечённые из них данные востребованы как в научно-технической лексико­графии (при составление терминологических словарей, класси­фикаторов, рубрикаторов), так и в сфере автоматической обработки текстов (при автоматическом индекси­ровании и реферировании документов, автоматической классификации и кластеризации документов, в инфор­мационном поиске и машинном переводе). На основе специальных корпусов текстов создаются и пополняются термино­логические базы и банки данных, терминологические тезаурусы, формальные онтологии для отдельных пред­метных областей, многоязычные терминологические ресурсы.

Особенно важны исследования специальных корпусов текстов для развивающихся областей знаний, и одной из таких областей является сама корпусная лингвистика. Существуют системные описания терминологии корпусной лингвистики для английского [Baker et al. 2006], а также для ряда других языков, в том числе и славянских: см., например, соответствующий раздел в терминологической базе данных для словацкого языка, разрабатываемой в Институте языкознания Л. Штура (Братислава, Словакия) (URL: https://data.juls.savba.sk/std/) [Levická 2007; Šimková 2006]. Однако в русскоязычных терминологических ресурсах данная предметная об­ласть до недавнего времени не была представлена.

С 2002 г. на кафедре математической лингвис­тики СПбГУ и в ИЛИ РАН осуществляется проект, целью которого является создание корпуса русскоязычных текстов по корпусной лингвистике и разработка линг­вистических ресурсов на основе данного корпуса. В рамках проекта проводится многоаспектное исследование содержания и структуры текстов в корпусе, что предполагает решение ряда задач, среди которых

         извлечение, анализ и систематизация терминологии корпусной линг­вистики,

         классификация терминов в корпусе,

         разра­ботка формальной онтологии по корпусной лингвистике,

         тематическая рубрикация текстов в корпусе,

         подго­товка данных для компьютерного тезауруса по корпусной лингвистике.

Отдельные результаты работы, полученные к настоящему времени, освещены в ряде публикаций: см., в частности, [Виноградова, Митрофанова, Паничева 2007; Виноградова, Митрофанова 2008; Mitrofanova et al. 2007]. В данной статье обсуждается один из аспектов данного проекта, а именно, проблема автоматизации извлечения терминов, анализа и систематизации терминологии корпусной лингвистики.

2. Исходные лингвистические данные

В сос­тав русскоязычного корпуса текстов по корпусной лингвистике входят тексты различной тема­тики, отра­жающие ши­ро­кий спектр проб­лем корпусной лингвис­тики: опре­деление кор­пус­ной линг­висти­ки как особой области научной дея­тельности, противопо­став­ле­ние её другим направле­ниям линг­вис­тики и язы­ковой ин­же­нерии; определение корпуса в соотне­сённости с дру­ги­ми ти­пами линг­вис­ти­чес­ких данных; различные аспекты созда­ния и исполь­зования корпусов; проце­дуры, выпол­няемые при работе с корпу­сом (разметка, типы раз­метки, поиск в корпусе); типология кор­пу­сов; корпусы текстов с позиций разра­бот­чиков и пользова­те­лей; взаимодей­ствие корпу­сов и корпус-ориен­ти­рован­ных линг­вис­тических ресурсов и пр. Ядро корпуса составляют материалы научных конфе­ренций по корпусной лингвистике [КЛ и ЛБД 2002, КЛ 2004, КЛ 2006, КЛ 2008], отдельные статьи, учебные пособия, монографии и другие научные материалы. Корпус периодически попол­няется новыми документами. Материалы корпуса хра­нят­ся в текстовом формате, наряду с этим у разработчиков корпуса су­щес­твует доступ к файлам с оригинал-макетами. В ходе подго­товки текстов статей к размещению в корпусе производится 1) графематический анализ, направленный на выде­ление и удаление нетекстовых эле­мен­тов (таблиц, ри­сунков, формул, гиперссылок, числовых данных и пр.) и ино­язычных вкрап­лений, 2) морфологи­ческий анализ (лем­мати­зация, полная морфологическая разметка), 3) метаразметка, которая предпо­ла­гает фик­са­цию основных пара­метров каждой статьи в её паспор­те. Наряду с библиографи­ческим описанием эксперты включают в число параметров статьи и наборы из 10 выделяемых вручную терми­нов-дескрипторов, позволя­ющих диагности­ровать темати­ческую при­над­леж­­ность текста и проверить данные автоматического анализа. Например:

Текст:

И.С. Ни­колаев, А.С. Герд, И.В. Аза­рова. «Корпус данных в проекте “Комплекс­ная модель форми­ро­вания культурного ландшафта и историко-культурной зоны Ин­германландии на Северо-Западе России по данным топонимики”» (КЛ 2006).

Набор терминов-деск­рип­торов:

[данные, источник, кар­то­тека, кор­пус, культур­ный, ландшафт, поиск, словарь, то­по­ним, топо­ни­мический]

При формировании наборов терминов-дес­крип­торов учи­ты­вались не только частотность терминов в тексте, но и их содер­жательный вес. Термины-дескрипторы пред­став­лены в нормали­зованном виде: в наборе при­сут­ствует лемма, которая соотносится со входящими в текст словоформами, например: корпус (корпус, корпуса, корпусу, корпусом, корпусе, корпусы, корпусов, корпу­сам, корпусами, корпусах) и пр.

Связи терминов-дескрипторов в текстах корпуса исследовались с помощью инструмента автомати­ческой классифи­ка­ции лексики (АКЛ) [Виноградова, Митрофанова, Паничева 2007]. Основным принципом АКЛ яв­ля­ется возможность определения содержательной близости лекси­ческих единиц при сопоставлении их синтагма­ти­ческих свойств (иначе говоря, их сочетаемости с другими элементами контекста, дистрибуции). Программа АКЛ предус­матривает предвари­тель­ную обработку текстов, представление множест­ва контекстов употребле­ния ис­сле­дуемых лексем как точек или векторов дис­три­буций в N-мер­ном пространстве, вычисление семанти­чес­ких расстояний между исследуе­мыми лексе­мами, кластерный анализ, при котором ис­поль­зуются данные о семантических расстоя­ниях. Чем ближе синтагмати­ческие свойства лек­сем (а стало быть, чем ближе их зна­чения), тем меньше расстояние между векторами их дистри­буций и тем больше вероятность их объе­динения в один кластер. Сформированные таким образом кластеры лексем допус­ка­ют даль­нейшую лингвис­тическую ин­тер­пре­тацию. При работе с текстами корпуса по корпусной лингвистике процедуры АКЛ производились в двух режимах: структурирование терминов-дескрипторов в наборах и выявление классов условной эквивалентности для каждого из терминов-дескрипторов.

В ходе экспериментов производилась иерархическая класте­ризация терминов-дескрипторов в наборах для каждой из статей в корпусе; в качестве меры расстояния использовался косинус угла между векторами дис­трибуций (Cos). Результаты кластеризации выводятся в виде многоуровневого списка слов в виде ско­боч­ной записи, которая отражает последовательность объединения терминов-дескрипторов в кластеры. Наряду с этим пользователь получает данные о час­тотности исследуемых лексем в обраба­тываемом тексте, а также зна­чения расстоя­ний во всевозможных парах лексем из анали­зиру­емого набора. Например:

Текст: Е.Л. Алексеева, А.М. Лаврентьев, И.В. Азарова, Л.А. Захарова «Разметка корпу­са древнерусских агиографических текстов» (КЛ 2004)

Кластерная структура набора терминов-дескрипторов:

[корпус, разметка] Cos = 0,375

[агиографический, русский] Cos = 0,284

[житие, текст] Cos = 0,277

[[агиографический, русский] [житие, текст]] Cos = 0,259

[[корпус, разметка] [[агиографический, русский] [житие, текст]]] Cos = 0,251

[представление [[корпус, разметка] [[агиографический, русский] [житие, текст]]]] Cos = 0,219

[[представление [[корпус, разметка] [[агиографический, русский] [житие, текст]]]] электронный] Cos = 0,258

[рукопись [[представление [[корпус, разметка] [[агиографический, русский] [житие, текст]]]] электронный]] Cos = 0,171

[словоформа [рукопись [[представление [[корпус, разметка] [[агиографи­ческий, русский] [житие, текст]]]] электронный]]] Cos = 0,138

Абсолютные частоты терминов-дескрипторов:

агиографический (f = 4), жи­тие (f  = 13), русский (f  = 7), текст (f  = 47), корпус (f  = 8), электронный (f  = 8),
рукопись (
f  = 15), словоформа (f  = 15), представление (f  = 7), разметка (f  = 5)

С помощью программы АКЛ для каждого из терминов-дескрипторов в наборах производится авто­мати­чес­кое формирование классов условной эквива­лентности, включающих слова с близкой дистрибуцией в тексте. Близость дистрибуции также оценивается на основе значений Cos. Например:

Текст:

В.П. Захаров. Корпусная лингвистика (Захаров 2005)

Классы условной эквивалентности термина-деск­рип­тора разметка (объем классов – 20 слов):

Обработка текста с лемматизацией

Обработка текста без лемматизации

РАЗМЕТКА                          Cos

ПРОСОДИЧЕСКИЙ           0,375

БОЛЬШИНСТВО                0,288

АНАФОРИЧЕСКИЙ           0,288

ВВОДИТЬСЯ                        0,252

ДОКУМЕНТ                         0,251

ВЫДЕЛЕНИЕ                       0,250

МНОЖЕСТВО                     0,240

ИНТОНАЦИЯ                      0,226

РЕФЕРЕНТНЫЙ                  0,214

РЕАЛЬНО                             0,213

УДАРЕНИЕ                          0,212

РАЗ                                        0,198

МЕСТОИМЕННЫЙ            0,198

ИНОСТРАННЫЙ                                0,197

УПОТРЕБЛЯТЬСЯ              0,196

НАЛИЧИЕ                            0,185

ДОСЛОВНО                         0,180

ОГОВОРКА                          0,167

ПОВТОР                               0,167

разметка                              Cos

просодическая                      0,362

фиксирует                            0,285

документа                            0,280

абзацев                                  0,280

выделение                              0,279

местоименные                     0,271

референтные                        0,270

предложений                        0,265

annotation                              0,255

анафорическая                     0,254

разговорной                          0,253

структурная                        0,251

корпусах                                0,250

просодических                      0,230

интонацию                           0,224

частеречная                         0,210

ударение                                0,207

описывающие                        0,189

оказаться                             0,168

По-видимому, последовательность формирования кластеров тер­ми­нов-дескрипторов, а также состав выде­ленных для них классов условной эквивалентности отражает важнейшие парадигматические и синтагма­ти­ческие связи элементов ис­сле­дуемых текстов. Тем самым, в про­цессе создания модели предметной области корпусной лингвистики производится обобщение выявленных связей терминов-дес­крипторов до родовидовой ие­рар­хии понятий. В целях уточнения характера связей между понятиями, вы­ра­женными исследу­емыми терми­нами, была проведена отдельная серия экспериментов. Процедуры отбора и кластери­зации дескрипторов, ха­рак­те­ри­зу­ющих корпусную лингвистику, позволяют перейти с терминологического уровня на онтоло­гический и сформировать упорядоченное множество катего­рий, которые необходимо вклю­чить в формальную онто­логию рассма­трива­емой области знаний. Формальная онтология по корпусной лингвистике относится к классу терминологических онтологий [Sowa]. В качестве пред­ставителей онтологических кате­горий были отоб­ра­ны те из терминов-дескрипторов, которые ока­за­лись реле­вант­ны не только для отдельных текстов, но для предметной области в целом, обла­дают наибольшей часто­той, попадают в ядра полученных класте­ров, соответ­ствуют исходным понятиям, выделенным на основе экс­пертных описа­ний. Всего было зарегистрировано 335 различ­ных терминов-дескрипторов. Вероят­но, такие тер­мины-дес­крип­торы, как кор­пус, текст, данные, размет­ка, тег, поиск, слово, лемма, слово­форма, контекст и пр. пред­став­ляют понятийное ядро предметной области.

·          Предметная область «Корпусная лингвистика»

·          корпус данных

o         корпус текстов

o         тип корпуса

·          работа с корпусом

o         разработка корпуса

§           отбор данных

§           оцифровка данных

§           разметка корпуса

§           корпус-менеджер

o         использование корпуса

§          поиск по корпусу

©       запрос к корпусу

ù         терминальная цепочка символов

ù         регулярное выражение

ù         лемма

ù         тег

©       результат работы с корпусом

ù         конкорданс

ù         контекст

ù         словоуказатель

ù         статистика

Формальная онтология по корпусной лингвистике реа­лизо­вана в онторедакторе Protégé [Виноградова, Мит­рофанова 2008]. Выше приведены важней­шие категории формальной онтологии, упорядоченные в иерар­хию.[2] В отдельных полях формальной онтологии даются общепри­нятые дефиниции терминов-дескрипторов, фикси­руются синони­ми­ческие отно­шения между терминами-дескрипторами (напри­мер, разметка, аннотация, анно­ти­рование и пр.). Кроме того, каждая категория формальной онтологии имеет атрибут тексты. Этот атрибут необходим для того, чтобы формальная онтология могла быть использована для тематической рубри­кации до­ку­мен­тов из русскоязычного корпуса текстов по корпусной лингвис­тике. В качестве экземпляров данного атрибута приведены биб­лио­графические сведения о тех статьях из корпуса, в которых встретились термины-дескрипторы, соответс­тву­ющие онтологи­чес­ким категориям. Например:

Категория: алгоритм

Тексты: П. Макагонов, М. Александров, А. Гельбух «Формулы проверки подобия слов с обучением на примерах: построение и применение» (КЛ 2004); К.Р. Пиотровская, Р.Г. Пиотровский, Ю.В. Романов «Вторая когнитивная рево­люция – инженерная и корпусная лингвистика» (КЛ и ЛБД 2002).

Тем самым, применение формальной онтологии предметной области кор­пус­­ной лингвистики при работе с соответствую­щим корпусом текстов должно повысить эффективность поиска данных.

С расширением русскоязычного корпуса текстов должно происходить пополнение списка уже зарегистри­рованных терминов и обновление существующей формальной онтоло­гии, на основе которой в дальнейшем планируется создание тезауруса по корпусной лингвистике. В связи с этим было принято решение изучить возможности частичной автоматизации терминологической работы и затем оптимизи­ровать процедуру обра­ботки документов из корпуса текстов по корпусной лингвистике.

3. Методы и инструменты анализа терминологии

Существует три основных класса методов извлечения терминологии из специального корпуса текстов: линг­вистические методы, статистические методы и комбинированные методы.

Лингвистические методы в основном предполагают ручную обработку документов в специальном корпусе текстов, в ходе которой эксперты выявляют выражения, рассматриваемые как предполагаемые однословные тер­мины и терминосочетания. Для выделения терминосочетаний рекомендуется использовать лексико-грам­мати­ческие шаблоны однословных и неоднословных терминов. Целе­сообразно также использовать систему фильтров (стоп-словарь) для отсеивания нетерминов.

Применение статистических методов опирается на представление о том, что термины, как правило, это наиболее частотные слова и словосочетания, встречающиеся в специальных текстах и выражающие понятия предметной области. Терминосочетания обычно соотносятся с n-граммами (двух-, трех-, четырехчленными со­че­таниями), характеризуются высокой степенью устойчивости. В качестве мер, пригодных для оценки устой­чивости словосочетаний в специальных текстах, следует упомянуть MI-score, t-score, Log-Likelihood, C-value, критерий χ2 и ряд других.

Во многих исследованиях, проводимых для русского и других славянских языков (см., например: [Брас­лавский, Соколов 2006, 2007, 2008; Добров и др. 2003; Kupњж 2007; Urbaсska, Piechociсski 2007] и др.) прак­тикуется комбинированный подход, заключающийся в (полу)автомати­ческой обработке специаль­ных кор­пу­сов текстов. Комбинированные методы анализа терминологии предпола­гают совместное использова­ние аппа­рата лексико-грамматических шаблонов, методов сборки терминосоче­таний, системы фильтров, а так­же статис­ти­ческого аппарата.

Сочетание лингвистических и статистических приемов анализа документов в корпусе применяется в авто­ма­тизированной лексикографической среде Alex+ [Сидорова 2008(а), 2008(б)]. Alex+ представляет собой техно­логический комплекс для создания и поддержки предметно-ориентированных словарей, позволяющий выде­лять термины и терминосочетания из текстов по лексико-грамматическим шаблонам, получать статисти­ческие данные о встречаемости терминов и терминосочетаний в обрабатываемых текстах, автоматически пополнять словарь на основе обучающей выборки. В состав комплекса Alex+ входят модуль морфологического анализа системы Диалинг, модуль сборки терминосочетаний по шаблонам, модуль просмотра конкорданса, модуль тематизации, модуль выявления стоп-слов. Преимущества подготовки словарей в системе Alex+ залючаются в возможности разнообразного наполнения словарей, допускающих включение однословных и неоднословных терминов, в возможности представления нескольких типов данных о терминах (терминообразующие признаки, семантические признаки – соотнесенность с понятиями в иерархии классов, статистические признаки) и др. В Alex+ допуска­ется построение формальной онтологии (или задание иерархии тем) параллельно со словарем, при этом словарь и иерархия тем могут применяться для автоматической классификации текстов. Существует также возможность обработки несловарных словоформ и др. Тем самым, параметры авто­ма­тизированной лексикографической среды Alex+ соответствуют целям обсуждаемого исследования, в связи с чем некоторые функции данного комплекса были задействованы при анализе терминологии в русскоязычном корпусе текстов по корпусной лингвистике.

4. Описание однословных и неоднословных терминов с помощью лексико-грамматических шаблонов

В ходе анализа однословных терминов и терминосочетаний были применены лексико-грамматические шаб­лоны (ср. мор­фологические шаблоны [Сидорова 2008(а), 2008(б)], лексико-синтаксические шаблоны [Больша­кова и др. 2007; Васильева 2004; Рабчевский и др. 2008]). Лексико-грамматические шаблоны служат для описа­ния классов языковых выражений. В отдельном лексико-грамматическом шаблоне указываются существенные характе­рис­тики множества лексем, которые входят в языковые выражения, принадлежащие классу, также при­водятся возможные морфологичес­кие формы лексем и, при возможности, синтаксические условия упо­тре­б­ле­ния языкового выражения, построенного в соответствии с шаблоном (например, правила согласования мор­фо­ло­гических признаков лексем).

Лексико-грамматические шаблоны были задействованы при выделении однословных и неоднословных терминов в автоматизированной лексикографической среде Alex+ [Сидорова 2008(а), 2008(б)].

Например, в результате обработки текста [Захаров 2005] с последующим отсеиванием стоп-слов (служеб­ных слов, местоимений, числительных и др.), а также слов, не являющихся терминами (например, миро), в списке однословных терминов можно обнаружить существительные, прилагательные, глаголы:

N: выборка, выдача, данные, грамматика, документ, единица, жанр, запрос, инструмент, классификация, кодирование, лемма, массив, метаданные, метка, морфология, неоднозначность, поиск, пользователь, разметка, репрезентативность, составитель, текст, частота и др.;

Adj: автоматизированный, информационно-поисковый, корпусной, корпусный, лингвистический и др.;

V: автоматизировать, размечать и др.

Среди неоднословных терминов обнаружены словосочетания, соответствующие следующим основным лексико-грамматическим шаблонам:

Adj+N: автоматизированная система, автоматическая обработка / разметка / система, автоматический анализ / режим, анафорическая / морфологическая / семантическая / синтаксическая / структурная / просодичес­кая разметка, совместная встречаемость, программное обеспечение, формальный язык, языковой корпус, языковая единица и др.;

Adj+N+N: автоматическая обработка текста, компьютерная база данных, компьютерная модель языка, лингвистический корпус текстов, представление корпуса текстов, формальный язык разметки и др.;

N+Adj+N: банк синтаксических структур, массив языковых данных, обработка типовых запросов и др.;

N+Prep+Adj+N: корпус с синтаксической разметкой, тексты на естественном языке, тексты на машинном носителе и др.;

N+Prep+N: доступ к корпусу, наука о языке, поиск в корпусе, сведения об авторе и др.;

N+Prep+N+N: поиск с указанием контекста и др.;

N+N: обучение языку, база данных, массив данных / текстов, вид разметки, источник данных, кодирование информации, корпус данных / текстов, модель языка, параметр разметки / кодирования / текста, разметка корпуса / документа / текста, размер корпуса, распознавание речи, тип корпуса / данных / разметки / текста, формат выдачи / данных и др.;

N+N+N: вывод результатов поиска, стандарт представления метаданных / данных и др.;

Adj+Adj+N: устная разговорная речь и др.

Справедливо будет отметить, что данные словосочетания различаются не только по степени сложности (двух-, трёх-, четырёхкомпонентные терминосочетания), но также по устойчивости (особенно это касается трёх- и четырёхкомпонентных сочетаний, которые сами по себе содержат однословные термины и двухкомпо­нент­ные терминосочетания). Для определения устойчивости сочетаний также необходимо обращаться к статис­ти­ческим критериям [Браславский, Соколов 2006, 2007, 2008; Добров и др. 2003; Захаров, Хохлова 2008; Чанышев 2008; Khokhlova 2008]. Самый важный вопрос, возникающий при анализе массивов однословных и неоднословных терминов – это вопрос об оценке степени терминологичности рас­сматри­ваемых единиц. Один из путей – определение индекса специфичности для данной совокупности текстов [Шайкевич 2003]. Решающее слово, вместе с тем, остаётся за специалистами-терминоведами и – в нашем случае – за экспертами в области корпусной лингвистики.

5. Описание терминообразующих контекстов с помощью лексико-грамматических шаблонов

Расширенные лексико-грамматические шаблоны успешно используются для выявления и описания терми­но­образующих контекстов. Терминообразующие контексты, как правило, содержат термин и его толкование, синонимы, переводные эквиваленты и т.д., при этом в контексте существуют определенные маркеры, позво­ляющие опознать сам термин и связанную с ним информацию.

Структура и типовое наполнение контекстов, содержащих толкования терминов, могут быть представлены, например, в следующих лексико-грамматических шаблонах:

NP(term) <понимать/пониматься> NP(def):

Под репрезентативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текс­тов различных периодов, жанров, стилей, авторов и т.п. [Захаров 2005];

NP(def) <называть/называться/иметь название> NP(term):

Это кодирование информации имеет название метаразметка [Захаров 2005];

NP(term) <заключаться в> NP(def):

Разметка (tagging, annotation) заключается в приписывании текстам и их компонентам специальных меток (tag, tags): внешних, экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика; сведения об авторе могут включать не только его имя, но также возраст, пол, годы жизни и многое другое [Захаров 2005];

NP(term) <представлять собой> NP(def):

устойчивые словосочетания представляют собой с семантической точки зрения неделимую смысловую единицу… [Захаров 2005].

Контексты, выражающие различные отношения между терминами, могут быть обобщены, например, в сле­дую­щих лек­си­ко-грамматических шаблонах:

NP(term) <, или> NP(term) (синонимия):

синтаксического анализа, или парсинга[Захаров 2005];

NP(term) <являться результатом> NP(term) (отношение «процесс – результат»):

синтаксическая разметка, являющаяся результатом синтаксического анализа, или парсинга (англ. parsing)… [Захаров 2005];

NP(term) <обеспечивать> NP(term) (отношение «объект – назначение»):

…конвертирование размеченных текстов в структуру специализированной лингвистической информационно-поис­ковой системы (corpus manager), обеспечивающей быстрый многоаспектный поиск и статистическую обработку [Захаров 2005];

NP(term) <включать (в себя)> NP(term) (количественные, гипонимические, мереологические, имплика­тив­ные и др. отношения):

количественные отношения: Корпусы нового поколения включают сотни миллионов слов, поэтому выдвигаются прин­ципы разработки систем, которые бы минимизировали вмешательство человека [Захаров 2005];

гипонимические отношения: Метаописание текстов корпуса включает как содержательные элементы данных (биб­лио­графические данные, признаки, характеризующие жанровые и стилевые особенности текста, сведения об авторе), так и формальные (имя файла, параметры кодирования, версия языка разметки, исполнители этапов работ) [Захаров 2005].

Тем самым, анализ терминообразующих контекстов способствует установлению системных связей терми­нов в терминосистеме, что позволяет уточнять состав словника и пополнять блок дефиниций терминоло­ги­ческого тезауруса.

В блок дефиниций тезауруса включаются толкования стандартных и авторских терминов, зафиксированные в текстах корпуса (как в экспертных, так и в исследовательских описаниях) или в других источниках энцикло­педического характера. Вместе с тем, «готовые» толкования удается подобрать лишь к наиболее распрос­тра­нённым терминам, для остальных необходимо составлять дефиниции, и в подобных случаях обращение к лексико-грамматическим шаблонам также весьма уместно, так как это позволяет сохранить единообразие структуры толкований.

В дальнейшем при решении задач поиска в корпусе текстов и автоматизированного пополнения фор­мальной онтологии возможно использование специализированного языка для записи лексико-грамматичес­ких шаблонов, например, языка LSPL (Lexical-Syntactic Pattern Language) [Большакова и др. 2007; Васильева 2004; Рабчевский и др. 2008].

6. Итоги исследования и направления дальнейшей работы

В ходе исследования были оценены возможности различных стратегий автоматизации работ по извлечению и систематизации терминологии из русскоязычного корпуса текстов по корпусной лингвистике.

Применение инструмента АКЛ, реализующего процедуры кластерного анализа в двух режимах, позволило выявить струк­тур­ную организацию терминов-дескрипторов в корпусе текстов по корпусной лингвистике. По­лу­ченные дан­ные легли в основу формальной онтологии предметной области, охватывающей базовые понятия и термины кор­пус­ной лингвистики.

Пополнение базового списка терминов и формирование списка терминосочетаний ус­пеш­но проведено с помощью автома­тизи­рованной лек­си­ко­графической среды Alex+. Проанализированы основ­ные лексико-грам­матические шабло­ны для однослов­ных и неоднословных терминов, встречающихся в текстах корпуса. Аппарат лексико-грамма­ти­ческих шабло­нов также использовался в изучении структуры термино­обра­зующих кон­текстов.

Результаты, полученные на нынешнем этапе работы, будут использованы при разработке тезауруса по кор­пусной лингвистике. Данный лингвистический ресурс планируется включить в состав портала знаний по ком­пью­терной лингвистике, создаваемого коллективом российских учёных (Москва, Новосибирск, Санкт-Петер­бург) [Соколова и др. 2008].

Список литературы

1.        Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. Лексико-синтаксические шаблоны в за­да­чах автоматической обработки текста // Компьютерная лингвистика и интеллектуальные технологии. Труды между­на­родной конференции «Диалог–2007». М.: 2007. URL: http://www.dialog-21.ru/dialog2007/materials/html/11.htm

2.        Браславский П.И., Соколов Е.А. Автоматическое извлечение терминологии с использованием поисковых машин интер­нета // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог–2007». М.: 2007. URL: http://www.dialog-21.ru/dialog2007/materials/html/14.htm

3.        Браславский П.И., Соколов Е.А. Сравнение пяти методов извлечения терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог–2008». М.: 2008. URL: http://www.dialog-21.ru/dialog2008/materials/html/11.htm

4.        Браславский П.И., Соколов Е.А. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог–2006». М.: 2006. URL: http://www.dialog-21.ru/dialog2006/materials/html/Braslavski.htm

5.        Васильева Н.Э. Шаблоны употреблений терминов и их использование при автоматической обработке научно-техни­ческих текстов // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог–2004». М.: 2004. URL: http://www.dialog-21.ru/Archive/2004/Vasiljeva.htm

6.        Виноградова Н.В., Митрофанова О.А. Формальная онтология как инструмент систематизации данных в русскоязычном корпусе текстов по корпусной лингвистике // Труды международной конференции «Корпусная лингвис­тика – 2008». СПб.: 2008.

7.        Вино­гра­дова Н.В., Митрофанова О.А., Паничева П.В. Авто­ма­ти­­чес­кая класси­фи­ка­ция терминов в русскоязычном кор­пу­се текстов по корпусной лингвистике // Труды девятой Всероссийской научной конфе­рен­ции «Элек­трон­ные библио­теки: Перспективные методы и техно­ло­гии, электрон­ные коллекции» (RCDL–2007). Переславль-Залесский: 2007. URL: http://www.rcdl.ru//papers/2007/paper_31_v1.pdf

8.        Герд А.С. Язык науки и техники как объект лингвистического изучения // А.С. Герд. Прикладная лингвистика. СПб.: 2005.

9.        Добров Б.В., Лукашевич Н.В., Сыромятников С.В. Формирование базы терминологических словосочетаний по текстам пред­метной области // Труды пятой Всероссийской научной конференции «Электронные библиотеки: Перспективные методы и технологии, электронные коллекции» (RCDL–2003). СПб.: 2003. URL: http://www.cir.ru/docs/ips/publications/2003_rcdl_thes_creation.pdf

10.     Захаров В.П. Корпусная лингвистика / Учебно-методическое пособие. СПб.: 2005.

11.     Захаров В.П., Хохлова М.В. Статистический метод выявления коллокаций // Языковая инженерия в поиске смыслов. XI Всероссийская объединенная конференция «Интернет и современное общество». Санкт-Петербург: 2008.

12.     КЛ и ЛБД 2002 – Доклады научной конференции «Корпусная линг­­вис­тика и лингвистические базы данных». СПб.: 2002.

13.     КЛ 2004 – Труды международной конференции «Корпусная лингвис­тика – 2004». СПб.: 2004.

14.     КЛ 2006 – Труды международной конференции «Корпусная лингвис­тика – 2006». СПб.: 2006.

15.     КЛ 2008 – Труды международной конференции «Корпусная лингвис­тика – 2008». СПб.: 2008.

16.     Рабчевский Е.А., Булатова Г.И., Шарафутдинов И.М. Формализм записи лексико-синтаксических шаблонов в задаче автоматизации процесса построения онтологий // Труды десятой Всероссийской научной конференции «Электронные библиотеки: Перспективные методы и технологии, электронные коллекции» (RCDL–2008). Дубна: 2008. URL: http://rcdl2008.jinr.ru/pdf/103_106_paper10.pdf

17.     Сидорова Е.А. Многоцелевая словарная подсистема извлечения предметной лексики // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог–2008». М.: 2008(а). URL: http://www.dialog-21.ru/dialog2008/materials/html/74.htm

18.     Сидорова Е.А. Подход к построению предметных словарей по корпусу текстов // Труды международной конференции «Корпусная лингвистика–2008». СПб.: 2008(б).

19.     Соколова Е.Г., Кононенко И.С., Загорулько Ю.А. Проблемы описания компьютерной лингвистики в виде онтологии для портала знаний // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конферен­ции «Диалог–2008». М.: 2008. URL: http://www.dialog-21.ru/dialog2008/materials/html/75.htm

20.     Чанышев О.Г. Автоматическое построение терминологической базы знаний // Труды десятой Всероссийской научной кон­фе­ренции «Электронные библиотеки: Перспективные методы и технологии, электронные коллекции» (RCDL–2008). Дубна: 2008. URL: http://rcdl2008.jinr.ru/pdf/085_092_paper8.pdf

21.     Шайкевич А.Я. Статистический словарь языка Достоевского. Введение. 2003. URL: http://nature.syktsu.ru/cfrl/dost_cd0/introdw.htm

22.     Backer P., Hardie A., McEnery T. A Glossary of Corpus Linguistics. Edinburgh University Press: 2006.

23.     Khokhlova M. Extracting Collocations in Russian: Statistics vs. Dictionary // Proceedings of 9th International Conference on Textual Data Statistical Analysis (JADT 2008). Lyon: 2008.

24.     Kupњж A. Extraction automatique de termes à partir de textes polonais // TALN 2007. Toulouse: 2007. URL: http://llf.linguist.jussieu.fr/llf/Gens/Kupsc/kupsc-taln07.pdf

25.     Levická J. Terminology and Treminological Activities in the Present-Day Slovakia // Computer Treatment of Slavic and East Euro­pean Languages: Fourth International Seminar. Bratislava, Slovakia, 25–27 October 2007. Proceedings. Bratislava: 2007.

26.     Mitrofanova O., Panicheva P., Savitsky V. Automatic Word Clustering in Russian Texts based on Latent Semantic Analysis // Computer Treatment of Slavic and East European Languages: Fourth International Seminar. Bratislava, Slovakia, 25–27 October 2007. Proceedings. Bratislava: 2007.

27.     Љimkovб M. Vэberovэ slovnнk termнnov z poинtaиovej a korpusovej lingvistiky. 2006. URL: http://korpus.juls.savba.sk/publications/block1/2006-simkova-vyberovy%20slovnik%20terminov/2006-simkova-vyberovy%20slovnik%20terminov.pdf

28.     Sowa J.F.Building, Sharing, and Merging Ontologies. URL: http://www.jfsowa.com/ontology/ontoshar.htm

29.     Urbaсska D., Piechociсski D. Automatic Term Recognition in Polish Texts // Computer Treatment of Slavic and East European Languages: Fourth International Seminar. Bratislava, Slovakia, 25–27 October 2007. Proceedings. Bratislava: 2007.



[1] Работа выполнена при частичной финансовой поддержке гранта РГНФ (проект номер 07-04-00161а).

[2] В рамках данной статьи не ставится задача пол­ного описания иерархии категорий фор­мальной онтологии в силу её объём­ности.