О ПРОЕКТЕ ЛИНГВИСТИЧЕСКОГО ПРОЦЕССОРА ДЛЯ ОБРАБОТКИ ИНФОРМАЦИИ ИЗ СЕТИ ИНТЕРНЕТ[1]
Н. Н. Перцова
Научно-исследовательский вычислительный центр
npertsova@rambler.ru
Н. В. Перцов
ABBYY SOFTWARE HOUSE
Nikolay_P@abbyy.com
Ключевые слова: лингвистический процессор, онтологический предикат, поверхностно-синтаксическое представление, глубинно-синтаксическое представление, семантическое представление
Рассматривается проект лингвистического процессора, призванного строить онтологические представления для английских текстов по экономике из Интернета. Сообщается о разработке предварительной версии процессора; ведется работа над новой версией.
В докладе рассматривается проект лингвистического процессора, призванного строить онтологические представления для текстов по экономике на английском языке, взятых из сети Интернет. К настоящему времени подготовлена предварительная версия процессора и ведется разработка его нового варианта. Тексты выбираются из сети Интернет по запросам, написанным на формализованном языке, приближенном к английскому. Поиск релевантных текстов осуществляется по ключевым словам с привлечением информации тезаурусов. Лингвистический процессор выявляет фрагменты, содержащие запрашиваемую информацию, и переводит их на формальный семантический язык. При дальнейшей обработке однотипные факты, извлеченных процессором из разных документов, объединяются в онтологические карты (соответствующие программы относятся к компетенции группы специалистов из ВЦ РАН под руководством В. Ф. Хорошевского).
В разработанной к настоящему времени версии системы лингвистический процессор осуществляет анализ отобранных текстов, последовательно строя их представления на традиционных уровнях:
(I) морфологическое представление;
(II) поверхностно-синтаксическое представление;
(III) глубинно-синтаксическое представление;
(IV) семантическое представление;
I – II. Морфологическое и поверхностно-синтаксическое представления
Для построения (I) и (II) были приобретены алгоритмы и программы морфологического и поверхностно-синтаксического анализа одной из систем машинного перевода. Выяснилось, что вопреки ожиданиям правильные структуры получают лишь около трети входных фраз. Преодолеть часть ошибок удалось с помощью ряда разработанных нами эвристических правил, позволяющих в некоторых случаях строить правильные глубинные структуры на основе неправильных поверхностных. Например, конструкции, состоящие из двух существительных, разделенных запятой (Johnson, president vs. Johnson, Smith) анализируются в этой системе то как аппозитивные, то как сочинительные – без всякой видимой логики. Для исправления этого недостатка приходится условно уравнивать два разных типа синтаксических отношений и производить их интерпретацию в соответствии с семантическими классами слов: в словосочетании Johnson, president представлены разные классы (NAME и POSITION), и потому между ними постулируется отношение идентификации, а в словосочетании Johnson, Smith оба существительных относятся к классу NAME, и потому между ними постулируется сочинительное отношение (с дальнейшим развертыванием сочинения). Еще одна распространенная ошибка исходного синтаксического анализатора – неправильный выбор хозяина именных и предложных групп. Например, во фразе Tommy Bennett is Senior Vice President of Business Development at Computer Associates International, Inc. предлог at (тем самым, и вся предложная группа at Computer Associates International, Inc.) анализируется как подчиненныйузлу Development, а не President. Для исправления этой и аналогичных ошибок пришлось отказаться от «чистых» деревьев зависимостей и ввести в грамматику понятие составляющей – тогда указанная предложная группа считается зависящей от вершины словосочетания, обозначающего должность, а именно, от слова President. Такого рода «заплатки» исправляют лишь часть ошибок исходного синтаксического анализатора.
III. Глубинно-синтаксическое представление
Глубинно-синтаксическое представление фразы отличается от поверхностно-синтаксического отсутствием некоторых узлов (например, артиклей и сильно управляемых предлогов и союзов), наличием дополнительных узлов, свертыванием определенных поддеревьев в единые узлы и преобразованием некоторых конструкций. Если поверхностных синтаксических отношений используется более 70, то на глубинном уровне им соответствует лишь около 20 отношений.
Для перехода от поверхностного представления к глубинному построены правила глубинизации. Правило перехода от фрагмента – пары или большего количества узлов поверхностно-синтаксической структуры – к соответствующему фрагменту глубинно-синтаксической структуры состоит из двух частей, соединенных стрелкой. Как глубинная, так и поверхностная синтаксическая связь – пара узлов, соединенных синтаксическим отношением, – изображается в виде двухместного предиката, помеченного именем данного синтаксического отношения (поверхностные отношения маркируются “S-“, глубинные отношения – “D-“). В качестве первого и второго аргументов предикатов выступает главный и зависимый члены этой пары. Если в левой или правой части правила выступает более одной связи, то соответствующие предикаты объединяются знаком конъюнкции (&).
Правила принадлежат к разным эшелонам – в соответствии с типом древесных преобразований, в них осуществляемых, и со сложностью этих преобразований. Выделяются следующие 7 эшелонов – в условном порядке от более простых к более сложным. (Ниже буквы X, Y, …, стоящие в конце латинского алфавита, обозначают узлы дерева; буквы R и D – возможно с цифровыми индексами – обозначают соответственно поверхностные и глубинные синтаксические отношения. Запись R(X,Y) означает, что узлы X и Y связаны отношением R.)
- (Э1) Одинарное переименование связей
Cвязь переименовывается:
R(X,Y) è D(X,Y)
- (Э2) Двойное переименование связей
Одновременно переименовываются две связи
R1(X,Y) & R2(Z,W) è D1(X,Y) & D2(Z,W)
- (Э3) Бесконтекстное стяжение двух узлов
Два узла X и Y связаны некоторым отношением, при этом X подчиняет Y. В результате стяжения связь между X и Y заменяется на узел, стоящий в структуре на месте X и содержащий лексему узла Y(этому соответствует запись X{Y}). При этом у узла X сохраняются его слуги, и ему передаются слуги узла Y в поверхностной структуре. Например, аналитическая конструкция was reading преобразуется в узел READ.
R(X,Y) è X{Y}
- (Э4) Изъятие промежуточного узла между двумя другими узлами
Узел Y, промежуточный между двумя другими узлами X и Z, первый из которых подчиняет Y, а второй от него зависит, изымается из структуры, узлы X и Z соединяются глубинным отношением D. При этом слуги X и Z остаются при них, слуги узла Y подчиняются узлу Z. Например, конфигурация insist on departure преобразуется в пару связанных узлов INSIST и DEPARTURE.
R1(X,Y) & R2(Y,Z) è D(X,Z)
- (Э5) Изъятие концевого узла
Имеются три связи: от X к Y, от Y к W и от Y к Z; при этом узел W является концевым в дереве, т. е. от него не зависят никакие другие узлы. В результате преобразования узел W изымается из структуры. Пример: при наличии двойного союза either …or концевой узел either изымается.
R1(X,Y) & R2(Y,Z) & R3(Y,W) & not Ri(W,#) è D1(X,Y) & D2(Y,Z)
- (Э6) Переименование связей с меной направления
Для пары узлов X и Y происходит мена направления зависимости (X из хозяина становится слугой Y) и переименование типа зависимости. Хозяин X-а становится хозяином Y-а, а слуги X и Y остаются на своих местах. Например: lake ---> Huron è lake <--- Huron.
R(X,Y) è D(Y,X)
- (Э7) Сложные преобразования
Могут состоять из совокупности любых предшествующих преобразований.
Приведем пример правила, в результате которого происходит добавление фиктивного узла (ниже помечен астериском):
S-ADVERB-APPOS(X,Y) & PREDIC(Z,X) è D-ACCOMP(Z,W<”BE*”>) & D-SUBJECT(W,X) & D-1-OBJECT(W,Y)
A kind man [Y], John [X] could [Z] not leave her. è Being* [W] a kind man [Y], John [X] could [Z] not leave her.
- IV. Семантическое представление
Семантическое представление фразы складывается из извлеченных из нее онтологических предикатов – типа HasDuty(X,Y) [«лицо X занимает должность Y»], HasFounder(X,Y) [«организация X имеет в качестве своего основателя лицо или организацию Y»], Invests(X,Y) [«лицо или организация X вкладывает средства в организацию или сферу Y»], EmployeeO({X,Y) [«лицо X служит в организации Y»] и т. п.. Разрабатываются правила перехода от глубинно-синтаксического представления к семантическому. К семантическому компоненту процессора относятся, в частности, правила семантической унификации (например, приведение синонимичных выражений к единому виду); правила умозаключения, частично интерпретирующие смысл слов (например, из фактов покупки и продажи выводятся сведения о владельцах собственности в разные моменты времени) и т.п.
Для успешной работы процессора требуется синтактико-семантический словарь объемом около тысячи слов; наряду с этим для нескольких десятков наиболее важных понятий предметной области (invest,venture field…) разработаны более детальные фреймы.
В заключение скажем несколько слов о планах дальнейшей работы. Стержнем лингвистического процессора является построение синтаксической структуры фразы. Поскольку использованный нами синтаксический анализ в рамках грамматики зависимостей продемонстрировал свою недостаточность, необходима выработка иных способов представления синтаксической структуры, комбинирующих свойства грамматики зависимостей и НС-грамматики, и способов ее обнаружения, базирующихся на предсказаниях, которые опираются на семантику и знания предметной области. Другим направлением исследований является выход за пределы отдельной фразы. Сейчас у нас имеются лишь некоторые правила такого рода – для обработки списков, а также для определения в несложных случаях антецедентов местоимений. Эта работа будет продолжена.
On a Project of a Linguistic Processor for Processing Internet Information
N. N. Pertsova, N. V. Pertsov
Key words: linguistic processor, ontological predicate, surface syntactic representation, deep syntactic representation, semantic representation
The paper describes a linguistic processor aimed at constructing ontological representations for English Internet texts on economics. A pilot version being ready, we are building now a new version of the system.
[1] Работа выполнена при поддержке РГНФ, проект № 01-04-16252а.