КОРПУСНАЯ ОЦЕНКА СОЧЕТАЕМОСТИ СЛОВ С ИСПОЛЬЗОВАНИЕМ БИНАРНЫХ АНАЛОГИЙ
В. А. Дёмин
Приднестровский государственный университет им. Т. Г. Шевченко
vitdm@aport.ru
Ключевые слова: разрешение неоднозначностей, оценка сочетаемости слов, аналогия, нейроподобные сети, машинный перевод
Предлагается подход к оценке сочетаемости слов и разрешению лексических неоднозначностей. Вместо вычисления сглаженной вероятности совместного распределения слов используются бинарные аналогии, которые представляют собой обобщённые пропорции. Это обеспечивает быструю настройку на специфику предметной области и позволяет оценить правдоподобие новых сочетаний слов на основе минимальной обучающей информации, включающей около двух контекстов на одно слово. Приводятся и обсуждаются результаты экспериментов по разрешению неоднозначностей в парах слов глагол–дополнение на материале корпуса Reuters-21578.
1. Введение
Оценка сочетаемости объектов представляет собой актуальную практическую и теоретическую задачу. В языковых приложениях она может принимать такие формы, как предпочтительный выбор слов [1,2] и разрешение лексических неоднозначностей [3,4]. Без решения данных задач невозможно построить ни одну реально действующую систему обработки естественного языка. Кроме того, правильное структурное деление предложения и присоединение местоименных ссылок также зависят от качества решения задачи сочетаемости.
Известные подходы к указанной проблеме весьма разнообразны. Больше всего внимания уделяется статистическим методам, поскольку они способны автоматически извлекать нужные закономерности из больших объёмов исходных данных. Путём анализа больших корпусов удаётся объединить слова в кластеры по их сочетаемости [5,6], либо получить сглаженное распределение совместных вероятностей слов [7]. Вместе с тем, статистические методы имеют ряд существенных недостатков. Во-первых, методы кластеризации упускают информацию об индивидуальном употреблении каждого конкретного слова. Во-вторых, абсолютно все статистические методы испытывают проблемы при использовании их на разрежённых данных: каким бы большим ни был корпус, значительная часть информации будет содержаться в нём лишь в единичных примерах. Помимо этого следует учесть, что зачастую для конкретной предметной области просто не существует корпусов большого размера.
В связи с вышесказанным встаёт вопрос об оценке сочетаемости слов на минимальном языковом материале – от двух до трёх контекстов на одно слово. Под контекстом в данном случае понимается одно слово, грамматически либо семантически связанное с исходным.
В данной работе представлен новый метод, позволяющий решить проблему сочетаемости слов в указанных «экстремальных» условиях. Подход опирается на понятие бинарной аналогии и использует нейросетевую вычислительную среду для поиска таких аналогий в материале, автоматически извлекаемом из одноязычного корпуса небольшого размера.
С целью повышения производительности системы используется дополнительное разрежение исходных данных, что даёт максимальное сокращение обучающего набора словосочетаний. Возможные приложения метода охватывают те задачи, в которых требуется быстрая настройка на произвольную предметную область при минимальном числе примеров.
Особую актуальность предложенный метод имеет для многоязычных систем машинного перевода, поскольку использует информацию только из одного – целевого языка, независимо от исходного языка.
2. Словесная «пропорция»
Числовая пропорция является соотношением между четырьмя числами {x1,y1,x2,y2}, обладающим рядом примечательных свойств. Среди них для нас наиболее важно следующее свойство:
x1 : y1 = x2 : y2 Û x1 : x2 = y1 : y2
Представив каждое из чисел x1, y1, x2 и y2 в виде произведения двух сомножителей, и применив абстрагирование, мы приходим к более общей схеме, включающей уже не числа, а произвольные объекты, заданные множествами признаков. Пропорция перестаёт быть пропорцией и становится частным случаем аналогической системы [8]. Возможно, именно эта объективная общность двух понятий объясняет то, что до сих пор в греческом языке они обозначаются одним словом analogia.
Рис.1. Схема бинарной аналогии
Аналогия, изображённая на рис.1, получила название бинарной трансформационной аналогии, или просто бинарной аналогии (БА) [9]. Трансформационный характер аналогии придаёт то, что соотношения между объектами являются не изоморфизмами, а трансформациями, т.е. преобразованиями, допускающими строгое алгебраическое определение. Определитель «бинарная» характеризует число признаков в представлении объектов и количество трансформаций в схеме.
Схему бинарной аналогии можно спроецировать на различные виды объектов, а не только на числа. В углах квадрата могут располагаться, например, слова или морфемы (рис.2).
ваза упала |
лампа упала |
|
переход–ить |
переход–ящий |
ваза разбилась |
[лампа разбилась] |
|
говор–ить |
[говор–ящий] |
Рис.2. Примеры словесных пропорций
В морфологии получение новых слов по аналогии широко распространено и описано в известном словаре А. Зализняка (М.:1987, стр.38). Теория аналогий такого типа для произвольных строковых объектов предложена в 2000 г. И. Лепажем на международной конференции COLING [10].
Мы же рассматриваем здесь аналогию для диадических объектов, составляющими которых являются целые слова языка с присущей им лексической семантикой. Как видно из рис.2, та же общая схема аналогии, применённая к словам, обнаруживает семантические свойства. Таким образом, можно говорить, что построена словесная «пропорция», само существование которой указывает на наличие внутренней связи между входящими в её состав словами. На основе поиска таких пропорций-аналогий в массиве известных словосочетаний мы можем вычислять оценивать правдоподобие новых сочетаний, построенных из тех же слов.
Для поиска аналогий и пересчёта оценок правдоподобия чрезвычайно удобно использовать однородные нейроподобные сети [11]. Используя метод параллельного обратного возбуждения, мы получаем возможность рассчитать взаимно-относительные числовые оценки правдоподобия новых объектов. Взаимность оценок связана с тем, что они могут быть получены только для группы конкурирующих (т.е. неоднозначных) объектов. Относительность оценок связана с тем, что они служат для упорядочения объектов по степени правдоподобия в группах конкуренции и не имеют заранее определенной общей шкалы.
Разрешение неоднозначностей после вычисления оценок правдоподобия сводится к пороговой фильтрации каждой группы конкуренции.
3. Извлечение словосочетаний из текста
Ручное построение массива словосочетаний в принципе возможно, но крайне неэффективно. При наличии корпуса неформатированных текстов целесообразно применить автоматическое извлечение словосочетаний. При этом возможны следующие подходы:
а) извлекать все пары соседних слов, возможно, за исключением слов из «стоп-списка»;
б) извлекать устойчивые словосочетания;
в) использовать отдельный грамматический словарь и упрощённую процедуру динамической разметки корпуса.
Первый подход может не дать желаемого эффекта в силу того, что не все слова, стоящие в тексте рядом, реально связаны грамматически. Семантическая связь, разумеется, присутствует, но сведение всех форм словесной зависимости в один корпус может сделать его нерегулярным, а результаты оценки сочетаемости – необъективными. Второй способ более надёжен. В нём используется простая эвристика: если словосочетание повторяется, значит оно не случайно. Выделить устойчивые словосочетания можно через статистические корреляции, либо методом взаимного структурирования предложений. Однако, сосредотачиваясь лишь на повторяющихся фрагментах текста, мы теряем много полезной информации, хранящейся в единичных сочетаниях. Решить проблему позволяет использование минимальной лингвистической информации – словаря, в котором указаны грамматические классы слов. Опираясь на низкую вероятность случайного образования словесных пропорций, мы можем несколько снизить требования к зашумленности исходных данных. Это позволяет обойтись упрощённым алгоритмом тегирования – простой заменой слов на обозначения их грамматических классов с последующим обнаружением заранее подготовленных шаблонов. Экстенсивная стратегия при этом предполагает включение в результирующий массив возможно большего числа словосочетаний, несмотря на появление шума.
4. Комплекс программ WordMag
На основе изложенных принципов и наработок в области однородных нейроподобных сетей был разработан экспериментальный комплекс программ WordMag. Его основная задача – показать применимость бинарных аналогий к оценке сочетаемости слов в задаче разрешения неоднозначностей.
Комплекс состоит из нескольких утилит предобработки и основной программы. Утилита извлечения фраз (exr) использует открытый грамматический словарь английского языка LEX [12] и собственный модуль морфологии (для приведения существительных и глаголов к исходной форме).
Основная программа построена на модифицированной версии функционального нейросетевого ядра, использованного в системе Re-Fine [13]. Ядро состоит из набора процедур, обеспечивающих имплицитный поиск связей, в том числе бинарных аналогий, в структурной модели входного текста. В случае словосочетаний такая модель содержит ровно два уровня, и входные объекты не требуют взаимного структурирования. Это значительно ускоряет загрузку словосочетаний в память компьютера. Полученная модель представляет собой двудольный граф и трактуется как однородная нейроподобная сеть (ОНС), функционирующая по алгоритму параллельного обратного возбуждения. Алгоритм используется в той его модификации, которая усиливает роль бинарных аналогий, придавая их компонентам большее возбуждение.
5. Повышение разреженности данных
Поскольку основной операцией при оценке сочетаемости слов в WordMag является аналогия, то обучающий корпус должен быть максимально компактным и представительным. Ручной отбор словосочетаний, очевидно, является неприемлемым. Было найдено полностью автоматическое решение, которое органично вписалось в логику работы системы. Идея состояла в том, чтобы использовать модель по мере ее построения для оценки каждого нового кандидата на включение в обучающий корпус. Если для данного словосочетания обнаруживается аналогия, то оно не включается в корпус. Эта идея была реализована в отдельной утилите ‘exr-distiller’, вошедшей в состав комплекса WordMag. После фильтрации по данному методу обучающие корпусы сокращались на 30–70%, а скорость обработки возрастала в несколько десятков раз.
6. Эксперимент по разрешению неоднозначностей
Постановка эксперимента была приближена к схеме Dagan, Pereira & Lee (DPL) [7] с целью показать не только состоятельность метода аналогий, но и ряд его преимуществ перед статистическим сглаживанием. Ниже приведено краткое описание эксперимента DPL.
1) словосочетания извлекаются из корпуса “1988 Associated Press Newswire” с помощью статистического тегера и поиска грамматических шаблонов;
2) система обучается на правильных словосочетаниях;
3) осуществляется «подстройка» параметров на корпусе новых словосочетаний размером 2,3% от обучающего корпуса;
4) осуществляются окончательные испытания метода на корпусе новых словосочетаний размером 0,6% от обучающего корпуса.
Обучающий корпус в эксперименте DPL состоял из 587833 пар слов. Чтобы искусственно создать неоднозначность глаголы с близкими частотами объединялись в испытательном корпусе в один «символ» (token), например:
make plans |
{ make, take } plans |
take action |
{ make, take } action |
В среднем, с учетом «подстроек» по п.3, метод DPL вышел на уровень точности 73% на новых словосочетаниях.
Не располагая корпусом “Associated press newswire”, мы использовали другой распространённый корпус новостей – “Reuters-21578” [14]. Данный корпус состоит из более чем 20 тыс. сообщений агенства Reuters за 1987 г. Так же, как и в случае DPL, извлекались пары «глагол–дополнение» с учётом шума, связанного с экстенсивной стратегией (см. выше).
Избранные результаты эксперимента с этим корпусом приведены в табл.1.
Таблица 1. Результаты эксперимента по разрешению неоднозначностей в парах глагол–дополнение в копусе Reuters-21578
Число фраз |
Плотность модели, фраз/слово |
Покрытие, % |
Доля новых сочетаний, % |
Точность РН новых сочетаний слов, % |
КИМ, |
Скорость обработки, фраз/с |
||
ОБУЧ. |
ИСПЫТ. |
MaxFreq |
Analogy |
|||||
4436 |
1891 |
2,2 |
91 |
87 |
51 |
72 |
0,24 |
9,9 |
5373 |
5956 |
2,5 |
90 |
90 |
51 |
70 |
0,63 |
6,5 |
2071 |
12177 |
1,7 |
77 |
91 |
50 |
69 |
2,88 |
30,7 |
То же для метода Dagan–Pereira–Lee |
||||||||
587833 |
3430 |
–– |
–– |
100* |
73** |
0,0041 |
–– |
* - из испытательного корпуса в эксперименте DPL были заранее удалены известные
словосочетания
** - среднее значение в серии экспериментов с вариациями моделей и параметров
Отдельные испытания были проведены на материале классических литературных произведений на английском языке. В качестве обучающего корпуса использовался набор текстов общим объемом 2,1Мбайт, из которого было извлечено 3589 словосочетаний. После фильтрации размер обучающего корпуса сократился до 2625 словосочетаний с плотностью модели 1,7 фраз/слово. Результаты испытаний на текстах, не вошедших в обучающий корпус приведены в табл.3.
Таблица 2. Результаты эксперимента по разрешению неоднозначностей в парах глагол–дополнение в копусе Reuters-21578
Название текста |
Число извлеченных фраз |
Покрытие, % |
Доля новых сочетаний, % |
Точность РН новых сочетаний слов, % |
Общая точность, % |
Скорость обработки, фраз/с |
|
MaxFreq |
Analogy |
Analogy |
|||||
Jane Eyre |
1820 |
78 |
86 |
51 |
77 |
80 |
17,4 |
The Hound of the Baskervilles |
606 |
79 |
79 |
50 |
74 |
79 |
16,1 |
Schoolmistress & other stories (A.Chekhov) |
742 |
96 |
33 |
58 |
78 |
93 |
24,8 |
Sonnets |
217 |
97 |
27 |
46 |
76 |
93 |
23,5 |
Колонка MaxFreq показывает процент ошибок для модели, основанной на выборе варианта по наибольшей частоте в обучающем корпусе. Колонка Analogy соответствует методу, основанному на поиске бинарных аналогий в однородной нейроподобной сети.
КИМ – это коэффициент использования модели, который равен отношению числа правильно обработанных новых словосочетаний к числу словосочетаний в обучающем корпусе.
Скорость обработки приведена по результатам испытаний на компьютере с процессором Pentium II-300 при тактовой частоте шины 66 МГц.
7. Обсуждение результатов
В литературе по обработке естественного языка неоднократно отмечалось (см., например, [15]), что программы, разрешающие неоднозначности, заслуживают серьёзного внимания только в том случае, когда они значительно превосходят по качеству работы классификаторы типа “most-frequent-sense”, т.е. такие классификаторы, которые основаны на простых частотных предпочтениях. Как показывает таблица 1 и таблица 2, метод бинарных аналогий удовлетворяет этому требованию. Далее, как видно из таблицы 1, соотношения между размерами обучающего и испытательного корпусов почти не влияют на итоговое качество разрешения неоднозначностей при использовании метода аналогий, хотя влияют на покрытие. Процент ошибок (error rate) в среднем немного ниже 30% и никогда не превосходит значения 31%, т.е. приближается к уровню DPL. При этом модель является предельно разрежённой: от 1,7 до 2,5 фраз на слово. Стоит обратить внимание и на коэффициент использования модели. В одном из испытаний метода аналогий обучающий корпус размером 2071 фраз позволил правильно разрешить неоднозначность 5964 новых фраз, т.е. почти в три раза больше самой модели. При этом в эксперименте DPL корпус размером свыше 500000 фраз позволил справиться с неоднозначностью только 2400 фраз. В этом раскрывается основное преимущество метода аналогий: минимальный набор данных, оперативно полученный из реальных текстов, позволяет быстро настроиться на закономерности сочетаемости слов в этих текстах без использования индуктивных методов либо методов сглаживания.
8. Заключение
В данной работе показано, что бинарная аналогия как обобщённая пропорция может быть использована для оценки сочетаемости слов и разрешения одного из важных видов неоднозначностей. При использовании данной схемы в сочетании с нейросетевым подходом были получены качественно новые результаты в области обработки естественного языка.
С практической точки зрения полученные результаты полезны, в частности, тем, что они открывают новые возможности для систем машинного перевода в той их неотъемлемой части, которая связана с разрешением неоднозначностей.
Литература
- Ciaramita M., Johnson M. Explaining away ambiguity: Learning verb selectional preference with Bayesian networks. Proceedings of the 18th International Conference on Computational Linguistics, 2000 . Vol. 1. http://arxiv.org/ps/cs/0008020
- Resnik, P. Selectional preference and sense disambiguation // ACL SIGLEX Workshop on Tagging Text with Lexical Semantics, 1997. http://www.ims.uni-stuttgart.de/~light/tueb_html/resnik2.ps
- Yarowsky D. Hierarchical Decision Lists for Word Sense Disambiguation, 1999. http://citeseer.nj.nec.com/yarowsky99hierarchical.html
- Prescher D., Riezler S., Rooth M. Using a Probabilistic Class-Based Lexicon for Lexical Ambiguity Resolution, 2000. http://citeseer.nj.nec.com/prescher00using.html
- Pereira F., Tishby N., Lee L. Distributional Clustering of English Words // In Proceedings of the "Meeting of the Association for Computational Linguistics", 1993, pp.183-190. http://citeseer.nj.nec.com/article/pereira93distributional.html
- Hofmann T., Puzicha J. Statistical Models for Co-occurrence Data, 1998. http://citeseer.nj.nec.com/article/598statistical.html
- Dagan I., Lee L., Pereira F. Similarity-Based Methods For Word Sense Disambiguation // In Proceedings of ACL-EACL, 1997. http://citeseer.nj.nec.com/dagan99similaritybased.html
- Демин В. А. Аналогические системы // Актуальные проблемы современной науки. – 2002. – №1.
- Демин В.А. Бинарная трансформационная аналогия как операция получения новых знаний // Аспирант и соискатель. – 2001. – № 5. – С. 203–207.
- Lepage, Y. Languages of Analogical Strings. // In Proceedings of the International Conference on Computional Linguistics (COLING-2000), 2000.
http://nlp3.korea.ac.kr/proceeding/coling2000/COLING/pdf/071.pdf - Демин В.А. Однородные нейроподобные сети: универсальная среда воссоздания объектов // Актуальные проблемы современной науки – 2001. – № 1. – C. 122–126.
- LEX. http://www-2.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/keiras/0.html
- Демин В.А. Re-Fine: средство интеллектуального анализа текстов
на основе методологии воссоздания объектов // Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. Т.2. – Аксаково, 2001. – С. 93–99. - REUTERS-21578. http://www.research.att.com/~lewis/reuters21578.html
- Hwee Tou Ng. Getting serious about word sense disambiguation // ACL SIGLEX Workshop on Tagging Text with Lexical Semantics: Why, What, and How? April, 1997.
http://www.ims.uni-stuttgart.de/~light/tueb_html/semtag_ws.html
Corpus-Based Evaluation of Word Compatibility Using Binary Analogies
V. A. Demin
Key words: ambiguity, disambiguation, word cooccurrence, word compatibility, analogy, neural networks, machine translation
This paper describes a new approach to preferential selection of words from ambiguous sets. Rather than estimating co-occurrence probability, the presented approach evaluates compatibility of words with respect to each other. The approach is implemented in the WordMag experimental disambiguation system. First, correct word combinations (or phrases) are extracted without supervision from a non-tagged corpus using a predefined vocabulary of tagged words and a set of extraction patterns. Extensive strategy allows extraneous word combinations in the extracted data. Then, compatibility of words in novel combinations is evaluated using the binary transformational analogy schema, which is a square-shaped generalized proportion, not necessarily numeric. Binary analogies are sought in a uniform neural-like network isomorphic to the indexed collection of phrases. Excitation of a neuron is considered as a likelihood estimate for the respective word or phrase. Excitations are redistributed across the network by application of the parallel backboost algorithm which cares for binary analogies. Final excitations are thresholded and the most excited neurons (and the respective words) are selected as competition winners. Method description is followed by experimental results, discussion, and conclusion.