Корпусная репрезентация семантических ролей глаголов
Пекар В.И.
- Корпусная репрезентация лексической семантики
Одна из особенностей естественного языка, отличающая его от искусственных, заключается в так называемой бесконечной продуктивности, т.е. способности языкового знака образовывать смысловые сочетания с бесконечным числом других языковых знаков. Для компьютерной лингвистики задача моделирования бесконечной продуктивности может быть сформулирована как оценка вероятности сочетания любых двух или более языковых знаков. Потенциалом решить эту задачу обладают корпусные модели языка, которые строят обобщенную репрезентацию того или иного знака на основе данных электронных текстов (корпусов). Полученная обобщенная репрезентация знака может быть экстраполирована на новые контексты, после чего может быть вычислена вероятность появления в них анализируемого знака. В данном докладе будет рассмотрен ряд проблем, связанных с построением корпусной репрезентации лексической семантики отдельных слов и обобщения таких репрезентаций.
Существующие корпусные модели лексической семантики основываются на предположении, что значение слова Wj может быть представлено в виде его дистрибуции, т.е. слов Wi1…n, с которыми Wj сочетается в корпусе[1]. Для построения репрезентации значения Wj, компьютерная программа подсчитывает какие слова и как часто сочетаются с Wj. Чтобы охарактеризовать контекст слова, могут использоваться две стратегии: т.н. "оконная" и синтаксическая. В первом случае контекст ограничивается окном из определенного количества слов вокруг Wj. Количество слов в окне варьируется в различных исследованиях: Г.Грефенштетте (Grefenstette 1996) использовал окно в 10 слов, дополнительно ограничиваясь и границами предложения, В.Гейл, К.Черч и Д.Яровски (Gale, Church &Yarowsky 1992) использовали окно из 1000 слов, Х.Шутце (Schütze 1992) - из 1000 символов. Во втором случае контекст Wj ограничивается словами, находящимися с ним в определенных синтаксических отношениях, как, например, отношения между глаголом и его прямыми дополнениями (Grefenstette 1996, Pereira, Tishby, & Lee 1993). В обоих случаях, после того, как данные о дистрибуции были собраны, строится матрица сочетаемости. Семантика Wj представляется в виде вектора в n-мерном пространстве; n является числом слов wi, сочетающихся с Wj, а компоненты вектора - наблюдаемыми частотами их сочетаний (либо вероятностями их сочетания, вычисляемых из наблюдаемых частот): C (Wj) = <|wi1|, |wi2|, |wi3|, … |win|>.
Очевидно, что различные слова wi могут иметь различную релевантность для характеризации семантики Wj. Например, в вектор могут оказаться включенными частоты сочетаемости функциональных слов, т.е. союзов, предлогов и т.д. Эти частоты, вероятно, будут весьма высокими, однако сочетаемость с функциональными словами практически ничего не сообщает о семантике Wj. Для более адекватного представления значения, используются методики вычисления релевантности одного слова для характеризации семантики другого, такие как измерение взаимной информации (mutual information measure, Resnik 1992) или анализ канонической дискриминанты (Canonical Discriminant Analysis, Schütze 1992). Полученные показатели используются как веса, прилагаемые к значениям компонентов вектора. Векторное пространство обычно оказывается очень большим и его необходимо уменьшать, чтобы сделать компьютерную обработку этой информации осуществимой. Так, для уменьшения векторного пространства используется метод декомпозиции отдельных показателей (singular value decomposition, e.g., Schütze 1992; 1997).
Полученный вектор можно интерпретировать геометрически: он направлен в уникальном направлении, отражая, тем самым, уникальную семантику Wj. Значение Wjможет быть сравнено со значением другого слова путем измерения расстояния между их векторами. Существуют различные методики измерения степени семантической схожести между двумя словами, используя данные об их дистрибуции. Наиболее простые из них - измерение Эвклидова расстояния между векторами двух слов и вычисление косинуса между векторами.
Используя данные о дистрибуции и одну из методик вычисления семантической схожести, можно определить вероятность сочетания любых двух данных слов, несмотря на то, что корпус вовсе не содержит примеров их сочетания. Сегодня существуют два основных подхода к выявлению сочетаемостных характеристик слова, которые не могут быть получены из корпуса: метод "ближайших соседей" (nearest neighbors method, Dagan, Lee, & Pereira 1999) и классовый метод (class-based method,Pereira, Tishby, & Lee 1993).
Метод ближайших соседей заключается в восполнению недостающей информации в векторе Wj из усредненной дистрибутивной репрезентации нескольких слов, которые имеют наибольшую семантическую схожесть с Wj. Чтобы вычислить вероятность сочетания Wj и Wk, примеры которого отсутствуют в корпусе, сначала осуществляется поиск слов, которые сочетаются с Wk и которые по своей диструбуции наиболее схожи с Wj. После того, как эти слова были определены, вычисляется центроид их векторов, который затем сравнивается с вектором Wj.
Классовый метод отличается от метода ближайших соседей тем, что при этом методе кластеры слов формируются не на основе близости их векторов к вектору Wj, а на основе внутриклассовых различий в дистрибуции (rласс слов образуется теми словами, которые находятся в определенных синтаксических отношениях с Wk). Степень близости между вектором Wj и центроидом того кластера, к которому он ближе всего, определяет вероятность того, что Wj будет иметь те же дистрибутивные характеристики, что и слова, составляющие этот кластер. Поэтому можно сказать, что метод ближайших соседей образует контекстуальные семантические классы слов, а классовый метод использует языковые, перманентно существующие семантические классы слов.
Оба метода, однако, могут иметь слабую эффективность по причине т.н. "разряженности" данных. Она заключается в том, что в используемом корпусе частота употребления слова Win, которое призвано характеризовать дистрибуцию Wj, может быть очень низкой или данные об употреблении могут отсутствовать вовсе и, таким образом, не отражать обычно наблюдаемую дистрибуцию этого слова. В результате этого, вектора двух слов, за которыми в системе языка закреплены схожие значения, могут быть направлены в совершенно различных направлениях. Чтобы преодалеть негативные эффекты разряженности данных, как правило, используются как можно бóльшие корпуса. Кроме того, применяются т.н. методики "сглаживания", при которых отсутствующая в корпусе информация о дистрибуции слова восполняется данными о дистрибуции схожих с ним слов (т.н. "сочетаемость второго порядка", Schütze 1998).
В данном докладе предлагается такой формат репрезентации дистрибуции, который позволил бы, с одной стороны, минимизировать негативные эффекты разряженности данных, а с другой, уменьшить векторное пространство и упростить таким образом процесс исчисления данных. С помощью этого формата представляется дистрибуция отдельных существительных, на основе обобщения репрезентаций нескольких существительных строится репрезентация семантических ролей глагола. Аккуратность представления семантики слов в этом формате проверяется сопоставлением оценок приемлемости сочетаний существительных с глаголами, выставленных человеком, с показателями вероятностями этих сочетаний, вычисленных компьютером. Доклад организован следующим образом. Раздел 2 описывает предлагаемый формат представления дистрибуции. Раздел 3 описывает алгоритм приложения и используемую базу данных. Раздел 4 посвящен результатам экспериментальной оценки и их обсуждению.
Построение индивидуальных репрезентаций и их обобщение
Методики вычисления семантической схожести, обычно используемые в корпусных моделях, основываются в первую очередь на данных о частотности сочетаний (или вероятности сочетаний, вычисляемой из их частотности), нежели на самом факте, что слова сочетаются или не сочетаются. В результате этого модель приписывает одинаковую степень релевантности разницам в частности между (1) никогда не наблюдавшимся сочетанием и сочетанием, наблюдавшимся лишь однажды, и (2) двумя сочетаниями с высокой частотой, различающихся на единицу. Другими словами, разница с нулевой частотой, обычно говорящей о невозможности сочетания, расценивается как имеющая такую же значимость, как и разница между любыми двумя частотами. Поэтому использование частоты как основного фактора, определяющего семантическую репрезентацию слова, не всегда верно отражает различия между возможными и невозможными сочетаниями. Кроме того, модель, в которой компоненты вектора представлены в виде частот, неэффективна при использовании небольшого корпуса по причине разряженности данных: очень часто разница в частотах оказывается чисто случайной. Для преодаления этой проблемы такая модель требует использовать большие корпуса и методики "сглаживания".
Проводимое нами исследование направлено на проверку гипотезы о том, что придание веса информации о наличии/отсутствии примеров сочетания в корпусе может более эффективно охарактеризовать семантику слова по сравнению с моделями, где семантическая репрезентация основывается на данных о частоте сочетаний. За счет потери определенной степени конкретности, т.е. исключения данных о частотности и словах, имеющих нулевую частоту, предлагаемый способ характеризации семантики слова имеет следующие преимущества: (1) сокращение векторного пространства; (2) допустимость большей степени разряженности данных; (3) бóльшую способность к перенесению обобщенных репрезентаций в новые контексты. Предлагаемый способ, однако, осуществим при выполнении следующих условий.
Во-первых, контекст слова Wj может быть описан лишь в терминах слов, синтаксически связанных с ним. Как отмечает Х.Шутце (Schütze 1992), при делимитации контекста окном из порядка 1000 слов, в векторе в 4000-мерном пространстве частота только у 10% компонентов равна нулю, а все остальные слова имеют показатели частоты выше нуля, т.е. 90% из 4000 слов включаются в контекст слова Wj. Если из такой репрезентации исключить данные о частоте сочетаний, то дистрибуции любых отдельных слов не будут различаться более чем на 10%. При использовании же синтаксического подхода контекст слова описывается гораздо меньшим количеством слов (Grefenstette 1996), вариативность комбинаций которых может вполне адекватно отразить индивидуальную семантику отдельных слов. В предлагаемой модели контекст существительных представляется в терминах глаголов, чьи аргументные позиции они заполняют, а также существительных, заполняющих остальные позиции этих глаголов. Семантические роли глаголов представляется в терминах существительных - их синтаксических аргументов. При построении обобщеных репрезентаций семантических ролей, однако, синтаксические аргументы не дифференцируются, поскольку одна и та же семантическая роль может иметь различные синтаксические реализации. Для получения репрезентации роли обобщаются репрезентации существительных, группирующихся не по их синтаксическим позициям, а по схожести в своей семантике. Для определения того, какие существительные употребляются в каких ролях глагола, вся сосокупность его синтаксических аргументов делится на семантические классы. При этом методика выделения этих семантических классов заключалась в измерении семантической схожести между отдельными словами и распределении их по кластерам, число которых равно числу синтаксических аргументов глагола[2].
Во-вторых, корпус, на котором происходит "тренировка" модели, должен состоять из стилистически нейтральных текстов и быть не слишком большим для того, чтобы не содержать сочетаний, обычно воспринимаемых как идиосинкратические.
Обобщение векторов существительных, занимавших данную роль глагола, для получения ее репрезентаций, осуществляется следующим образом. Поскольку компоненты в векторе слова Wj представляют собой лишь слова, сочетающиеся с ним, то, вместо вычисления средних показателей компонентов для получения центроида, процедура обобщения нескольких репрезентаций сводится к определению общих для всех них компонентов и избавлению от различающихся. Для оценки вероятности заполнения неким существительным семантической роли проверяется наличие в репрезентации этого существительного компонентов, присутствующих в обобщенной репрезентации этой роли.
3. Алгоритм и используемый корпус
Для предварительной оценки предлагаемой модели, в качестве корпуса использовался небольшая, специально подготовленная база данных. Она содержала информацию, которая может быть получена из синтаксически аннотированного корпуса: каждая запись в базе данных описывала аргументную структуру глагола и включала в себя собственно глагол и до трех его аргументов. Объем базы данных - 758 предикатных структур, или около 2500 слов. База данных содержала 160 отдельных слов (61 глагол и 99 существительных). Частота употребления отдельных слов варьировалась от 3 до 92.
Таблица 1. Примеры записи в использовавшейся базе данных.
VERB |
ARG1 |
ARG2 |
ARG3 |
give |
John |
Peter |
book |
read |
John |
book |
- |
write |
John |
Mary |
letter |
Чтобы построить репрезентацию конкретного существительного, использовался следующий алгоритм:
1) В массив данных заносятся все записи, содержащие это существительное.
2) Вектор существительного представляется в терминах всех слов, находящихся с ним в одной записи.
Для получения обобщенной репрезентации семантической роли, алгоритм состоял в следующем:
1) В массив данных заносятся все записи, содержащие этот глагол и имеющие одинаковое число полей (т.е. аргументные структуры с одинаковым числом аргументов).
2) Все существительные полученного массива на основании их семантического сходства делятся на кластеры; число кластеров равно числу синтаксических аргументов глагола.
Для измерения семантической схожести использовался бинарный показатель Танимото, вычисляемый по формуле (Charniak 1993, c.142):
| число одинаковых компонентов x и y |
.
| число уникальных компонентов x или y |
В делителе указывается число компонентов того слова, у которого это число больше. В таблице 2 приводятся слова используемого корпуса, имеющие наибольшие показатели семантической схожести с глаголом eat, вычисленные с помощью бинарного показателя Танимото.
Таблица 2. Глаголы, имеющие наибольшую семантическую схожесть с eat.
Слово |
Показатель семантической схожести |
like |
0.24166 |
buy |
0.23497 |
sell |
0.18037 |
hate |
0.14333 |
gather |
0.12251 |
bite |
0.12152 |
drink |
0.11944 |
grow |
0.10139 |
3) Вектора существительных, образующих один кластер, обобщаются. Семантическая роль представляется в виде компонентов, свойственных всем существительным этого кластера.
- Экспериментальная оценка модели
Репрезентация семантической роли может считаться адекватной в том случае, если она удовлетворяет двум условиям. Она должна быть, во-первых, достаточно абстрактной, чтобы охватить все число своих потенциальных аргументов, а во-вторых, достаточно конкретной, чтобы отразить индивидуальную семантику глагола и не позволить появление в ней семантически неприемлемых слов. Чтобы проверить адекватность построенных моделью семантических ролей, было проведено два эксперимента. Они заключались в заполнении проверяемой роли различными существительными и анализе оценок испытуемых получающихся сочетаний. Как упоминалось ранее, модель способна вычислить вероятность того, что данное существительное может заполнить данную роль, путем измерения степени схожести между вектором существительного и обобщенным вектором этой роли[3]. Проверка адекватности репрезентации сводится к установлению того, что большие вероятности, вычисленные компьютером, коррелируют с высокими оценками испытуемых, а меньшие вероятности - с низкими оценками испытуемых.
Во время обоих экспериментов, приложение строило такие сочетания одного существительного и одного глагола, которые отсутствовали в корпусе. Существительное подставлялось в каждую из семантических ролей глаголов. Остальные роли заполнялись теми существительными, которые использовались для вычисления этих ролей, т.е. чье присутствие в этих ролях было зафиксировано в корпусе. Испытуемые оценивали генерируемые предикатные структуры в терминах трех оценок: "приемлемо", "сомнительно" и "неприемлемо". После этого достоверность различий между соответствующими тремя группами вероятностей, вычисленных компьютером, была проверена с помощью критериев Манна-Уитни и хи-квадрат. В последнем случае в качестве классов использовались равные диапазоны вероятностей, величиной в 0,05, а в качестве частот классов - частота появления вероятностей в диапазоне (см. рис 1 и 2).
Экперимент 1 заключался в построении сочетаний определенного глагола с каждым из 99 существительных, т.е. вся генеральная совокупность возможных сочетаний была включена в выборку. Для этого использовались глаголы break, cut и put, которые встречались в корпусе соответственно 7, 18 и 30 раз, что и составило "тренировочные" данные этого эксперимента. "Проверочные" же данные для каждого из глаголов состояли из 99 предложений (по одному сочетанию с каждым существительным корпуса). Число предикатных структур (ПС), получивших конкретную оценку испытуемых, и средние их вероятностей, вычисленные компьютером, представлены в таблице 3.
Таблица 3. "Проверочные" данные эксперимента 1.
Оценки испытуемых |
break (7) |
cut (18) |
put (30) |
|||
Число ПС |
Средние вероятности |
Число ПС |
Средние вероятности |
Число ПС |
Средние вероятности |
|
приемлемо |
28 |
0,19785 |
34 |
0,23617 |
48 |
0,26562 |
сомнительно |
24 |
0,14166 |
9 |
0,1425 |
9 |
0,17125 |
неприемлемо |
47 |
0,11382 |
56 |
0,10875 |
42 |
0,1 |
В таблице 4 представлены результаты проверки достоверности различий между тремя группами вероятностей для построенных структур с глаголом put.
Таблица 4. Проверка достоверности различий между группами оценок для глагола put.
Сравниваемые выборки |
Критерий χ2 |
Критерий Манна-Уитни |
||||
χ2 |
α |
Wниж. |
Wнабл. |
Wверх. |
α |
|
"приемлемо" vs. "сомнительно" |
207,6499* |
<0,01 |
1262 |
1527 |
1522 |
0,005 |
"приемлемо"vs."неприемлемо" |
1566,853* |
<0,01 |
1763 |
3116,5 |
2605 |
0,001 |
"сомнительно"vs."неприемлемо" |
233,671* |
<0,01 |
103 |
365 |
365 |
0,002 |
* v2 = 1.
На рисунке 1 представлена гистограмма, отражающая для каждой из оценок испытуемых распределение соответствующих вероятностей, вычисленных компьютером. Ось Х представляет собой диапазоны вероятностей, ось Y - частоту появления вероятностей в этих диапазонах в процентах к общему числу оценненых предикатных структур.
Рис.1. Распределение вероятностей для глагола put в эксперименте 1.
Во время эксперимента 2, с помощью генератора случайных чисел из всех индивидуальных слов корпуса выбирался один глагол и одно существительное. Таким образом, генеральная совокупность составила 12078 возможных сочетаний (произведение 99 существительных на 61 глагол на 2 (мин.число аргументных позиций у глагола)). "Проверочные" данные состояли из 631 сочетаний, выбранных наугад. "Тренировочные" данные составили все 758 предикатных структур корпуса. Таблица 5 обобщает "проверочные" данные экперимента 2.
Таблица 5. "Проверочные" данные эксперимента 2.
Оценки испытуемых |
Количество ПС |
Средние вероятностей |
приемлемо |
92 |
0,22782 |
сомнительно |
60 |
0,12016 |
неприемлемо |
479 |
0,7901 |
Сравниваемые выборки |
Критерий χ2 |
Критерий Манна-Уитни |
||||
χ2 |
α |
Wниж. |
Wнабл. |
Wверх. |
α |
|
"приемлемо" vs. "сомнительно" |
89,45384* |
<0,01 |
6135 |
8727 |
7941 |
0,001 |
"приемлемо"vs."неприемлемо" |
168,2707* |
<0,01 |
21383 |
44668 |
31241 |
0,001 |
"сомнительно"vs."неприемлемо" |
15,94737** |
<0,01 |
14334 |
18421 |
18066 |
0,1 |
* v2 = 5; ** v2 = 3.
Гистограмма на рисунке 2 отражает распределение вероятностей по диапазонам для трех оценок, выставленных испытуемыми во время эксперимента 2.
Рис. 2. Распределение вероятностей в эксперименте 2.
Статистическая оценка данных обоих экспериментов свидетельствует о том, что различия между тремя группами вероятностей, соответствующих трем типам оценок испытуемых, имеют статистическую достоверность, т.е. существует корреляция между вероятностями сочетаний, вычисленными компьютером, и оценками, выставленными испытуемыми. Наиболее явна разница между оценками "приемлемо" и "неприемлемо", "приемлемо" и "сомнительно"; менее четка - между "сомнительно" и "неприемлемо".
Как видно из рис.2, сочетания, оцененные испытуемыми как неприемлемые, очень редко имеют вероятность выше 0,15 (в 4% случаев). 56% сочетаний, оцененных как приемлемые, имеют вероятность 0,15. То, что 44% "приемлемых" сочетаний находятся ниже этого уровня, следует объяснить разраженностью данных - в корпусе не были представлены некоторые типы сочетаний, которые оценивались испытуемыми как вполне возможные. Например, в корпусе не было сочетаний глагола have с существительными, обозначающими домашних животных. Можно ожидать, что с увеличением корпуса больше вероятностей для "приемлемых" сочетаний будут располагаться в верхних диапазонах.
Четкое различие в вероятностях сочетаний, а также величина отношения между "проверочными" и "тренировочными" данными в обоих экспериментах (для break: 14.143 (99/7), для cut: 5.5 (99/18), для put: 3.09 (99/32); во втором эксперименте: 0.832 (631/758)), говорят о том, что сформированные моделью семантические роли вполне отвечают вышеописанным критериям: они достаточно абстрактны, чтобы быть эффективными для оценки новых сочетаний, и достаточно конкретны, чтобы не позволить построение семантически неприемлемых сочетаний.
Для дальнейшей оценки адекватности описанного способа представления семантических ролей планируется использование реального корпуса. Предлагаемый метод семантической репрезентации может быть сравнен с методами семантической репрезентации, основанными на данных о частотности сочетаний, путем тренировки сравниваемых методов на одном и том же корпусе. Другое направление исследования заключается в сравнении метода ближайших соседей и классового метода к предлагаемой репрезентации семантических ролей.
Литература
Charniak, E. (1993). Statistical Language Learning. Cambridge, MA: MIT Press.
Dagan, I., Lee, L., Pereira, F. (1999). Similarity-Based Models of Word Cooccurrence Probabilities. Machine Learning 34(1-3), special issue on natural language learning, pp. 43-69.
Gale, W. A., Church, K.W., Yarowsky, D. (1992). A method for disambiguating word senses in a large corpus. Computers and the Humanities.
Grefenstette, G. (1996). Evaluation Techniques for Automatic Semantic Extraction: Comparing Syntactic and Window Based Approaches. In: Corpus Processing for Lexical Acquisition. B. Boguarev and J. Pustejovsky (eds.). Cambridge: The MIT Press.
Pereira, F., N. Tishby, and L. Lee. (1993). Distributional clustering of English words. Proceedings of the Thirty-first Annual Meeting of the ACL, pp.183-190.
Resnik, P. (1992). WordNet and distributional analysis: a class-based approach to lexical discovery. In Workshop Notes, Statistically-Based NLP Techniques. AAAI, 54-64.
Schütze, H. (1992). Dimensions of meaning. Proceedings of Supercomputing-92.
Schütze, H. (1997). Ambiguity resolution in Language Learning: Computational and Cognitive Models. Stanford. CSLI Publications (Lecture notes number 71).
Schütze, H. (1998). Automatic Word Sense Discrimination. Computational Linguistics, 24 (1), pp.97-124.
[1] Дистрибуция слова, однако, не всегда верно отражает его семантику (Charniak 1993, с.144-145).
[2] Исключение из процедуры выделения семантических ролей более детальной синтаксической информации влечет за собой потерю определенной семантической информации. В частности, невозможным оказывается учесть особенности смысловых взаимоотношений между двумя различными аргументами глагола, имеющих схожую лексическую семантику (например, подлежащее и дополнение глагола любить в Мать любит дочь.). Для учета этих смысловых взаимоотношений должны использоваться дополнительные способы соотнесения синтаксических аргументов и семантических ролей.
[3] Здесь используется та же методика, что и при сравнении дистрибуции двух отдельных слов, т.е. бинарный показатель Танимото. Однако, в делителе всегда указывается число компонентов вектора семантической роли.