Слова-отношения и их роль в Представлении знаний[1]
Н.Н.Леонтьева
НИИВЦ МГУ
Элементарные смыслы или представление знаний?
Целью семантических исследований, инициированных Вяч.Всев. Ивановым начиная с 1959 года в Лаборатории машинного перевода (ЛМП) 1МГПИИЯ, был поиск языка элементарных смыслов, некоторого языка-посредника (ЯП) - такого, в который бы хорошо переводился любой естественный текст (ЕТ). Основой смысловой записи были многоместные предикаты, грамматические элементы ЕТ переводились в лексемы ЯП, и особый упор делался на выявлении сходств, а не различий в значениях слов, принадлежавших в частности к разным частям речи.
Приведу цитату из кн. Е.С.Кубряковой: «Цитируя слова Ю.Д.Апресяна о том, что «ДО предлог , а предшествовать глагол, но значат они одно и то же» [Апресян 1963], А.А.Реформатский резко критикует это утверждение. «Пусть «значат», - иронизирует он, но для лингвистики тут никакого «тожества» нет и быть не может: для лингвиста именно важно, чем до отличается от предшествовать». [Реформатский 1973]».
Говоря так, Ю.Д.Апресян утверждал, что у данных двух слов существует лексический инвариант, которым эти два слова могут быть заменены в некоторой семантической записи, сколь бы туманной она ни представлялась тогда. Конечно, те дополнительные смыслы, которые несет глагол по сравнению с предлогом, тоже отзовутся как-то в семантической записи, но главная часть смысла у них совпадает: оба они передают отношение ‘быть прежде во времени’. (Ср. также словарь Даля: “Предшествовать чему, говоря о событии, случиться наперед чего || Предшествовать кому, быть, жить прежде кого, ранее по времени”).
Вот еще слова, которые частью своего значения также выражают идею предшествования: предварять, предварительно, прежде, сначала, сперва, преждевременный, досрочный, раньше, прошлый, бывший, предыдущий, следующий, будущий, давно, давний, прошедший и мн. др. В этот же ряд входят категории прошедшего и будущего времени. Идею предшествования передают и многочисленные сложные предлоги (задолго до, незадолго до, прежде чем, по прошествии, по истечении и др.). Конечно, должен существовать такой срез текстового содержания (оставим для него общий термин ‘семантическое представление - СемП’), в котором не только эти слова, но и большое число других, выражающих идею временного предшествования, могут быть представлены некоторой одной метаединицей с очевидным значением.
Приходится признать, что то направление, которое развивала ЛМП, было не только лингвистическим направлением, оно было и …поиском языка представления знаний, так как стремилось придти от описания слов к представлению ситуаций (в смысле И.А.Мельчука: «Под ситуацией понимается определенное лексическое отражение (в данном языке) некоторого «куска» действительности») – то же, к чему стремится современный искусственный интеллект (ИИ). Эта установка требует, чтобы «ДО предлог и предшествовать глагол» пусть не всегда, пусть в некоторой конкретной задаче, но могли перейти в какой-то один элемент описания ситуации. Как назвать этот элемент – другая задача (немного о ней - ниже).
При всей популярности и перспективности работ ЛМП семантические изыскания тех лет не привели к тому, чтобы из элементов созданного метаязыка смыслов можно было бы, как из кирпичиков, строить здание целого связного текста. Одну из причин мы видим в том, что в нем отсутствовал аппарат смысловых отношений как система. В строящемся СемПе присутствовали отношения 3-х типов: в виде простой конъюнкции семантических множителей в составе описания слова, в виде скобок многоместного предиката, внутри которых в определяемой только интуицией последовательности перечислялись зависимые слова, и в виде двухместных предикатов, присоединяющих «слабые» группы к основному предикату. Только эти последние можно было назвать смысловыми отношениями в собственном смысле.
Ведь и в прикладной лингвистической семантике, и в ИИ представление о конечной цели анализа текста, по крайней мере, с точки зрения целевой структуры, – одно: это граф с узлами и связями, - язык, на котором можно было бы изложить знания, полученные из любого ЕТ. Главное отличие структур, представляющих Знания, от лингвистических структур состоит в том, что в первых должны остаться только те узлы и именованные отношения между ними, которые выходят во внешнюю среду, соотносимы с единицами описания других текстов и других способов представления знаний. И не только описание сходств и различий слов, но и формулировка трансформаций, приводящих разные ЕТ-единицы к одному содержательному элементу общих знаний, относятся к компетенции лингвистов. И с точки зрения этой последней задачи нужны не только и не столько элементарные единицы, сколько правила построения таких крупных единиц (узлов и отношений между ними), которые могут быть единицами знаний.
Путь к сближению текстовых структур со структурами представления знаний мы видим в том, чтобы многообразие лингвистических структур, передающих отношение, свести к небольшому числу концептуальных отношений, значимых и вне данного текста. Смысловые отношениямежду узлами семантического графа, образуя структурный костяк целого текста, должны составить также основу структуры знаний.
В настоящее время идет кропотливая лингвистическая работа в духе А.А.Реформатского, а именно, массированное описание всех тонкостей языкового употребления разных пластов и единиц языка. Это работы по модели «Смысл-Текст», работы Московской семантической школы (см. Словарные статьи Толково-комбинаторного словаря, Новый объяснительный словарь синонимов русского языка, монографии и статьи), работы школы Н.Д.Арутюновой (серия «Логический анализ языка») и мн. др., - они представляют собой богатейший источник для того, чтобы из смысловых атомов (до которых доводится описание семантики слов) можно было собирать те молекулы, которые могут войти в структуры, представляющие знания (базы данных, базы знаний, базы текстовых фактов).
Узлы и отношения в семантической записи
Семантический граф, который мы все (вернее, прикладные лингвисты) стремимся построить, состоит из троек вида Р(А,В), где Р - отношение (СемО), а А и В - единицы, которые связаны отношениями, это узлы, или семантические узлы (СемУ). В узлах семантического графа находятся сложные единицы – молекулы, а не атомы. Самый очевидный пример СемУ – термины (напр., средства массовой информации). Между словами, составляющими термин, возможны свои СемО, они являются внутренними СемО и часто десемантизируются. Слова, переходящие в ядро СемУ, мы называем словами-этикетками, а слова, переходящие в СемО, - словами-отношениями. Говоря «слова-отношения», мы ни в коем случае не относим к ним глаголы типа «любить», хотя его часто называют отношением, видимо, потому, что это двуместный предикат:ЛЮБИТ(Ваня,Маша), - но мы говорим не о человеческих отношениях, а о формальных единицах, которыми можно пометить рёбра семантического графа. Тем более НЕ относятся к СемО многоместные предикаты (командировать, выбирать, убеждать и т.д.). Все они СемУзлы, обозначающие разные ситуации. Но безусловно относятся к СемО те отношения, которые можно установить (дав им название) между каждым из актантов и самим предикатом, - это роли, которые отводятся актантам в ситуации, обозначаемой предикатом, или глубинные падежи, по Филлмору: АВТОР (А,убеждать); АДРЕСАТ (В,убеждать), СОДЕРЖание (С,убеждать). В большинстве таких триад имена СемО – аналоги существительных, и они допускают перифразы типа «А есть АВТОР, «В – это АДРЕСАТ», «С – это СОДЕРЖание (действия убеждать)». Поэтому вывод, который делается в [Вендлер 1986] «Итак, причины – это факты.» мы понимаем на нашем метаязыке так: ‘на первом месте отношения ПРИЧИНЫ должно стоять высказывание, имеющее семантическую характеристику (СХ) 'ФАКТ’: ПРИЧИНА('ФАКТ’, ??). Правда, в статье больше исследуется семантика самого явления причинности (что вообще может быть причиной явлений), чем слов, занимающих обе позиции в отношении ПРИЧИНА(А,В). В нашем информационном языке-посреднике (ИЯП) достаточно задать, что оба места этого отношения займет обобщенная СХ=СИТуация: ПРИЧИНА(СИТ,СИТ). Все три элемента этой формулы допускают достаточно широкое понимание, не требующее углубленного исследования типов причин или типов ситуаций, связанных отношением причинности. Это «среднее», стандартное, обобщенное понимание, которое позволяет свести к такой формуле разнообразные текстовые выражения идеи причинности. Конечно, когда заданная таким образом «грамматика» СемО нарушается (Маша погибла из-за Ивана, где Иван – НЕ ситуация, а лицо), метаязык требует коррекции: ПРИЧИНА(АКТАНТ(Иван,СИТ), гибель М.), что позволяет задать вопрос «Какая ситуация с Иваном привела к гибели Маши? Для перевода на такой метаязык не важно, какая была причина – непосредственная или опосредованная, была ли гибель физическая или это метафора, и существуют ли Иван и Маша. Не важно также, истинно или ложно это утверждение. Важно, какое развитие получают все три члена формулы в тексте (в какие другие отношения вступают данные СемУзлы).
Другой вид СемО – аналоги предлогов и союзов, напр., ПОСЛЕ(А,В), КРОМЕ(А,В), В_СООТВетствии(А,В); читается «А после В» и т.д. К ним применима другая трансформация: «А находится в отношении Р к В» или «А – первый член, В – второй член отношения Р». Формула Р(А,В) может стать узлом графа, и только в ней порядок перечисления членов значим: Р(1,2).
Источники формирования смысловых отношений
За счет каких элементов текста образуются связи, или отношения, в том семантическом графе, который мы готовы считать представляющим знания текста?
В «чистые» отношения переходят:
- Знаки препинания;
- Все союзы, сочинительные и подчинительные; так, союз И перейдет в отношение ВМЕСТЕ(А,В). Цепочка таких СемО образует в дальнейшем семантический «множественный узел»: МНУ={А,В,С,Д,Е};
- Лексико-грамматические элементы (предлог + падеж, которым предлог управляет);
- Отношения между значимыми частями слова (бледно-зеленый, там-сям, противотанковый);
- Смысловое имя валентности любого слова (глубинные падежи);
- Интерпретация любой синтаксической связи двух полнозначных слов и/или словосочетаний: связей (групп) прилагательных, наречий, деепричастий с главным для них словом;
- Интерпретация межфразовых и композиционных связей, например, связи заголовка текста с самим текстом, связи имени автора и текста и т.д.
- Глаголы и производные от них слова, имеющие две валентности, которые можно только назвать «первый член», «второй член» (предшествовать, соответствовать, означать и др.). Имя СемО, в которое они переходят, составляет основную часть значения этих слов, прочие элементы смысла «берёт на себя» вышестоящий нетерминальный символ, так, временные и модальные характеристики этих слов, а также возможные зависимые от них переходят к символу СИТ, вводящему всю эту ситуацию.
Продолжают этот ряд полнозначные слова, стоящие на первом месте в формуле Р(А,В) и дающие имя отношению:
- Все слова, совпадающие с именем стандартных СемО (причина, время, условие и др.); они образуют формулы типа ПРИЧИНА(причина,В) и имеют валентность СОДЕРЖание(?А,причина). При заполнении текстом этой валентности от самого слова остается только отношение ПРИЧИНА(А,В);
- Слова, чье родовое имя может быть именем СемО (в нашей классификации это «аспектные слова»), они занимают первое место в формуле Р(А,В) и могут быть приравнены к СемО: начало, конец, край, цвет, рост, длина и др.: СТАДИЯ (начало,В), ЧАСТЬ (край,В),ПАРАМЕТР(длина,В)…;
- Слова, обозначающие функции, родственные связи (мать, сестра, брат), руководящие должности (директор, президент) и некоторые другие;
Два последних класса являются резервом для списка специализированных СемО в какой-либо конкретной узкой предметной области (ПО);
- Вводные слова, частицы: МОДАЛьность(по-видимому,СИТ).
.
Итак, при переходе в СемП аспектные слова как бы раздваиваются: и родовое для них слово (СТАДИЯ, ОЦЕНКА, ПАРАМЕТР, МОДАЛьность…) есть имя СемО как полноправной единицы. Аспектные слова несамостоятельны и образуют один СемУзел вместе с семантически главным для них – вторым членом вводимого отношения.
В какой же из двух главных словарей создаваемого нами комплекса под именем РУСЛАН (русский словарь для автоматического анализа) нужно помещать слова категории АСП (аспектные) – в словарь слов-этикеток или в словарь отношений? Если это значимые части речи (существительное, глагол, прилагательное, наречие), которые все же семантически достаточно богаты и могут иметь свои валентности, мы помещаем их описания в основной массив, т.е. в словарь слов-этикеток. Глаголы, переходящие в отношения (предшествовать), принадлежащие к двум категорям (ЭТК и ОТН), также «живут» в базе слов-этикеток). В словарь отношений из слов-категории АСП включаются словосочетания, образующие в основном модальные и вспомогательные связи с главным для них: ОЦЕНКА (к сожалению,СИТ), МОДАЛьность (в действительности,СИТ), ОПЕРатор (соответственно,СИТ).
Грамматика слабых связей
Далее мы опишем структуру и наполнение словаря отношений, образуемых несвободными словосочетаниями – это сложные предлоги, сложные союзы и разные вводные и обстоятельственные конструкции. Словарь отношений – это вторая часть словарной базы РУСЛАН-1 (первая часть – база в основном слов-этикеток, включающая сейчас больше 7 тыс. словарных входов, см. статьи Леонтьевой и Семеновой). До сих пор словарь отношений (мы называли его словарем оборотов) существовал и вызывался анализатором из текстового файла, сейчас для него создается специальная база данных.
Можно считать, что словарь отношений-оборотов является продолжением словаря простых предлогов [см. давнюю работу Леонтьевой-Никитиной 1969, в которой в табличной форме был представлен комплекс значений 23-х многозначных предлогов]. Сложные единицы имеют дополнительные свойства (могут быть жесткими, разрывными, бинарными, могут допускать определенные лексические вставки и др.). Взятые вместе, словарные описания устойчивых оборотов, отношений, выраженных простыми предлогами и знаками препинания, словарь значений падежей и устойчивых грамматических конструкций (Глагол+Деепричастие и др.) образуют Грамматику слабых связей. В процессе автоматического анализа массива русских текстов проблема распознавания и семантической интерпретации так называемых «слабых связей» остается всегда актуальной. «Слабыми» объявляются такие синтаксические группы, которые оказались невостребованными в качестве зависимых при заполнении валентностей полнозначных лексем. Только тогда происходит обращение к семантическим словарным статьям тех лексико-грамматических и лексических элементов, которые вводят данную слабую группу. Слабые группы имеют сильную валентность на «хозяина», которая представляет собой СемО. Грамматика слабых связей может начинать работать по результатам достаточно простого синтаксического процессора. Возможная при этом избыточность, когда имя валентности потенциального хозяина и имя слабого отношения совпадают, не только не вредит, - она полезна как свидетельство правильности анализа. В принципе любые зависимые могут рассматриваться как слабые, тогда семантический анализ будет состоять в совмещении имен валентностей с предлагаемыми интерпретациями «слабой» связи, и это будет гораздо более гибкий механизм, чем соединение по заданным моделям управления. Напр., если группа лексем уйти, пойти, выйти и др. требует валентности КОНечная Точка (??,выйти), т.е. куда выйти?, а предложная группа за хлебом или на охоту имеет одним из значений ЦЕЛЬ(охота,??), то они взаимно насытят свои валентности с результирующим СемО ЦЕЛЬ(,) поскольку в иерархии СемО оно является частным случаем СемО КОНечной-Точки (А,В).
Из этого можно сделать вывод, что грамматика слабых связей имеет большую семантическую силу, чем грамматика сильных связей (только глубинных падежей).
Об именах и количестве смысловых отношений
Имена и сильных, и слабых валентностей принадлежат одному списку СемО. Как быть с выбором того метаслова, которое будет представлять в СемП (репрезентировать) весь ряд слов ЕЯ, выражающих одно и то же отношение? Желательно, чтобы оно было однозначным. Так, упомянутая выше лексема ДО мало подходит как представитель простой идеи предшествования во времени: у нее много других значений (пространственное, предельное значение). Это СемО можно назвать, например, РАНЬШЕ(А,В), или его конверсивом ПОСЛЕ(В,А). Но поскольку имена единиц метаязыка мы выбираем как подмножество средств ЕЯ, подобрать полностью однозначные имена из множества слов ЕЯ все равно не удастся: остается только примириться с условной, оговоренной однозначностью. Мы не считаем это свойство метаязыка недостатком: оно компенсирует неточность, размытость употребления слов-отношений в тексте.
Неоднозначность можно уменьшить, сопоставив имени СемО перевод на другие ЕЯ: ведь тот же набор СемО мы получим для любого языка, интерпретировав источники, подобные перечисленным выше. Смысловые отношения – это межъязыковые универсалии. Поэтому их количество не должно быть велико. Обычно указывают цифру от десятка до одной-двух сотен. В нашей практике используется около 70 СемО, из них активных 50. Как уменьшить число СемО, если объявление отношениями только всех предлогов и союзов дало бы около сотни СемО? Конкретно, как отображать в СемП многочисленные виды локализаций (над, перед, позади, впереди) и пр.? Неужели для каждого из них вводить специальное имя СемО?
В любом списке отношений есть отношения Общие (или более общие) и более специальные. Отношение ЛОКализации – безусловно общеязыковое, частое, может встретиться в любом типе и жанре текстов, - поэтому оставим его в главном Списке СемО. Остальные предлоги уточняют локализацию, их можно записать как индекс при ЛОК, например, ЛОК_над(А,В), ЛОК_внизу(А,В). Такое обозначения отношений полезно для выбора правильного перевода. При переходе к массиву текстов, посвященных именно пространственным соотношениям, их можно вынести в основной список и даже поменять местами с родовым СемО: НАД_лок(картина, стол). Это один из приемов настройки грамматики (и словаря) на предметную область. Чтобы не расширять стандартный список СемО за счет очень специализированных связей, тот же прием (индекс при общем имени отношения) также применим и ко всему множеству аспектных слов., напр., ПАРАМ_рост(А,В), ПАРАМ_вес(А,В) и другие. Это решение тем более приемлемо, что данное отношение остается внутри СемУзла, а не становится его внешней валентностью (рост, вес и др. являются неотъемлемым свойством В как главного члена СемУзла). Поэтому мы считаем, что большое количество т.н. аспектных слов, которые по своему структурному положению – первое место - в формуле Р(А,В) могут быть приравнены к СемО, не увеличивает нормативный список.
Что важнее – узлы или отношения?
Семантике полнозначных лексем посвящено очень много работ, по сути дела, почти все словарные статьи ТКС и работы Московской семантической школы, но ни одно описание слова-предиката не обходится без привлечения отношений между составляющими его более элементарными смыслами. Наибольшей популярностью пользуются отношения причины, части-целого и отношения предшествования, видимо, потому, что они формируют логику развития текста. Кроме того, детально исследуется и само отношение причинности (не только в описаниях лексем), со всеми языковыми средствами его выражения, назовем только [Вендлер 1985, Михеев 1990]. И слова, выражающие чистое отношение или тяготеющие к выражению каких-то отношений, не обходятся вниманием, см. фундаментальные исследования [Иомдин 1991, Богуславский 1995, Дискурсивные 1998 и др.]. В работе [Иомдин 1991] подробнейшим образом описана семантика предлога ПО, у которого в общей сложности получилось больше 50 значений. В статье [Иорданская- Мельчук 1996] рассмотрены только причинные значения нескольких русских предлогов, тщательно проанализированы контексты их употребления, что позволяет сделать правильный выбор предлога при переходе от СемП к языковому высказыванию. Замечу только, что львиная доля в описаниях предлогов приходится на рассуждения о семантике слов, соединяемых отношением ПРИЧИНА, и о характере причинности вообще.
В последнее время повысился интерес к предметным именам [Рахилина 1999], особенностям их валентностных свойств. В работе [Кустова 1999] предпочтение отдается тоже сущностям, а не отношениям: «… в актуальной языковой деятельности первичен не предикат, а предмет, т.е. человек «подбирает» не существительные к глаголам, а глаголы к существительным. Создавая текст, человек имеет уже выделенные и выбранные объекты (референты) и каким-то образом представляет отношения между ними (ситуацию). И человек прдбирает подходящий предикат, чтобы обозначить эту ситуацию, выразить отношения между объектами.» (Заметим только, что в нашей модели предикаты в основном тоже принадлежат к сущностным словам, так что получается, что выражение отношений между ними отступает уже на третий план).
Практика создания ИПС довольствуется информационным языком без отношений вот уже более 40 лет (установление парадигматических связей в поисковом образе документа и запроса идет уже не от текста, а от предметной области). А в монографии [Шелов 2000], посвященной исследованию понятийной структуры терминологической системы, роль общеязыковых отношений оценивается очень высоко: он считает, что в определениях терминов должны использоваться общепонятийные слова, и отношения между терминологическими единицами должны быть представлены только семантическими отношениями, существующими в рамках общего языка.
Отношений в любом тексте больше, чем «глубинных падежей». В нашей модели в строящемся СемП отношений больше, чем узлов. Так, для 4-местного предиката Р(А,В,С,Д) в Семп будут записаны 4 СемО как связи с предикатом, а также дополнительные отношения, которые возникают между самими актантами: Р1(А,С), Р2(В,Д) и возможно др. В СемП целого текста у нас добавятся еще СемО между разными предложениями, абзацами, связи имени автора с текстом и другие композиционные СемО. Но все они не добавляют новых типов связей к номенклатуре общеязыковых СемО.
Словам, полностью переходящим в отношение, приписывается в словаре таксономическая категория ОТН, они имеют меньший информационный вес, чем слова-этикетки (слова категории ЭТК, семантические узлы), поскольку обозначают связи между единицами других категорий. Исходный вес СемО увеличивается в ходе семантического анализа текста, если позиции его термов А и В будут заняты единицами с большим весом.
Даже при среднем обобщении список общеязыковых СемО можно свести к обозримому числу (от 50 до 100) таких, которые уже можно считать языковыми универсалиями. Этот список допускает расширения за счет специализации – при переходе к анализу текстов конкретной предметной области. Но для любых специфических отношений типа РОСТ(А,В), ВЕС(А,В) и т.п. всегда существует способ сведения их к вышестоящим СемО, например, ПАРАМЕТР(А,В): ведь СемО образуют свой Тезаурус.
И все же главный критерий важности единиц типа СемО, конечно, не количественный. Это языковые универсалии, - Грамматику таких СемО предлагают как язык межъязыкового общения [Uchida Hirochi 1996] в среде Интернет, причем список СемО практически полностью совпадает с описанным нами (еще в 1967 году) и с тех пор апробированным в ряде реализованных систем.
О значимости СемО говорит и тот факт, что они становятся полями в различных базах данных: ВРЕМЯ, МЕСТО, УСЛОВИЕ, ПАРАМЕТРЫ…По ним задают стандартные вопросы к сообщению: Где? Когда? Почему? и др. СемО МОДАЛьность и квантор отрицания могут менять смысл сообщения на противоположный. Этот ряд свойств можно продолжить.
Если мы собираемся моделировать на компьютере функции логического вывода по тексту, функции сжатия содержания и другие интеллектуальные приемы обработки текста, без аппарата полноценных семантических отношений и в том или ином виде грамматики слабых связей не обойтись.
Для этого нужны не только (и не столько) тонкие описания словесного материала, не столько дифференциация единиц, сколько их обобщения, поиск не только различий, но и сходств, синонимии крупных единиц. Чтобы приблизиться к тем задачам, которые решают системы ИИ, нужен скорее информационный подход с его «классами условной эквивалентности», но примененный не к терминам, а к семантическим отношениям между ними.
Словарная статья словосочетания (Принципы описания)
В описаниях словарных статей словосочетаний (как и других слов-отношений) нами ставилась чисто прикладная задача – обеспечить перевод с естественного языка (ЕЯ) на наш информационный язык-посредник (ИЯП). Это значит, что записи в полях должны быть формальными (за исключением полей иллюстраций и комментариев, которые нужны скорее редакторам и самим составителям). При этом соблюдался принцип «средних» толкований: принят так называемый дескрипторный подход, когда важнее свести несколько ЕЯ-выражений к одному дескриптору (одному общему, родовому отношению), чем разбивать единицу на разные значения соответственно разным классам членов отношения. Мелкие нюансы значений либо игнорируются (так, даже очень многозначный предлог имеет не больше 10 значений), либо отображаются в виде дополнительных индексов при основном отношении-дескрипторе (ср. ЛОК_над, ЛОК_под, …).
Обоснование такого усреднения значений – подготовить СемП текста к следующему этапу сплошного просмотра всего семантического пространства, в котором становятся возможными разные операции над содержанием целого текста, в частности логические выводы, а это гораздо более «грубый» механизм, чем лингвистический анализ.
Подобное структурное и содержательное «выравнивание» семантического пространства текста необходимо только при анализе; при генерации текста (переходе от СемП к ЕЯ-выражению), напротив, потребуется как можно более детальная дифференциация. (Работа Иорданской-Мельчука больше направлена на синтез, диктуя правильный выбор причинных предлогов: из-за, от, из, с, по). Там, где эти авторы выделяют по две разных причинности (из-за 1 и 2, от 1 и 2, по 1 и 2), мы приписываем также одно отношение ПРИЧИНА(А,В). Заметим, что при этом все слова ЕЯ остаются тоже в СемП, и – при необходимости синтеза - всегда остается возможность обратиться к их словарным описаниям.
Нас интересуют в основном описания семантики предлогов и союзов, а также разного рода предложных, союзных и иных комплексов как «чистых» отношений.
Рассмотрим одно кажущееся противоречие. Ведь все СемО принципиально двуместны. Как же отображать в СемП значение таких трех-(если не много-)местных предлогов, как среди и между?
Во-первых, эти два предлога можно понизить рангом, переведя их в индексы при том же отношении ЛОК: ЛОК_среди(А,В), а в описании семантики членов этого сложного отношения задать СХ(В)=МНУ, что означает, что на втором месте данного СемО должен стоять множественный узел: В={…}. Формирование же самих множественных узлов происходит активизацией словарных статей сочинительных союзов и некоторых знаков препинания, - все они тоже часть Грамматики слабых связей.
Примеры словарных описаний
Ниже приведены фрагменты словарных статей нескольких словосочетаний.
ЗГЛ= по мере; ЗН=1(1);
ТИП=ОБОР; КАТ=ОТН; ГХ=СП; СХ=МОДЛ,ОДНОВР; ВАЛ=ОДНОВР(А2,А1); ГХ1=Проп; СХ1=ПРОЦС;
ГХ2=>>Р; СХ2=ПРЕДИК
СинО=обст(с+а2,а1)
ВАР=в процессе; в течение
АНГ=in proportion to; to the extent of
ИЛЛ=По мере продвижения вглубь картина растительности менялась
ЗГЛ=по мере того как; ЗН=1(1);
ТИП=ОБОР; КАТ=ОТН; ГХ=Союз_подч; СХ=МОДЛ,ОДНОВР;
ВАЛ=ОДНОВР(А2,А1); ГХ1=Проп; СХ1=СИТ; ГХ2=>>Проп; СХ2=СИТ
СинО=обст(с+а2,а1)
ВАР=в процессе; в течение; пока
АНГ=in proportion to; to the extent of
ИЛЛ=Он все больше грустил по мере того как росли его долги
ЗГЛ=по … месту жительства; ЗН=1(1);
ТИП=ОБОР; КАТ=АСП; ГХ=НарГ; СХ=ЛОК;
ВСТ=постоянный; временный
ВАЛ=ЛОК(С,А1); ГХ1=ГГ,ИГ; СХ1=ПРЕДИК
СинО=обст(с,а1)
ЗГЛ=прежде всего; ЗН=1(1); ТИП=ОБОР; КАТ=АСП;
ГХ=Вводн; СХ=МОДЛ,СТАДИЯ;
ВАЛ=СТАДИЯ(С,А1); ГХ1=ГГ; СХ1=ПРЕДИК;
СинО=уточн(с,а1);
ВАР=во-первых; вначале; сначала
ЗГЛ=по представлению; ЗН=1(2); КАТ=ОТН,ЭТК; ГХ=СП; СХ=В-СООТВ;
ВАЛ=В-СООТВ(А1,С); АВТОР(А2,С);
ГХ1=ГГ,ИГ; СХ1=ПРЕДИК; ГХ2=>>Р; СХ2=ОДУШ;
СинО=обст(с+а2,а1);
ВАР=в соответствии с представлением
ЗГЛ=по справедливости; ЗН=1(1); ТИП=ОБОР; КАТ=АСП;
ГХ=НарГ; СХ=МОДЛ,В-СООТВ;
ВАЛ=СПОСОБ(С,А1); ГХ1=ГГ; СХ1=ПРЕДИК,ОДУШ
СинО=уточн(с,а1)
ВАР=по совести; справедливо
Условные обозначения:
С – сам оборот или иная описываемая единица
ЗН – номер значения (всего значений)
КАТ – семантическая категория
а1 /А1 - слово- синтаксический / семантический "хозяин" единицы С
а2,а3 /А2, А3 - зависимые от С слова / семантические узлы
а1 ... аК - переменные, обозначающие синтаксический узел (СинУ)
А1 ... Ак - переменные, обозначающие семантический узел (СемУ)
ВАЛ - валентность
ВАР - варианты С
ГХ - грамматическая характеристика С
ГХ1 - грамматическая характеристика "хозяина" (А1); ГХ2, ГХ3 - грамматические характеристики зависимых слов (А2, А3)
СХ - семантическая характеристика С
СХ1 - семантическая характеристика "хозяина" (А1)
СХ2, СХ3 - семантические характеристики зависимых слов (А2, А3)
> - зависимое/хозяин где-то справа от С
< - зависимое/хозяин где-то слева от С
<< - зависимое/хозяин строго слева от С
>> - зависимое/хозяин строго справа от С
Проп - пропозиция
И, Р, Д, В, Т, П – обозначения: сущ. в именит. и т.д. падеже
ИГ - именная группа
ГГ - глагольная группа
ПГ - предложная группа
СП - сложный предлог
СинО - синтаксическое отношение между: с и а1; а1 и а2; с+а2 и а1
обст, уточн – значения СинО (обстоятельство, уточнение)
Некоторые пояснения. Стандартная статья включает сведения о семантических отношениях-интерпретациях данной единицы, о ее валентностях, сфере ее действия (в составе предложения или выходя на уровень межфразовых связей), о предсказываемых грамматических и семантических характеристиках потенциальных членов отношения, о ситуациях, сопровождающих ее значение , и другие полезные сведения (варианты выражения данной связи, перевод и др.). В целях сближения со словарной статьей основного массива само СемО записывается в поле ВАЛ, а в поле СХ это СемО повторяется уже в виде имени СемО (без скобочного хвоста), там же возможны какие-то дополнительные обычные СХ.
При переводе в СемП некоторые словосочетания вводят ещё одну или две дополнительные валентности:
ЗГЛ=по совету; ВАЛ=В-СООТВ(А1,С); АВТОР(А2,С).
Выводы
Задача автоматического извлечения знаний из целого текста едва ли не более трудная, чем создание хорошего автоматического перевода, во всяком случае они соизмеримы. Лишь при очень больших ограничениях на анализируемые тексты (по тематике, по структуре и т.д.) удается сейчас добиться очень скромных результатов в решении и той, и другой задачи. Задача извлечения знаний решается скорее инженерными методами, чем использованием механизмов естественного текста. Теоретического, или, что то же, красивого лингвистического решения эта задача пока не нашла. Мы видим продуктивный путь в создании систем типа KBMT, в которых перевод происходит после получения структуры знаний, где главную роль выполняют смысловые отношения. Но аппарат этих последних должен быть выведен из единиц и свойств естественных текстов.
В настоящее время наш словарь отношений (только для оборотов) включает более 500 таких единиц. Поскольку в такой же форме в нашей модели описываются грамматические конструкции, свободные словосочетания и, наконец, сам язык двуместных отношений, для дальнейшего описания и ввода создается специальная База данных. В статье рассмотрены жесткие и полужесткие обороты как представители слов, переходящих в смысловые отношения СемП. Многие из них ведут себя , как предлоги («чистые отношения»), другие имеют более своеобразное поведение, что и отражается в структуре записи: они занимают первое место СемО и вводят свои валентности (по совести, по предъявлении, по совету и др. вводят ВАЛентность на АВТОРа: Кто предъявляет, Чей совет?). СемО выполняют в структуре текста организующую роль, недаром столько исследований посвящено отношениям причины, времени, локализации, параметров. По ним задаются вопросы к тексту (где? когда? почему? и др.). При этом за ними тянется не такой уж большой «семантический обоз» (по меткому выражению Е.Рахилиной).
Наша задача – перевести в ранг СемО, лексикализовать (в форме словаря) многие грамматические явления ЕЯ, полуграмматические элементы, свести к небольшому числу метаязыковых единиц наиболее частотную часть словесного текстового материала. Это очередное «испытание на прочность» того перечня СемО, который был задан еще в 1967 году и применялся ко многим жанрам текстов, причем не только русского языка. Подтверждение важности таких единиц мы нашли в ранних работах Ю.Д.Апресяна, в глубинных падежах Филлмора, а также в описании языкаUNL (Universal Networking Language), который по составу единиц и определению их семантики мало отличается от нашего словаря-грамматики семантических отношений.
Литература
Апресян Ю.Д. Современные методы изучения значений и некоторые проблемы структурной лингвистики. – В кн.: Проблемы структурной лингвистики. М., 1963.
Вендлер З.. Причинные отношения // Новое в зарубежной лингвистике. Вып. XVIII. – М., 1986.
Дискурсивные слова русского языка: опыт контекстно-семантического описания. Под ред. К.Киселевой и Д.Пайара. М., 1998.
Иорданская Л.Н., Мельчук И.А. К семантике русских причинных предлогов // Московский лингвистический журнал, т. 2. М., 1996.
Иомдин Л.Л. Словарная статья предлога ПО // Семиотика и информатика, вып. 32. М., 1991.
Кубрякова Е.С. “Типы языковых значений”: Изд. “Наука”. М. 1981. Кустова Г.И. Неметафорические когнитивные модели в семантической деривации. // Обработка текста и когнитивные технологии. №4. Труды межд. конф. «Когнитивное моделирование». Пущино 1999. Часть первая.
Леонтьева Н.Н., Никитина С.Е. Смысловые отношения, передаваемые русскими предлогами // SLAVICA, IX. Дебрецен, 1969.
Леонтьева Н.Н. Русский общесемантический словарь (РОСС): структура,
наполнение. - НТИ, сер.2, N12. М., 1997.
Михеев М.Ю. Формальные средства выражения причинного отношения и отношения обоснования в высказывании // НТИ. Сер. 2. – 1990. - № 4.
Рахилина Е.В. Когнитивный анализ предметных имен: от сочетаемости к семантике. // Автореф. д.ф.н. М., 1999.
Реформатский А.А. Лексические мерисмы и семантическая редукция. – В кн.: Проблемы структурной лингвистики 1972. М., 1973, с. 272.
Семенова С.Ю. Семантические поля словаря РОСС: опыт заполнения, анализ дескриптивных возможностей. Материалы к унификации словарных описаний // ДИАЛОГ 2000, Том 2.
Шелов С.Д. Термин. Терминологичность. Терминологические определения. // Издательство СПб университета. СПб, 2000.
Uchida Hirochi, Zhu Meiying, Tarcisio Della Senta. A Gift for a Millenium. http://www.unl.ias.unu.edu, 1996.
[1] Работа выполняется при поддержке Гранта РГНФ № 01-04-16252а и в продолжение работ, поддержанных Грантом РФФИ № 99-06-80296.