Proceedings 2001

Back to articles

Возможный подход к универсализации модели

“Смысл <-> Текст”

Соловьев В.Д.

Одним из возможных направлений получения достаточно детального описания языка, пригодного для использования в компьютерных системах, является построение моделей типа “Смысл <-> Текст”. В статье предлагается новый язык репрезентации общих закономерностей поверхностного кодирования семантических признаков. Развиваемый подход призван универсализировать модель Мельчука, повысить уровень ее абстрактности.

Ключевые слова: модель “Смысл <-> Текст”, когнитивные модели, математические модели, маркировка.

Введение

Разработанная в 70-ых годах модель “Смысл <-> Текст” Мельчука [1] (на английском языке частично изложена в [2]) содержит тщательно проработанные семантическую, синтаксическую, морфологическую компоненты и представляет собой хороший образец компьютерно-ориентированного описания языка (на примере русского языка). Она оказала значительное влияние на развитие лингвистики в России, но осталась малоизвестной на Западе, не оказав особого влияния на “mainstream” современной лингвистики.

Включаясь в обсуждение роли модели Мельчука на современном этапе, начатое в [3], в работе анализируется одна из причин малой распространенности этой модели на Западе – недостаточная степень языковой независимости.

Для обеспечения большей универсальности (языковой независимости) синтаксической компоненты модели вводится новый аппарат – кодирования ассоциированных со словами когнитивных признаков. Введено понятие конфликта кодирования и предложена математическая модель разрешения конфликтов.

Узкая языковая ориентация модели

Хотя в [1] об этом не сказано явно, но, по сути, Мельчуком построена модель русского языка. И до сих пор было предпринято лишь немного попыток (одна из них [4]) применить эту модель к другим языкам.

Разумеется, русскоязычными являются синтаксическая и морфологическая компоненты модели – а это очень значительная и наиболее законченная часть модели. Для применения модели к другому языку потребуется фактически заново разработать синтаксический и морфологический блоки. В модели ясно не сказано, что в ней является универсальным, а что языково-специфическим. Выделение и формальное описание универсальной части модели позволило бы ей повысить свой ранг в континууме общетеоретических моделей. Конечно, языково-независимым является семантическое представление, но хотелось бы также вычленить и языково-независимую часть синтаксической компоненты.

Исходя из общей точки зрения, что морфосинтаксические средства нужны для кодирования смысла фразы, обратим внимание на то, что кодируется и как кодируется.

Из выделенных в типологических исследованиях [см. 5] основных семантических (в широком смысле) структур рассмотрим следующие:

1) семантическая роль именной группы (ИГ) в предложении,

2) коммуникативное членение,

3) не/определенность ИГ.

В русском языке они кодируются (в основном) различными средствами. Структура 1 кодируется морфологически (окончаниями и предлогами), структура 2 - порядком слов и интонацией, структура 3 – лексически (с помощью местоимений типа какой-то и этот). В русском языке механизмы поверхностного кодирования упомянутых семантических структур независимы и взаимодействуют между собой весьма слабо. В смысле независимости маркировок основных семантических структур русский язык может быть назван языком с раздельным кодированием. Видимо, это одна из причин того, что в модели Мельчука различные уровни (семантический, синтаксический, морфологический) обрабатываются последовательно и независимо. Хотя циклы в алгоритмах обработки допускаются, все же она носит, в основном последовательный характер.

Воспроизведем (с сокращением некоторых, не относящихся к обсуждаемому вопросу, деталей) схему взаимосвязей между подструктурами русского языка из [6].

Семантика Лексика Словоформы

Морфология

Синтаксис Порядок слов

Актуальное членение Пунктуация

Рис. 1.

На этом рисунке стрелки показывают, какая информация необходима для построения соответствующей подструктуры при синтезе предложения. Из него видно, что актуальное (= коммуникативное) членение совершенно не влияет на морфологический состав слова, а морфологический состав – на порядок слов. Аналогично выглядит и структура английского языка (также из [6]), с той разницей, что актуальное членение там связано стрелкой не с порядком слов, а с синтаксисом. Для других языков схема связей может оказаться более сложной. На рисунке 2 приведена аналогичная схема для тюркских языков

Семантика Лексика Словоформы

Морфология

Синтаксис Порядок слов

Актуальное членение Пунктуация

Рис. 2.

Разница рис. 1 и 2 состоит в следующем. Рисунок 1 не несет сведений о том, как сочленяется информация, поступающая по каждой из стрелок. Информационные потоки могут либо просто суммироваться, не влияя друг на друга, (“аддитивный” случай), либо вступать в противоречие (“конфликтный” случай). В то время, как для русского и английского языков конфликтный случай достаточно редкое явление, в тюркских языках он встречается значительно чаще. На рисунке 2 стрелки, несущие конфликтующие информационные потоки, связаны дугой. Конкретный языковый пример, поясняющий возможный вид конфликтов, будет приведен в разделе 2. Вероятно, модели типа “Смысл <-> Текст” для тюркских языков по своей архитектуре могут заметно отличаются от модели для русского и английского языков.

Проблема разрешения возникающих конфликтов, как представляется, имеет самостоятельный теоретический интерес и может быть вычленена из модели “Смысл <-> Текст”.

Сравним модель Мельчука с генеративной грамматикой с точки зрения ориентации на применение к различным языкам. Хотя первоначально Хомский и строил генеративную грамматику на материале одного английского языка, однако в дальнейшем, как последователями теории, так и самим Хомским были предприняты значительные усилия по применению генеративного подхода к описанию грамматики других языков. При этом сама генеративная грамматика претерпела радикальные изменения. Достаточно упомянуть программную работу Хомского “Принципы и параметры” [7], прямо ориентированную на поиск универсальных способов описания любых естественных языков. Эта тенденция к универсализации и отходу от англо- и европоцентризма продолжается и в минималистской программе [8]. Хотя теории Мельчука и Хомского существенно различаются, все же определенные аспекты хомскианства заимствуются моделью “Смысл <-> Текст”. Главное в подходе Хомского, что следует использовать, на наш взгляд, это методологическая ориентация на создание математически точного аппарата для формулировки гипотез о природе языка и строгой проверки их на материале различных языков. Такая ориентация позволит повысить теоретический статус модели типа “Смысл <-> Текст”.

Таким образом, по нашему мнению, “русско-центризм” модели Мельчука явился серьезным препятствием распространению ее на Западе.

Универсализация генерирования синтаксических структур

При переходе от семантического представления к синтаксическому должны быть не только выбраны лексемы, но и установлены между ними определенные синтаксические отношения. Представляется целесообразным перейти от языково-специфических средств описания синтаксических отношений, свойственных модели “Смысл <-> Текст” Мельчука, к универсальным средствам. Это позволит сформулировать теоретическое ядро модели, содержащее описание общих закономерностей поверхностного кодирования семантических отношений. Причем это ядро должно обладать не только описательной, но и предсказательной, и объяснительной силой.

В данной работе предлагается когнитивно-алгоритмический подход к описанию механизмов разрешения возникающих при генерации поверхностно-синтаксического представления противоречий, о которых говорилось в разделе 1. В этом подходе минимизируется число промежуточных уровней, а также число когнитивных механизмов (в духе последних модификаций теории Хомского) и напрямую соотносятся семантические признаки и поверхностные маркеры.

Объектами, с которыми работает механизм поверхностного кодирования, являются семантические признаки (“быть ремой”, “быть агентом” и т. д.) и поверхностные маркеры (предлоги, аффиксы, интонация, порядок слов и т. д.). Термин семантические признаки трактуется здесь расширительно и, возможно, его следует заменить на “когнитивные признаки”, имея в виду объединение семантических, коммуникативных, прагматических аспектов, а также признаков типа “фокус внимания” [9], характеризующих общепсихологические механизмы.

Основными проблемами в этом подходе будут: выбор признаков и описание механизмов кодирования. Рассмотрим пример из татарского языка (группа тюркских языков), демонстрирующий конфликт между различными механизмами кодирования.

Пациенс маркируется в соответствии со следующими правилами.

Пациенс кодируется предглагольной позицией (глагол всегда стоит на последнем месте).
Если некоторая ИГ помечена в предложении как рема, то она занимает предглагольную позицию, вытесняя пациенса (т.е. возникает конфликт маркировок).
Если пациенс занимает не предглагольную позицию, то он маркируется аффиксом –ны.
Если пациенс определенный, то он маркируется аффиксом –ны и (возможно) лексемой бу “этот”.

Здесь мы видим достаточно сложное взаимодействие (нехарактерное для индоевропейских языков) маркировок всех трех основных семантических структур: семантической роли, коммуникативного членения и референциального статуса, при этом используются общие средства - предглагольная позиция и аффикс -ны. Возможные связи между семантическими признаками и поверхностными маркерами в этом примере могут быть выражены следующим графом.

Пациенс Предглагольная позиция

Рема Аффикс -ны

Определенность Лексема бу

Рис. 3.

Конфликт маркировок появляется, когда различные механизмы пытаются присвоить некоторой ИГ разные (и несовместимые) маркировки или, наоборот, присвоить разным ИГ одну и ту же маркировку, не допускающую дублирования (маркеры “предглагольная позиция” и “-ны” на рисунке 3).

Проблема разрешения конфликта маркировок возникает на завершающих стадиях синтеза поверхностного представления, когда требуется определить порядок слов на основе синтаксической информации и информации о коммуникативном членении предложения и совместить его с уже сгенерированными морфологическими маркерами. Конкретные компьютерные реализации для конкретных языков могут разрешать эту проблему на несколько более раннем или более позднем этапе, или разделить ее на части и обрабатывать их по отдельности. С точки зрения общей проблемы организации языка представляется целесообразным рассмотреть разрешение конфликта маркировок в общей абстрактной форме и с типологических позиций проанализировать механизмы, используемые конкретными языками.

Можно предложить следующую математическую модель конфликта маркировок.

Пусть А = {} – множество слов в предложении. Пусть В ={} – множество маркеров. На множестве BB задано бинарное отношение совместимости маркеров. () означает, что маркеры могут быть применены к одному слову. Пусть каждому слову соответствует множество семантических признаков и . Пусть R бинарное отношение. <> интерпретируется, как “признак слова может быть закодирован маркером ”. Тогда маркировка именных групп в предложении сводится к следующей математической задаче.

Найти подотношение , удовлетворяющее следующим требованиям.

(полнота маркировки) Проекция на первую координату есть P, т.е. должны быть закодированы все признаки.
(корректность маркировки) , т.е. никакое слово не может быть маркировано несовместимыми маркерами.
(не дублирование маркеров) , т.е. один и тот же маркер не может маркировать разные слова.

Замечание 1. Требования 1 и 3 могут быть ослаблены сужением их до подмножества признаков и маркеров соответственно.

Замечание 2. Конкретные языки или семейства языков могут содержать и дополнительные требования.

Предложенная формализация показывает, что задача построения маркировки слов в предложении является обобщением известной задачи нахождения паросочетаний в двудольном графе. Как известно, последняя решается за полиномиальное (от числа вершин в графе) время [10], но алгоритм требует, все же, определенного перебора. Очевидно, язык использует дополнительную информацию, позволяющую элиминировать перебор. Анализ языковых примеров показывает, что в качестве таковой, видимо, выступает определенная система приоритетов и иерархий. Хорошим примером является иерархия доступности Комри SUB > DO > IO > OBL, используемая, в частности, для определения маркировки каузируемого в каузативных конструкциях [11, 12]. Вообще широкое использование иерархий при описании различных фрагментов языков является признаком их релевантности когнитивным языковым механизмам человека.

Маркировка пациенса в тюркских языках дает простой пример приоритетов. (Далее приводится формализация фрагмента рисунка 3.) Пусть - “быть пациенсом”, - “быть ремой”, - предглагольная позиция, - аффикс –ны. Тогда имеют место отношения: R(, ), R(,) и R(,). В татарском языке действует приоритет > , что позволяет удовлетворить требования, выбрав подотношение , так что (,) и (,).

Введение в математическую формулировку системы приоритетов приближает ее к задаче о женитьбе. В [13] предложен алгоритм решающий задачу о женитьбе за время nlog(n), где n – число женихов (в нашей задаче – мощность множества Р). Кажется, однако, что когнитивные механизмы человека справляются с задачей кодирования (и декодирования) слов еще быстрее. Это выдвигает задачу описания систем приоритетов, действующих в естественных языках. Видимо, они должны быть достаточно жесткими, чтобы исключить (или очень сильно ограничить) необходимость перебора при выборе маркеров.

Можно надеяться, что на этом пути может быть получен универсальный язык описания синтаксиса, включающий его динамическую компоненту – процессы выбора поверхностной маркировки.

Заключение

В работе начата разработка универсального когнитивного метаязыка описания кодирования семантических признаков. Предложена математическая модель маркирования, близкая к хорошо известным задачам на графах, и предполагающая иной математический аппарат, чем генеративная грамматика Хомского. Одно из ключевых понятий вводимой модели является конфликт маркировок, иллюстрируемый на примере маркировки прямого дополнения в татарском языке.

Работа выполнена при финансовой поддержке программы “Университеты России”.

Литература

Мельчук И.А. Опыт теории лингвистических моделей “Смысл <-> Текст”. Москва: Наука, 1974.
Mel’chuk I. Meaning-Text Models: A Recent Trend in Soviet Linguistics. Annual Review of Antropology, v.10, 1981, p.27-62.
Большаков И.А., Гельбух А.Ф. Устарела ли модель “Смысл ßà Текст”? Труды межд. семинара “Диалог’99: компьютерная лингвистика и ее приложения”, Москва, 1999, с. 15-24.
Sofia N. Galicia-Haro, I. A. Bolshakov, and A. F. Gelbukh. Aplicacion del formalismo Meaning <=> Text Theory al analisis de textos en espanol (in Spanish). CIC-99, Simposium Internacional de Computacion, November 15 - 19, 1999, CIC-IPN, Mexico D.F., pp. 342-351.
Kibrik A.E. Beyond subject and object: Toward a comprehensive relational typology. Linguistic Typology, V.1, 1997, p.279-346.
Гельбух А.Ф. Между текстом и смыслом. Труды межд. семинара “Диалог’99: компьютерная лингвистика и ее приложения”, Москва, 1999, с. 47-55.
Chomsky N. Principles and parameters in syntactic theory. In “Explanation in Linguistics”, Hornstein N., Lightfoot D. (eds). 1981.
Chomsky N. The Minimalist Program. Cambridge (Mass.): MIT Press. 1995.
Tomlin R.S. Focal Attention, Voice, and Word order: An Experimental, Cross-Linguistic Study.- Downing, Noonan, 1995, p.517-554.
Karp R.M. Reducibility among Combinatorial problems, Complexity of computer computations. Proc. Symp. March 20-22, 1972, p.85-103.
Comrie B. Language Universals and Linguistic Typology. Chicago: The University of Chicago Press, 1981.
Solovyev V.D. Possible generalization of Comrie's hypothesis about the syntactic position of the causee. Web Journal of Formal, Computational and Cognitive Linguistics. 1999, http://www.kcn.ru/tat_en/science/fccl/
Knuth D.E. Stable Marrige and Its Relation to Other Combinatorial Problems. Providence: AMS, 1997.

Proceedings 2001

Contents

Возможный подход к универсализации модели

“Смысл <-> Текст”

Collection of proceedings