Proceedings 2002

Contents

ЕСТЕСТВЕННЫЕ КОГНИТИВНЫЕ МЕХАНИЗМЫ

В ТАТАРСКОМ ЯЗЫКЕ

 

 

Д. Ш. Сулейманов

Казанский госуниверситет, Академия наук Татарстана

dvdt@teleset.ru

 

 

Ключевые слова: морфология татарского языка, когнитивные модели, аффиксаль-ные морфемы, морфотактика, языки искусственного интеллекта

 

Рассматривается ряд морфологических средств татарского языка, кодирующих на лексическом уровне такие когнитивные механизмы как рекурсия, «неопределенность» и некоторые другие, представляющие определенный методологический и практический интерес при разработке интеллектуальных средств обработки информации.

 

 

  1. Введение

 

Известно, что  разработка моделей естественных языков (ЕЯ), исследование их возможностей для разработки языков искусственного интеллекта являются одними из базовых проблем в области построения интеллектуальных систем.

Такие задачи, как компьютерная обработка больших массивов ЕЯ-текстов, ЕЯ-диалог с системой, создание больших банков информации на основе ЕЯ, разработка языков посредников в многоязычной информационной среде, базирующихся на более развитых лингвистических моделях, приобретают особую актуальность в связи с развитием глобальных компьютерных сетей и формированием больших объемов распределенных данных.

На наш взгляд, современные средства накопления и обработки знаний на естественном языке малоэффективны и практически  не справляются  с такими задачами, как поиск и отбор информации в распределенных базах данных, извлечение знаний, семантический анализ текстовой информации, прежде всего потому, что они изначально являются неинтеллектуальными, созданы на основе примитивных искусственных языков программирования, практически представляющих собой подмножество флективно-аналитических языков или искусственных конструкций, созданных на их основе.

В связи с этим перспективным представляется разработка нового программного инструментария по следующей технологии: 1) исследование и выявление естественных грамматических  (морфологических, синтаксических, семантических) конструкций в различных языках, достаточно регулярных и обладающих естественной сложностью, в целях создания на их базе языков искусственного интеллекта нового поколения; 2) разработка языка-посредника на основе подмножеств и конструкций языков с определенными свойствами, позволяющими наиболее адекватно и сжато описывать контекст и быстро обрабатывать тексты на ЕЯ.

Как показывают исследования [1, 2], татарский язык, являясь одним из тюркских языков, имеет богатую, сложную, но достаточно регулярную морфологию, обладает потенциалом, позволяющим эффективно кодировать и компактно хранить информацию, а также реализовывать на уровне аффиксальных морфем такие явления, как рекурсия, «нечеткость». Как известно, умение оперировать с «нечеткими» данными, способность обрабатывать «нечеткие» команды являются свойствами, присущими «интеллектуальной» системе.

В объектно-предикативной модели мира именные группы, как правило, маркируют некое состояние объекта или объектов, в то время как действие, отношения между объектами и группой объектов описываются глагольной группой. Соответственно, выделяются когнитивные механизмы, реализуемые в рамках именной группы и когнитивные механизмы, реализуемые в рамках глагольной группы. Кроме того, сама структура текста, определяемая синтаксическими закономерностями языка, является одним из когнитивных механизмов языка, управляющим в тексте такой важной характеристикой как активность знаний, естественным образом реализуя логическую схему: анализ-действие (известно,  что активность знаний является одним из важных признаков интеллектуальной системы).

В статье описываются и иллюстрируются на примерах соответствующие когнитивные формализмы, выделенные в татарском языке.

 

 

  1. Когнитивные механизмы при описании

состояния объектов

 

Как известно, татарская морфология является формально элегантной, почти автоматной [3], и в то же время имеет естественную сложность. Естественная сложность татарской морфологии заключается, прежде всего, в следующем: 1) возможность присоединения определенных аффиксальных морфем, превращающих именную словоформу в глагольную или в форму прилагательного и наоборот; 2) морфологическое (синтетическое) задание признаков модальности, настроения, эмоционально-личностного отношения к ситуации, объекту или процессу, описываемым данной словоформой; 3) контекстное разнообразие значений аффикса. Известно, что именная группа, как правило, кодирует некую семантическую ролевую ситуацию, а глагольная группа – контекстные отношения над этими ролями. Таким образом, возможность перехода с именной формы к глагольной и наоборот через присоединение соответствующих аффиксов, позволяет описывать одновременно в пределах одной словоформы как сложную ролевую ситуацию, так и контекстные отношения между семантическими ролями. Тем самым обеспечивается компактность описания и хранения информации. Синтетический, аффиксальный способ словоизменения обеспечивает кодирование в рамках одной словоформы некоторого значения, описываемого на флективно-аналитических языках (например, на английском) несколькими словосочетаниями и даже предложениями.

Вместе с тем, морфология является в большой степени регулярной, близкой к автоматной, с небольшим количеством исключений из правил, что обеспечивает минимизацию емкостных и временных функций при обработки текстов на татарском языке, и достаточно простой анализ структуры и значения словоформы, несмотря на естественную сложность морфологии.

Например, словоформа Татарчалаштыргалаштыручылардагыныкыларгамыни? (Разве тем (к тем/на тех), что принадлежит тому (той), что на тех, кто (что) время от времени занимаются татаризацией (переводом на татарский)?) имеет следующую структуру: Татар (Имя сущ.) + ча (Наречие) + ла (Глагол) + штыр (Глагол, залог) + гала (Глагол, залог)+штыр (Глагол, залог)+у (Субстантив., имя действ.)+чы (Имя сущ.) + лар (Множ.) + дагы (Субстантив., локатив) + ныкы (Субстантив., притяжат.) + лар (Множ.) + га (Директив) + мыни (Вопрос, удивление).

Важным свойством татарской морфологии, наряду с ее регулярностью, является фиксированное размещение аффиксов в последовательности аффиксальных морфем. Регулярность морфологии означает, что одна и та же схема сочетания морфем (морфотактика) присуща всем или почти всем именным и глагольным группам, соответственно. Такая возможность позволяет по одной и той же схеме практически автоматно образовывать словоформы с одними и теми же глубинными значениями аффиксов.

Например:

1) Бакча, бакчалар, бакчаларым, бакчаларыма – (‘сад, сады, мои сады, моим садам’)

2) Урман, урманнар, урманнарым, урманнарыма – (‘лес, леса, мои леса, моим лесам’)

Именные корневые морфемы бакча (‘сад’) и урман (‘лес’) имеют одни и те же последовательности аффиксальных морфем с идентичными значениями. Обобщенно, приведенные парадигмы описываются следующими схемами:

Х(Имя сущ.), Х(Имя сущ.)+лар(афф.мн.), Х(Имя сущ.)+лар(афф.мн.)+ым (афф. притяж., 1 л., ед.ч.), Х(Имя сущ.)+лар(афф.мн.)+ым(афф.притяж., 1 л., ед.ч.).+ а (афф.падежн., дат. падеж’).

Позиции аффиксальных морфем, составляющих словоформу, неизменны относительно друг друга. Аффиксальные морфемы определенного типа могут появиться только в соответствующей позиции, либо выпадать вместе с позицией. Такая возможность позволяет по соответствующей позиции определять наличие или отсутствие того или иного признака или свойства описываемого значения (множественность, уверенность, повторяемость и др.).

Таким образом, мы определили два первых когнитивных механизма татарского языка: 1) регулярность морфотактики и 2) фиксированность позиций соответствующих типов аффиксальных морфем.

Именным словоформам соответствует следующая  морфотактика:

<Именная группа> ::=  [<Левая часть именной группы>]<ОСНОВА> [<множественность>][<притяжательность>] [<падежность>][<модальность>]

Примеры:

Китап (‘книга’); Китап(‘книга’ - Имя сущ.)

Китаплар (‘ книги’); Китап(‘книга’ - Имя сущ.)+лар (Множ.)

Китабым (‘моя книга’); Китап (‘книга’ - Имя сущ.)+ым (Притяж.1, ед.ч.)

Китапмы? (‘книга ли?’); Китап(‘книга’ - Имя сущ.) + мы(Вопрос)

Китапларымнанмыни? Китап-лар-ым-нан-мыни? (‘неужели из моих книг?’);

Китап (‘книга’ - Имя сущ.)+лар (Множ.)+ым(Притяж.1, ед.ч.)+нан(Аблатив)+мыни (Вопрос, удивление)

Китапларымдырмы(‘то ли мои книги’); Китап(‘книга’ - Имя сущ.)+лар (Множ.)+ым (Притяж.1, ед.ч.)+дыр(Модальность, сомнение)+ мы(Вопрос)

Как это следует из описания морфотактики, аффиксальная морфема присоединяется справа к именной словоформе, являющейся самой правой составляющей в последовательности словоформ и относится ко всей именной группе.

Например:

Балачактан яраткан китапларым  - ‘книги, любимые мной с детства’

(Балачактан яраткан китап)+лар+ым

Следующая возможность в татарской морфологии, которая может быть отнесена к третьему когнитивному механизму, называется морфологический эллипсис, это:

3) Возможность пропуска последовательности аффиксов при однородных именных словоформах с сохранением ее в последней словоформе.

То есть, возможность вывода любой последовательности аффиксов, общих для однородных членов, вправо, за последовательность однородных членов, и присоединение их к последнему справа однородному члену.

Например:

Ишек алды тавыкларга, казларга, сарыкларга тулы = Ишек алды тавык, каз, сарыкларга тулы.

‘Двор полон кур, гусей, овец’.

Мин кырларыбызга, урманнарыбызга, елагларыбызга шатланам = мин кыр, урман, елгаларыбызга шатланам .

‘Я радуюсь нашим полям, лесам, рекам’.

Одним из важных и интересных когнитивных механизмов в татарском языке является рекурсия, т.е.:

4) Возможность циклического порождения нового значения путем  последовательного применения одной и той же «формулы», т.е. повторного присоединения одного и того же аффикса.

Такими свойствами обладают аффиксальные морфемы –ДАгЫ (локатив2) и –нЫкЫ(притяжат.), которые можно назвать также аффиксами неопределенности, т.е. аффиксами, придающими неопределенность к присоединенным лексемам. (Здесь и далее заглавные буквы в аффиксальных морфемах обозначают вариантность символов в соответствующих позициях согласно закону сингармонизма). Например, пусть задана лексема урман (‘лес’). Присоединение аффикса –дагы порождает новые объекты или свойства, являющиеся неопределенными:  урмандагы – ‘нечто в лесу’; урмандагыдагы – ‘нечто в нечто в лесу’; ураманныкы – ‘то, что принадлежит лесу’; урманныкыныкы – ‘то, что принадлежит тому, что принадлежит лесу’.

По такой формуле может быть образована словоформа практически неограниченной длины. Естественно, такие длинные последовательности морфем в нормальной речи практически не используются. Это, прежде всего, связано проблемами глубины памяти, удобства общения между людьми. Тем не менее, подобное словоизменение является совершенно корректной с точки зрения грамматики татарского языка и словоформа, образованная присоединением любой последовательности, гипотетически всегда имеет смысл, конкретное значение приобретается при «погружении» словоформы в определенный контекст. Приведем пример со следующей словоформой: урманныкындагыныкыныкындагы, которая однозначно раскладывается на следующие составляющие - урман+ныкы+ндагы+ныкы+ныкы+ндагы ‘лес’ (имя сущ., притяж.+ локатив2+притяж.+притяж.+локатив2).

Данная словоформа означает следующее:

‘нечто, находящееся на/в нечто, принадлежащее нечто, принадлежащее нечто, находящееся на/в нечто, принадлежащее лесу’

Нетрудно заметить, что, эксплицитно задавая параметры после каждой морфемы, можно получить контекстную определенность словоформы. В реальных случаях такие параметры задаются имплицитно (т.е. неявно), наполняясь конкретным значением в зависимости от контекста речи. Рассмотрим следующий пример для иллюстрации изложенного утверждения. Пусть после каждого аффикса неопределенности стоят параметры: урман+ныкы(x0)+ндагы(x1)+ныкы(x2)+ныкы(x3)+ндагы(x4)+ныкы(х5), где xiконтекстные объекты, т.е. объекты, приобретающие конкретное значение либо из контекста, либо их задает пользователь (I=1,4). Таким образом, придавая значения параметрам:  x0= «сосна», x1= «ветка», x2= «белка», x3= «хвост», x4= «шерсть», мы получаем следующее контекстное значение: «нечто (значение х5,придаваемое параметру последним аффиксом, осталось неопределенным) на шерсти, что принадлежит хвосту, что принадлежит белке, что на ветке, что принадлежит сосне».

На месте корневой морфемы также может стоять неопределенный параметр: Х+ныкы(x0)+ндагы(x1)+ныкы(x2)+ныкы(x3)+ндагы(x4)+ныкы(х5).  При этом на месте Х может быть любое понятие, задаваемое имплицитно, и раскрываемое через контекст, либо задаваемое эксплицитно (т.е. явно) пользователем. Например, для нашего случая: Х=лес.

Рассмотрим проявление свойства рекурсии на примере целых предложений.

Кыр куяны колакларындагы кара тапларда  матурлык  бар. Урман куяныныкылардагыларныкыннан башкарак. (‘Есть красота в черных пятнах на ушах полевых зайцев. Несколько иная, чем та красота, которая в черных пятнах на ушах лесного зайца’).

Здесь в словоформе куяныныкылардагыларныкыннан = куяны(‘заяц’) +ныкы(х0)+лар(множ.)+дагы(х1)+лар(множ.)+ныкы(х2)+ннан(исх.падеж) ряд понятий (х0, х1, х2) задан имплицитно, однако, однозначно раскрывается по предыдущему контексту (т.е. по пресуппозиции): х0 = колак(‘ухо’); х1 = кара тап(‘черное пятно’); х2 = матурлык(‘красота’).

Второе предложение при полном эксплицитном написании выглядит следующим образом: Урман куяны колакларындагы кара таплардагы матурлыктан башкарак (‘Несколько иная, чем та красота, которая в черных пятнах на ушах лесного зайца’).

Даже на этом коротком примере элементарный расчет показывает, что применение рекурсивных аффиксов приводит к сжатию информации и существенной экономии памяти. В случае применения рекурсии в приведенном примере количество слов сокращается в два с лишним раза и число используемых символов уменьшается на 23 (В варианте без рекурсии: 7 слов, 64 знака; в варианте с рекурсией: 3 слова, 41 знак). При этом по контексту осуществляется достаточно простая и однозначная экспликация неопределенностей, которые известны в лингвистике как явление анафоры. В нашем случае этот тип анафоры можно назвать анафорой рекурсии.

 

 

  1. Когнитивные механизмы при описании

действий

 

Известно, что поверхностное, лексическое описание предикатов (действий, отношений), как правило, осуществляется глагольными группами. Свойства регулярности морфотактики и фиксированности позиций соответствующих типов аффиксальных морфем в татарском языке присущи также и глагольным группам. Глагольным словоформам соответствует следующая  морфотактика:

<Глагольная группа>::=  [<Левая часть глагольной группы>]<ОСНОВА> [<залог>][<отрицание>][<время>] [<лицо>][<модальность>]

Примеры:

1) сал (‘сними’ - глагол)

2) салдыр (‘сделай так, чтобы снял/сними самс него’)

 сал (‘сними’) + дыр (залог понудит.)

3) салдырма (‘не делай так, чтобы снял/ не снимай сам с него’)

 сал (‘сними’) + дыр (залог понудит.)+ма (отрицание)

4) салдырдыгыз (‘сделали так, что снял/ сняли вы сами с него’)

 сал (‘сними’)+дыр (залог принудит.)+ды (прошедшее вр.)+гыз (3 лицо, мн. число)

5) салдырмадыгыз (‘не сделали так, что снял/не сняли вы сами с него’

 сал (‘сними’)+дыр (залог принудит.)+ ма (отрицание)+ды (прошедшее вр.)+гыз (3 лицо, мн. число)

6) салдырмадыгызмыни (‘разве не сделали так, что снял/ разве вы не сняли сами с него’

 сал (‘сними’)+дыр (залог принудит.)+ ма (отрицание)+ды (прошедшее вр.)+гыз (3 лицо, мн. число)

Морфотактика (т.е. правила следования морфем в словоформе), также как и в случае именной группы, определяется для глагольной словоформы, следующей по правилам татарской грамматики самой правой в последовательности словоформ, входящих в глагольную группу.

Например, в глагольной группе:

чабып барып карап алып кайттыгызмы? (букв.: бегом+сходив+посмотрев+взяв возвратились ли?) последовательность аффиксов –ты+гыз+мы присоединяется к последней глагольной форме кайт (пов. накл., 2 л., ед.ч.) (‘возвратись’), очевидно, являясь некоторой за скобочной цепочкой, завершающей глагольную группу и относящейся ко всей глагольной форме. То есть для смысловой экспликации выражения было бы вполне корректно отобразить глагольную группу (скажем, при разметке текста для машинных применений) используя скобочную запись следующим образом: (чабып ‘бегом’ барып ‘сходив’ карап ‘посмотрев’ алып ‘взяв’ кайт ‘возвратись’)+ты(прош. время)+гыз(3 лиц, мн.ч.)+мы(мод., вопрос.)?

Далее, в дополнение к четырем когнитивным механизмам, выделенным на основе именных словоформ, рассмотрим следующие два естественных когнитивных механизма, проявляющиеся в глагольных словоформах.

1) Возможность рекурсивно задавать нечеткие команды и описывать нечеткие действия.

2) Возможность рекурсивно описывать в рамках одной словоформы действия, относящиеся к целой ролевой ситуации.

Свойство 7 кодируется глагольными аффиксами, занимающими позицию залога, т.е. сразу же после глагольной основы, – ГАлА, - штЫр.

Например:

ю (‘мой’) – ‘мыть’ (3 лицо, ед.ч., повел. накл.)

югала (‘мой время от времени’)

ю(‘мой’)+гала (‘время от времени’)

югалаштыр (‘мой время от времени, время от времени – реже’)

ю(‘мой’)+гала(‘время от времени’)+штыр (‘время от времени’)

югалаштыргала (‘мой время от времени, время от времени, время от времени – еще реже’)

ю(‘мой’)+гала(‘время от времени’)+штыр (‘время от времени’)+гала(‘время от времени’)

югалаштыргалаштыргала… (‘мой время от времени, время от времени, время от времени – и еще реже…’)

ю (мыть, корень, 3 лицо, ед.ч., повел.накл.)+гала(‘время от времени-изредка’)+штыр(‘время от времени-еще реже’)+гала(еще реже)+штыр(еще реже)+гала(еще реже)…

Сам факт, насколько редко требуется мыть - определяется исходя из контекстной информации.

Реализация свойства 8 обеспечивается рядом специальных глагольных аффиксов, занимающих также залоговую позицию: -н, -Ыш, -т, -ДЫр.

Рассмотрим изменения ролевой ситуации при присоединении соответствующих аффиксов на примере с глагольной словоформой ташла (‘бросай’).

Участники действия: субъект S, объект-предмет Ok, где k ≥ 1.

Для словоформы ташла (‘бросай’) ролевая ситуация следующая:

S воздействие на Ok

Присоединение аффиксов -н, -Ыш, -т, -ДЫр приводит к изменениям, описанным ниже.

1) –н:

ташлан – ташла+н (‘бросайся’)

Ролевая ситуация:

S воздействие S

2) -Ыш:

 ташлаш – ташла+ш (‘помогай бросать/бросай вместе’)

Участники действия: субъект S, объект-актор Ai,j, объект-предмет Ok, где i – номер группы объекта-актора, i ≥ 1; j – число участников в группе i, j≥ 1.

Ролевая ситуация:

S воздействие (помощь) Ai,j  и (S & Ai,j) воздействие (бросить) Ok.

3) -т, -ДЫр:

ташлат – ташла+т (‘сделай так, чтобы бросил/бросили’)

Ролевая ситуация:

S воздействие Ai,j  -> Ai,j воздействие (бросить) Ok.  Здесь стрелка -> означает импликацию.

ташлаттыр – ташла+т+тыр (‘сделай так, чтобы сделали так, чтобы бросили’)

Ролевая ситуация:

S воздействие Ai,j  -> Ai,j  воздействие Al,m -> Al,m воздействие  (бросить) Ok.

ташлаттырт - ташла+т+тыр+т (‘сделай так, чтобы сделали так, чтобы сделали так, чтобы бросили’)

Ролевая ситуация:

S воздействие Ai,j  -> Ai,j  воздействие Al,m -> Al,m  воздействие As,t -> As,t воздействие  (бросить) Ok.

По такой формуле, подставляя новые определенные аффиксы, можно создавать все новые и новые ролевые ситуации и описывать процессы на лексическом уровне. Например, добавление аффикса –Ыл к последней полученной словоформе: ташлаттыртыл превращает сам субъект в объект-предмет, объект воздействия, т.е. S= Ok.

Получается следующая ролевая ситуация:

S воздействие Ai,j  -> Ai,j  воздействие Al,m -> Al,m  воздействие As,t -> As,t воздействие  (бросить) S.

 

 

 

  1. Заключение

 

В данной статье на примере татарского языка рассмотрены ряд таких когнитивных механизмов и соответствующие им языковые средства, помогающие их вербализации. Умение человека запоминать, хранить информацию в памяти, обрабатывать ее, описывать и передавать в вербальной форме определяется, с одной стороны, наличием в сознании человека глубинных стереотипов, когнитивных моделей, механизмов, описывающих ситуации и процессы, и, с другой стороны, наличием инструментария для описания соответствующих когнитивных механизмов и моделей, формирующихся в сознании, уже на поверхностном, вербальном уровне, в качестве которого наиболее удобным и привычным для человека выступает естественный язык.

Здесь описываются потенциальные когнитивные возможности татарского языка. В татарской речи, как правило, используются словоформы, составленные из не более чем 3-4 аффиксов, что вызвано скорее ограниченными возможностями глубины памяти, и психологическими характеристиками человека, но не закономерностями языка. Вместе с тем, формы слов, приведенные в статье в качестве примеров, включающие последовательности аффиксов из 5-6 и более аффиксальных морфем являются вполне корректными и естественными в языке с точки зрения формальной грамматики и легко трансформируются в простые аналитические формы. Тем более что с точки зрения создания языка искусственного интеллекта, развитого языка программирования, такая синтетическая форма кодирования является достаточно эффективным способом описания, хранения и передачи информации на татарском языке.

 

 

Литература

 

  1. Heintz J. and Schonig C. Turcic Morphology as Regular Language // Central Asianic Jornal (CFJ), 1989. -P.1-24.
  2. Suleymanov D.S. Natural possibilities of the Tatar morphology as a formal base of the NLP // In Proceedings of the First International Workshop “Computerisation of Natural Languages” (Varna, Sept. 3-7, 1999). –Sofia (Bulgaria): Information Services Plc, 1999. -P.113.
  3. Сулейманов Д.Ш. Регулярность морфологии татарского языка и типы нарушений в языке // В сб. трудов «Когнитивная и компьютерная лингвистика» / Серия: Интеллект. Язык. Компьютер. Вып.1. -Казань: Изд-во Казан. ун-та, 1994. -С.77-106.

 

The natural cognitive features of Tatar

Dj. Sh. Suleymanov

 

Key words: Tatar morphology, Cognitive models, morphemes, morphotactics, Artificial Intelligence languages’ implementation, Natural Language Proccessing

 

Up-to-date tools of storing and processing of NL are inefficient and practically have poor possibilities for solving tasks as searching and selecting of information in distributed data bases, information extraction, semantic analysis of texts because they are initially are not intelligent tools being developed using primitive artificial programming languages.

So it is a perspective task to develop a new program tools according to the following technology: 1) the research of natural grammar schemes (morphological, syntactic, semantic) within different NL, which are rather regular and have natural complexity to develop a new generation of AI-languages, 2) the creation of media-language based on the subset of the NL and its formulas with cognitive features that allow to describe contexts more adequately and to process NL-texts quickly.

As our research has proved, Tatar has a potential to code efficiently and store compactly the information, to implement such phenomena as recursion, fuzziness on the level of affixes.

The article describes and gives examples of  natural cognitive features of Tatar.