Сборник 2000

Реализация контекстных соответствий V:u, V:U, V:w, Y:I и Y:0 в файле фонологических правил

 

 

 

Д.Ш.Сулейманов, Р.А.Гильмуллин

Академия наук Татарстана, Казанский государственный университет

selet@bancorp.ru

 

 

Аннотация

 

В статье описываются фонологические правила представления соответствия лексического символа V татарского языка поверхностным символам u, U и w и лексического символа Y поверхностным символам I и 0 при генерации словоформы. Лексический символ V, в отличие от большинства лексических символов, представленных в алфавите файла правил,  участвует в формировании только одной аффиксальной морфемы, которая после прибавления к глаголу в форме 2 л. ед. ч.  образует номинативную форму. Поверхностные символы u, U и w являются алломорфами соответствующей аффиксальной морфемы. Другой лексический символ Y, также рассматриваемый в данной статье, используется в качестве символа, позволяющего описывать некоторые исключительные ситуации.

 

1. Введение

 

Татарский двухуровневый морфологический анализатор - это программа, которая осуществляет  разложение произвольных словоформ на морфемы и генерацию словоформ на основе фонологических и морфотактических правил [1]. Анализатор построен на основе программного инструментария  PC-KIММО,  использующего лингвистические описания фонологии и морфологии естественного языка (ЕЯ) для обработки словоформ [2]. Используя программный модуль - генератор, PC-КIММО переводит  заданную лексическую форму, составленную из морфем, в поверхностную, а используя программу распознавания,  заданную поверхностную форму (т.е. нормальную произвольную словоформу)  переводит в лексическую (Рис. 1). Поверхностная форма - это запись словоформы согласно орфографическим правилам, т.е. формирование словоформы из основы и алломорфов. Лексическая форма словоформы - это обобщенная запись, которая выражается последовательностью морфем.

В татарском языке, как и в других тюркских языках с агглютинативной морфологией, при обработке естественно-языковых текстов весьма важным является морфологический анализ, т.е. разложение словоформы на составляющие ее морфемы и генерация словоформы из морфем по правилам фонологии.

Данная статья является третьей из серии запланированных, в которых будут детально описываться  правила  генерации словоформ из составляющих их морфем, и посвящена  раскрытию следующих пяти правил файла фонологических правил относительно соответствий V:u, V:U, V:w, Y:I и Y:0. Правила описываются в том порядке, как они представлены в файле фологических правил. Файл фонологических правил татарского языка состоит из 42 правил, 11 из которых реализуют ситуации, вызванные нарушениями  морфологии языка [3].  Описание Правил (1-7) приведено в работах [4] и [5]. В этой статье описаны cледующие Правила (8-10) представления аффикса номинизации, а также Правила (11) и (12), описывающие исключительную ситуацию, связанную с нарушением регулярности. 

 

 

 

Рис.1. Структурно-функциональная схема двухуровневого анализатора

 

Рис.1 отражает структурно-функциональную схему двухуровневого морфологического анализатора. Генератор, используя  файл фонологических правил, лексическую записьbakCa+KE переводит в поверхностную - bакCаgа. Распознаватель, используя оба файла - файл фонологических  и файл морфотактических правил, словоформу bакCаgараскладывает по составляющим и соответствующим им содержательным описаниям: Исем(baкCа)+[падеж.афф.(-KE)].

 

 

2. Структура правила

 

Фонологическое правило в РС-КИММО имеет следующее обобщенное представление:

ПРАВИЛО V:w < = > ЛК _ ПК,                         (П)

состоящее из трех частей, где

1) V:w – соответствие лексичекого и поверхностного символов,

2) < = >   - оператор, означающий, что соответствие проявляется всегда и только в этом контексте,

3) ЛК_ПК – выражение, означающее левосторонний и провосторонний контексты (ЛК и ПК, соответственно). Знак подчеркивание "_" обозначает позицию, в котором проявляется соответствие V:w, т.е. V заменяется на w в зависимости от контекста.

Кроме приведенного здесь оператора, в РС-КИММО используется еще 3 следующих типа операторов, определяющих взаимосвязь соответствия с контекстом:  

= >  - означает, что соответствие проявляется только в этом контексте, но не всегда; 

< = - означает, что соответствие проявляется всегда в этом контексте, но не только;

/ < = - означает, что соответствие никогда не проявляется в описанном контексте.

Подробное описание структуры фонологических правил приводится  в [2].

 

 

 

  1. Описание пяти контекстных правил из файла фонологических правил татарского языка.

 

A?             Интерпретация фонологических правил, описывающих соответствия V:u, V:U и V:w

Следующие три правила описывают в файле правил соответствия V:u, V:U и V:w:

(8) RULE V:u =>   @:BACKV (+:0)  (H:0) (CS) +:0_;

(9) RULE V:U =>   @:FRONTV (+:0) (H:0) (CS) +:0_;

(10) RULE V:w <=> @:VOWEL +:0 _+:0 С:0 [H:e|H:ы];

Далее рассмотрим каждый из контекстов, в которых наблюдается соответствия, описываемые правилами (8-10):

(а) @:BACKV (+:0) (H:0) (CS) +:0_;

(б) @:FRONTV (+:0) (H:0) (CS) +:0_;

(с) @:VOWEL +:0 _+:0 С:0 [H:e|H:I];

Контекст (a) Правила (8) утверждает, что лексический символ V соответствует поверхностному символу u если ему предшествует символ +, который соответсвует символу 0; далее может быть любой символ из множества согласных букв CS; далее может идти лексический символ H, на поверхностном уровне соответствующий символу 0, далее снова символ +; далее любой символ из множества заднего ряда гласных BACKV.  

Приведем примеры с контекстом (а). Пусть на вход генератора подаются следующие последовательности морфем:

at+V                            ‘стреляй' + [аффикс номинизации]

kara+Ыл+ V    ‘смотри' + [аффикс взаимного залога] +                                                

                                                                                               [аффикс номинизации]

В процессе генерации по файлу фонологических правил для первого примера устанавливаются промежуточные соответствия а:а, t:t, +:0, для которых нет специальных правил соответствия; далее работает Правило (8), левый контекст для которого удовлетворяет контексту (а),  также для второго примера, сначала устанавливаются промежуточные соответствия а:а, t:t, +:0; далее устанавливается соответствие H:0 Правилом (6); далее работает Правило (8), левый контекст для которого удовлетворяет контексту (а) и, следовательно, Правило (8) для выше приведенных примеров устанавливает соответствие V:u   

(Л.у.): at+V                 

(П.у.): at0u                 

(Л.у.): kara+Hl +V

(П.у.): kara00l0u                     

Генератор выдаст следующие поверхностные формы записи:

atu                   стрельба, выстрел'

karalu  ‘быть осмотренным'

Контекст (б) Правила (9) строится также, как и контекст Правила (8), с той лишь разницей, что множество гласных заднего ряда BACKV заменяется на множество гласных переднего ряда FRONTV:

Примеры:

kit+V   уходи ' + [аффикс номинизации]

bAr+Hl+V        ударь ' + [аффикс взаимного залога] + [аффикс номинизации]

Оба примера лексического соответствия V:U удовлетворяют контексту (б) Правила (9):

Генератор выдаст следующие поверхностные формы записи:

 kitU                уход '

bArelU столкновение '

Рассмотрим далее контекст (в) Правила (10):

(в) @:VOWEL +:0 _+:0 С:0 [H:e|H:I];

Контекст является лево- и правосторонним. Итак, лексический символ V соответствует поверхностному w, если ему предшествует лексический символ +, соответствующий на поверхностном уровне символу 0; далее любой символ из множества гласных букв VOWEL. Правый контекст тоже содержит лексический символ +, соответствующий поверхностному символу 0; далее лексический символ С, соответствующий поверхностному символу 0; далее лексический символ H, соответствующий либо е, либо I. 

Пример. Пусть на вход генератору подаются следующие лексические формы:

kara+V+HN       смотри ' + [афф. наст. времени] + [афф. притяж. 2-го лица ед. ч.]

fikerlA+V+HN     ‘ рассуждай ' + [афф. наст. времени] + [афф. притяж. 2-го лица ед. ч.]

Поверхностные формы будут иметь вид:

       каrаwIN                       твой взгляд '

       fikerlAweN                   ‘ твое рассуждение '

 

B?             Интерпретация фонологических правил, описывающих соответствие Y:I, Y:0

Следующие два правила описывают в файле правил соответствия Y:I, Y:0:

(11) RULE Y:I => BACKV CS_CS (+:0 H:I);

(12) RULE Y:0 => CS_CS +:0 (@:0)[H:I|H:e];

Правила (11) и (12) лексического соответствия Y описывают некоторые исключительные ситуации морфологии татарского языка, возникающие в словоформах при использовании аффиксов притяжательности.

Рассмотрим контекст (б) BACKV CS_CS (+:0 H:I)  Правила (11).

Контекст (б) утверждает, что лексический символ Y соответствует поверхностному символу I, если:

  1. слева направо ему предшествует любой символ из множества согласных букв CS и далее любой символ из множества заднего ряда гласных BACKV.
  2. справа налево от символа следует любой символ из множества согласных букв CS, далее символ +, соответствующий символу 0 на поверхностном уровне, далее лексический символ H, соответствующий поверхностному символу I.

Пример:

halYк+Hm        ‘ народ ' + [афф. притяж. 1 л. ед. ч.]

Контекст удовлетворяет, условию контекста (б) и генератор выдаст следующую форму:

halIgIm ‘Мой народ '

Рассмотрим контекст Правила (12):

(в) CS_CS +:0 (@:0)[H:I|H:e];

Контекст (в) утверждает, что лексический символ Y соответствует поверхностному символу 0, если:

  1. слева направо ему предшествует любой символ из множества согласных букв CS.
  2. справа налево от символа следует любой символ из множества согласных букв CS, далее может быть любой символ, соответствующий поверхностному 0, далее лексический символ H, соответствующий либо е, либо I.

Пример:

halYк+Hm        ‘ народ ' + [афф. притяж. 1 л. ед. ч.]

Контекст удовлетворяет, условию контекста (б) и генератор выдаст следующую форму:

halkIm    Мой народ '

 

Заключение

 

Итак, в данной статье описаны Правила (8-10) представления аффикса номинизации и Правила (11) и (12), описывающие некоторую исключительную ситуацию, возникающую в связи с нарушениями регулярности морфологии татарского языка. В данном случае по причине неоднозначности орфографии в таких словах как: halIgIm(halkIm) – ‘мой народ, каlIкtI (kalku) - ‘всплытие’, hоlIk (holIk) ‘натура’, закрепленных, по всей вероятности, при переходе с арабской графики на кириллицу.

Файл фонологических правил, наряду с файлом морфотактичсеких правил [1], является формальной базой татарского двухуровневого морфологического анализатора, выполненного по совместному проекту с лабораторией Билкентского университета в рамках Программы НАТО «Наука за стабильность». В настоящее время двухуровневая модель морфологии татарского языка, включающая описанные в данной статье правила, используется при разработке татарско-турецкого автоматизированного переводчика.

 

 

Литература

 

Suleymanov D.Sh., Gilmullin R.A., Guilmy A.A. «A Two-level phonological rules of tatar morphology». KDS-97. Шестая Международная конференция «ЗНАНИЯ - ДИАЛОГ - РЕШЕНИЕ». Сборник научных трудов в двух томах. Ялта - 1997. Том 1. -с.299-305.

Evan L. Antworth. «PC-KIMMO: A Two-level Processor for Morphological Analysis». SUMMER INSTITUTE OF LINGUISTICS. Occasional Publications in Academic Computing , 1990.

Сулейманов Д.Ш. Регулярность морфологии татарского языка и типы нарушений в языке. -Казань. Изд-во КГУ. В сб. Трудов «Интеллект. Язык. Компьютер», вып.1,1994. -с. 77-106.

Сулейманов Д.Ш., Гильмуллин Р.А. Реализация контекстных соответствий А:а, А:ђ в файле фонологических правил. // Cборник трудов Математического центра имени Н.И. Лобачевского. Т.4. Компьютерная лингвистика. – Казань: УНИПРЕСС, 1999. – с.127-137.

Гильмуллин Р.А. Реализация контекстных соответствий Ы:ы, Ы:е и Ы:0 в файле фонологических правил. // Cборник трудов Математического центра имени Н.И. Лобачевского. Т.4. Компьютерная лингвистика. – Казань: УНИПРЕСС, 1999. – с.51-58.

М Закиев М.З. Татарская грамматика. Т2. Морфология. -Казань: Таткнигоиздат, 1992. -   296 с.