СИНТЕЗАТОР ТАТАРСКОЙ РЕЧИ: ВОПРОСЫ ТРАНСКРИПЦИИ ЗАИМСТВОВАНИЙ И ПЛАНИРОВАНИЯ ЯЗЫКА
Т. И. Ибрагимов
Казанский Государственный Университет, филологический факультет
Ф. И. Салимов
Казанский Государственный Университет, факультет ВМК
Р. Р. Хусаинов
Казанский Государственный Университет, факультет ВМК
Ключевые слова: Транскрипция, синтез речи, фонема, заимствование, алгоритм, речевой звук
В статье в рамках создания синтезатора татарской речи рассматриваются вопросы транскрипции русских заимствований. Подробно описана транскрипция слов, содержащих буквы «о», а также консонантные группы. Дана критика отдельных положений нормативной грамматики татарского языка, нарушающих систему языка и усложняющих алгоритмическое описание языка.
Одной из задач, возникающих при построении синтезатора татарской речи, является задача создания алгоритма автоматической транскрипции слов. Разрабатываемый синтезатор относится к типу преобразователей произвольного орфографического текста в речь. Важной составной частью данного типа синтезаторов является транскрипция - представление входного текста в форме звучащей речи. Первым шагом в данном направлении является фонематическая транскрипция - перевод орфографического текста в его фонематическую запись. Помимо решения чисто практической задачи, в работе дается оценка отдельных положений нормативной грамматики в плане обеспечения целостности и стройности системы татарского языка, возможностей его алгоритмического описания.
Расхождения между графикой и звуковой системой языка существует во всех языках, использующих фонетическое письмо. В татарском языке это расхождение оказалось более значительным не столько из-за невозможности передачи в письме всего многообразия речевых звуков, сколько по причине несовершенства орфографии.
Одним из основных принципов, заложенных в основу действующей орфографии современного татарского языка, является графический принцип - написание иноязычных слов так, как они пишутся в оригинале, т.е. в языках, из которых они заимствуются[1]. Действие данного правила привело к тому, что в словарях татарского языка 10-15% слов сохраняют черты арабского письма и звучания, а 20-25% слов (в некоторых словарях доля их доходит до 40%) пишутся и, согласно орфоэпическим нормам, произносятся по-русски. Это обстоятельство лишает татарский письменный язык системности и сильно затрудняет его алгоритмическое описание.
В силу указанных причин при разработке алгоритмов автоматической транскрипции рассматривались два возможных варианта озвучивания татарских текстов:
- Транскрипция слов соответственно орфоэпии татарского, русского и арабского языков
- Транскрипция слов согласно их звучанию в татарской спонтанной речи
Другими словами, решался вопрос - "научить" ли синтезатор произносить арабские слова с арабским акцентом, русские слова - по-русски, а татарские - по-татарски либо озвучивать заимствования согласно фонетике спонтанной, не укладывающейся в рамки нормативной грамматики, татарской речи.
В татарском языкознании предпочтение отдается первому направлению. Так, для того чтобы произносить заимствования согласно орфоэпии русского языка фонетическая система татарского языка была дополнена гласными фонемами /о/, /ы/, /е/, согласными /ц/, /щ/, а также специальными символами "ь" и "ъ". При создании новой орфографии, в связи с предполагаемым переходом на латинскую графику, в целях закрепления фонем /к/, /г/ и /в/ за русскими заимствованиями введены согласные /q/, /g/ и /w/.
В рамках избранного в татарском языкознании направления и на основе фонемной системы, принятой в нормативной грамматике татарского языка, нами была предпринята попытка транскрибировать и озвучить татарские слова по-татарски, заимствованные слова - по-русски и с арабским акцентом. Но это не дало положительных результатов. Выяснилось, что 9-10 указанных выше фонем русского языка, не могут обеспечить русское произношение всех заимствований. Потребуется, по крайней мере, дополнительное включение в фонетическую систему татарского языка фонем /а/ и /ль/, а в оптимальном случае - всех русских гласных и согласных. Так, в словах [kabinetqa] и [garajga] фонемы /а/ в начальном и конечным слогах оказались невзаимозаменяемыми, а слова [tol], [tol’] и [tül] контрастируют не только по гласным фонемам.
Удовлетворить требованиям нормативной грамматики можно было бы включением в базу синтезатора фонетических систем татарского и русского языков, транскрибируя татарские слова согласно орфоэпии татарского языка, а русские слова согласно орфоэпии русского языка. Но это оказалось непростой задачей. Как и следовало ожидать, системность языка проявляется не только на фонемном уровне, но и на уровнях морфем и просодем. Опыты по синтезу речи выявили, что, присоединяя к русским основам татарские аффиксы, не удается достичь естественного звучания слова ни на сегментном, ни на суперсегментном уровнях.
Таким образом, транскрипция орфографических текстов, а, следовательно, и озвучивание их синтезатором должны осуществляться в согласии с собственной фонетической системой татарского языка - той системой, которая нашла отражение и сохранилась в грамматических морфемах и адаптированных заимствованиях. Более полные сведения об этой системе приведены в [2].
Как уже отмечалось, татарские тексты содержат значительное количество русских заимствований. Произнесение и транскрипция одних и тех же букв в русском и татарском языках сильно отличаются. Так, в словах [kolak - ухо] и [sobaka] графемы "к", "о", "а" не могут транскрибироваться одними и теми же фонемами. Следовательно, прежде чем подвергнуться транскрипции каждое слово должно быть опознано как заимствование или незаимствование (при этом, адаптированные иноязычные слова отнесены к незаимствованиям).
В данной работе освещается вторая часть задачи - собственно транскрипция. Алгоритм распознавания слов в качестве русских или татарских был программно реализован и апробирован на словаре, содержащем 26000 слов. С помощью этого алгоритма был составлен словарь заимствований, включающий 12000 лексем.
Работа алгоритма автоматической фонемной транскрипции заимствований начинается с проверки наличия в слове разночитаемых букв. Так, если входное слово Х относится к типу слов, в которых согласные произносятся почти так же, как в татарском, а гласные в данных контекстах и позициях отличаются незначительно (например, в словах "salat" или "bitum"), то буквы будут переходить в одноименные фонемы.
Пусть Х является словом "рекогносцировка". Это слово содержит разночитаемые в русском и татарском языках буквы е,к,о,г,ц,в, а также а, которая в данном окружении будет звучать иначе, чем в слове "qashıq - ложка". В тех случаях, когда слово включает несколько разночитаемых букв, важное значение приобретает очередность их транскрипции. В процессе создания алгоритма была выработана следующая очередность транскрипции разночитаемых букв: ё, е, КГ, я, ю, ц, щ, в, а, VV, э, ь, ъ, к, г, д, б (КГ- консонантная группа, VV- сочетание двух гласных).
По причине большого объема алгоритма (содержит более 1000 правил - предложений) в статье речь пойдет лишь о транскрипциях буквы “о“ и консонантной группы. Это случаи наиболее яркого проявления разносистемности русского и татарского языков и сложностей, вызванных отдельными положениями нормативной грамматики.
Согласно статистике, буква "о" в русском языке является самой употребляемой, Данный факт, нашел отражение и в количестве заимствований, содержащих названную графему. Среди 12000 лексем оказалось 7375 слов с буквой "о".
Как известно, произношение буквы "о" в русском языке зависит от ударности/неударности слога, содержащего "о". Оказалось, что ударность/неударность "о" различается и в татарском произношении этих слов. Так, В.А.Богородицкий отмечает, что в речи татар ударные "о" заменяются фонемой /у/, а неударное "о" - фонемой /а/ [3]. Исследования показали, что в современной татарской речи безударное "о" нередко переходит и на /ы/ (геолог - giulıg).
Таким образом, при транскрипции "о" в задачу автоматического транскрибиратора входило определение ее ударности/неударности, а также замена ударного "о" на /у/ и неударного "о" - на /а/ или на /ы/. Этого можно было бы достичь включением слов с "о" в отдельный словарь и пометкой ударных слогов слов каким-либо символом. В пользу такого решения проблемы говорило и то, что аффиксы татарского языка, присоединяемые к концу основы, не могут изменить позицию ударного слога, т.е. ударение в русских заимствования оказывается фиксированным. Тем не менее, транскрипция слов, содержащих букву "о", с помощью словаря была отклонена как несостоятельная. Применение словаря требует обеспечение синтезатора автоматическим морфологическим анализатором. Трудности его построения обусловлено тем, что транскрибируемые словоформы оказываются частично русскими, частично татарскими.
В предложенном алгоритме транскрипция заимствований с буквой "о" решается на основе различных формальных признаков, используемых в методике анализа. Анализ состоит в разбиении всего множества слов с буквой "о" на непересекающиеся классы и подклассы, в составлении алгоритма транскрипции каждого подкласса и класса, объединении совпадающей части алгоритмов подклассов, а затем классов и, в конечном итоге, выявлении и выделении общих для всех классов правил транскрипции.
Согласно данной методике, слова с "о" были распределены на следующие классы:
- "о" встречается в начале слова - X(o1 )
- "о" на второй позиции от начала - X(o2)
- "о" на третьей позиции от начала - X(o3 )
- "о" на четвертой позиции от начала - X(o4 )
- "о" на пятой позиции от начала - X(o5)
- "о" в позициях выше пяти - X(o6 )
При этом классы X(oi) в свою очередь разбивались на множества слов с одним "о", двумя, тремя и четырьмя "о". Кроме того, слова класса X(oi) были распределены на подклассы по начальным буквам.
Такой подход позволил ориентироваться в многообразии факторов, определяющих характер транскрипции буквы "о", оптимизировать сам алгоритм.
В структурном плане алгоритм транскрипции буквы "о" имеет вид – T{X}= tобщ{t(o1)+t(o2)+t(o3)+t(o4)+t(o5)+t(o6 )}, где X - множество слов, имеющих в своем составе букву "о", t общ - общие правила транскрипции слов, содержащих букву "о" и удовлетворяющих определенным условиям, t(oi) - правила транскрипции слов с "о" в i-й позиции.
Работа алгоритма начинается с проверки входного слова на признак составное/несоставное. Начало слова проверяется на слова "макро", "микро", "гидро", "радио", "аудио", "полит", "борт" и т.д. При обнаружении во входном слове одного из этих преффиксов и при выполнении некоторых других условий оставшаяся часть слова проверяется на признак русский/нерусский. Если слово, содержащее "о", является русским заимствованием и удовлетворяет некоторым признакам, описанным в общей части алгоритма (например, содержит в правой части от вхождения "о" контексты «крат», «сфер», «наль», «саль», «таль», «изм», «нер», «нир», «ист», «инт», «вик», «ция» и пр..), то оно транскрибируется по общим правилам; в противном случае оно транскрибируется одним из алгоритмов t(оi)
Алгоритмы t(оi) включают в себя выделение и анализ префиксов и суффиксов слова (префикс - часть слова, предшествующая транскрибируемому "о", суффикс - часть слова, стоящая справа от последнего вхождения в него буквы "о"), функции поиска в словарях R0-R6 (R0 - словарь исключений из общих правил транскрипции; R1-R6 - словари исключений из правил транскрипции "о" в той или иной позиции;).
Значительный интерес в лингвистическом плане и техническом отношении представляет транскрипция консонантных групп (КГ). Отметим, что для татарского языка сочетание согласных, как в начале, так и внутри, и на исходе слова не свойственно. Из всего многообразия имеющихся в русском языке консонантных групп в исконно-татарских словах встречается лишь сочетание сонорного со смычным внутри и в конце слова.
Согласно орфоэпическим нормам современного татарского языка, КГ в составе заимствований должны произноситься так же, как в русском языке. Но полностью выполнить это условие не представляется возможным. Звуковая оболочка фонетического слова, ритмической группы, фразы состоит из наложенных друг на друга сегментных и суперсегментных звуковых единиц. Словоформу, состоящую из русской основы и из татарских аффиксов, трудно произнести просодией русского и татарского языков.
Сказанное не означает, что такое произношение не доступно компьютеру. Так, слова "tanklarnı" и "ministırlarnıñ" во фразах "Tanklarnı vagonnarga töjäp, Ukrainağa ozattılar" и "cıtlıshta ministırlarnıñberençe kvartaldağı eshläre tiksherelde" (слова " tanklarnı" и " ministırlarnıñ" в этих фразах составляют самостоятельные ритмические группы и не могут не нести в себе просодию данной речевой единицы) в экспериментах были произнесены компьютером с русской и татарской просодиями.
В последствии, однако, пришлось отказаться от попыток сочетать в произнесении заимствований русскую и татарскую просодии и одновременно от озвучивания консонантных групп как в языке-оригинале. Выяснилось, что при транскрибировании консонантных групп согласно орфоэпическим нормам русского языка невозможно построить алгоритм разбиения словоформы на слоги. Системы слогоделения в русском и татарском языках разные и попытка создать из них одну целостную систему не переставляется возможной.
По изложенным выше причинам транскрибирование консонантных групп производилось с учетом фонетических особенностей татарского языка.
Для понимания сути фонетической системы татарского языка в целом и особенностей произнесения консонантных групп, в частности, важное значение имеют исследования В.А.Богородицкого. В [3, с. 44 - 45] он пишет: "В области согласных звуков, прежде всего, отмечу относительно слабую артикуляцию звонких взрывных по сравнению с соответствующими русскими согласными. Так, татарское /б/ диалектально и индивидуально, в некоторых положениях почти неотличимо от губно-губного /в/.... Из глубоких взрывных слабую смычку имеет категория слитных согласных...относительно слов "цветках", "конца" - замечено в моих материалах слабое сжатие, вследствие чего взрывной элемент слышится слабо и преобладает придувной, а некоторые произносят просто /с/".
Произнесение звуков в несколько расслабленном состоянии артикуляторных органов по сравнению с русской артикуляцией обусловлено, как нам представляется, отсутствием словесного ударения и богатым вокализмом. В раслабленном состоянии артикуляторным органам трудно озвучивать сочетание согласных, и они стремятся расчленить КГ на части, чередовать их произнесение гласными.
Рассмотрим, как это выглядит в алгоритме. При транскрибировании КГ согласные были разделены на следующие три класса: сонанты - R{р,л,м,н,й,ñ}, спиранты - S{с,з,в,ф,ш,ч,ж,х,h,w,г} и смычные -T{б,п,т,д,к}. Алгоритм включает следующие процедуры: 1) транскрипция консонантных групп, встречающихся в начале слова - начальные КГ, 2) транскрипция консонантных групп, встречающихся на исходе слова - конечные КГ и 3) транскрипция консонантных групп, встречающихся внутри слова - серединные КГ.
Среди слов, содержащих КГ первого типа, чаще других встречаются слова, начинающиеся на сочетание TR (плакат, блиндаж, трактор, кран и т.д.). Хотя в исконно татарских словах данное сочетание в данной позиции и не встречается, но в спонтанной речи в словах со слоговой конструкцией С1 Г1 + С21 Г2 С22 (С - согласная, Г - гласная фонема) Г1 нередко выпадает. Выпадает именно в тех случаях, когда Г1является краткой гласной (краткими являются гласные /ы/, /е/, /о/, /љ/), С1 относится к смычным, а С2 - к сонорным. По-видимому, сочетание TR - в татарском языке, так же, как в других языках, не является неудобным, и не требует дополнительных усилий при произнесении.
Сказанное в определенной степени относится и к КГ, представляющим пару из спиранта и сонанта. В словах со слоговой структурой С1 Г1 + С21 Г2 С22 + ..., в которых Г1 является краткой, С1 - спирантом, а С21 - сонорным, и при этом длина слова насчитывает более двух слогов, хотя значительное сокращение длительности гласного Г1 и имеет место, но полное выпадение согласного Г1 не наблюдается. (Например, shelektän, sınatmıj, holıksız и т.д.). Учитывая данное обстоятельство, а также многочисленность таких заимствований и частую употребительность их, при транскрибировании сочетания SR не разделяются вставочной гласной.
Среди заимствований, содержащих КГ, немалый процент составляют слова, начинающиеся на сочетание ST (студент, шкаф, штык, склад). С антропофонических позиций артикуляция сочетание STсчитается менее удобным, чем сочетания TR и SR. Многочисленные эксперименты по аудированию синтезированной речи подтвердили эту позицию. В спонтанной татарской речи слова на ST дополняются начальным гласным /ы/ либо /е/, в результате чего происходит пераспределение слогов (сту+дент - ыс+ту+дент, сте+на - эс+ти+на).
Артикуляция КГ на исходе слова несколько отличается от произношения их в начале слова. Так, если сочетание TS в начале слова может произноситься без вставочного гласного, то на исходе слова разделение сочетания TS гласным является обязательным (ксилафон, бокс – бокыс, киоск - киосык). В некоторых случаях одна из согласных вовсе не произносится (коммунист-каммунис). В спонтанной речи вставка гласного не наблюдается лишь в одном случае - когда согласные КГ представляют сочетание RT (торт, талант, болт).
Различия в артикуляции начальных и конечных КГ обусловлены особенностями просодии ритмической группы, равно как и фонетического слова. Для ритмической группы - основной просодической единицы татарской речи - характерно падение основного тона, что связано с более энергичным произнесением ее начала и несколько расслабленным произнесением конечных слогов - на конечной фазе выдоха.
В качестве примера приведем часть алгоритма транскрибирования конечных КГ. В случае наличия трех согласных С1С2С3 конце слова данная цепочка разбивается гласными «е» или «ы» - С1С2ГС3(ансамбль - ансамбел, Маркс-Маркес). Если слово завершается КГ класса RT, то вставка гласной может осуществляться только если изменения первая согласная не является буквой «р», а вторая лежит в множестве {«к», «г»}. (танк – танек, кинг – киныг, борт - борт). Если согласные в конце слова образуют группу RS, то при транскрипции между ними вставляется гласная «ы» (фарс – фарыс, марш - марыш). В случае если слово завершается на две одинаковые согласные, то при транскрипции одна последняя буква выпадает (класс – клас, килограмм - килаграм). Аналогичное преобразование касается слов, завершающихся КГ группы ST, если последней согласной является одна из букв «т» или «д» (коммунист-каммунис, поезд - пуйыз), в противном случае между согласными вставляется буква «ы». Для КГ из групп {TS, SR} между согласными всегда вставляется гласная «ы» (бокс – букыс, динозавр – диназавыр).
Более разнообразными как по составу, так и по числу составляющих являются серединные КГ. Серединные КГ состоят, по крайней мере, из трех согласных, нередко встречаются четырех - и даже пятикомпонентные КГ (ландскнехт, партвзнос, абстракт, конструктор). Это обстоятельство, безусловно, затрудняет транскрипцию данного типа КГ. Дополнительную сложность вносит и то, что многие конечные КГ в случае присоединения татарских аффиксов превращаются в серединные трех - четырехкомпонентные КГ. Транскрипция таких КГ в отдельных случаях отличается от сочетаний согласных, содержащихся в основе слова. В виду громозкости алгоритма полное его описание не приводится.
В настоящей работе, помимо решения прикладной задачи, выполнена оценка отдельных положений нормативной грамматики в плане обеспечения системности татарского языка. В процессе разработки автоматического фонематического транскрибиратора было выявлено, что механическое объединение двух-трех фонологических систем не приводит к созданию новой системы. Такое объединение в значительной степени затрудняет алгоритмическое описание языка, усложняет его внедрение в новые информационные технологии.
Литература
- Татарская грамматика, том 1. Казань: Татарское книжное издательство, 1993
- Ибрагимов Т.И. К проблеме фонематического представления орфографического текста в синтезаторе татарской речи. //Труды математического центра имени Н.И. Лобачевского. 1999, Т.4, Компьютерная лингвистика. Изд-во“УНИПРЕСС”, Казань, с. 84-93.
- Богородицкий В.А. Введение в татарское языкознание. Татгосиздат, Казань, 1953.
The Tatar Speech Synthesizer: Problems of the Loan ~ Word Transcription and the Language Planning
- I. Ibragimov, F. I. Salimov, R. R. Khusainov
Key Words:Transcription, speech Synthesizer, phonema, algorithm
The objective of the present research is the phonetic transcription of loan ~ words. For this purpose, particular concepts of the standardized tatar grammar have been analyzed and evaluated from the standpoint of the language plan maintenance. Development of an automatic phonemic transcriber has revealed that a mechanical combination of two or three phonological systems doesn’t give rise to a new one. Such a combination makes the algorithmic description of a language largely difficult and hampers its being applied in new information technologies.