ПРАКТИЧЕСКАЯ ТРАНСКРИПЦИЯ ФАМИЛЬНО-ИМЕННЫХ ГРУПП ДЛЯ МАШИНОЧИТАЕМЫХ ДОКУМЕНТОВ
А. В. Бондаренко
Государственный Научно Исследовательский Институт Авиационных Систем
С. В. Ёлкин
Московский Государственный Инженерно Физический Институт (университет)
elkin_serg@mail.ru
Э. С. Клышинский
Московский Государственный Интститут Электроники и Математики
klyshinsky@mail.ru
О. Ю. Слёзкина
Российский Государственный Гуманитарный Университет
Alienta@yandex.ru
Ключевые слова. Машинная транскрипция, фонетика, фонетическая таблица, многоязыковая система, транслитерация.
Для задачи практической транскрипции фамильно-именных групп составлена единая фонетическая таблица. Использование уже имеющихся таблиц вызывает объективные трудности. Транскрипция при этом осуществляется в два этапа. На первом этапе фамильно-именная группа переводится в промежуточное фонетическое написание, в соответствие с таблицей, а затем из него – в кириллическое написание. Сама транскрипция осуществляется за счет работы программного движка, который остается неизменным при присоединении к нему баз транскрипции различных языков
Созданная программа «ТрансСкриба» позволяет успешно решить проблемы качественной транскрипции. При этом программа может использоваться не только для транскрипции фамильно-именных групп, но и других слов языка, записанных в латинском алфавите.
- Введение
Одной из важных задач, встающих при оформлении и обработке машиночитаемых документов, является правильная транскрипция фамильно-именных групп на русский язык. Эта задача имеет системный характер. Для её решения требуется устранить множество разнородных проблем:
- Наличие в некоторых странах нескольких национальных систем транскрипции и транслитерации с национального языка на латиницу, причем часто конкурирующих.
Например: пиньин и Уэйда в китайском; ромадзи, кунрэй ("официальная") и система Хёпберна в японском; ГОСТ 16876-71, ISO 9, Библиотеки конгресса Соединенных Штатов, АH СССР, Yellow pages в русском и т.д..
- Отсутствие или плохая разработанность систем транскрипции в некоторых языках на кириллицу, например в арабском, турецком и др.
Во многих языках (например, в английском) зачастую нет однозначных правил транскрипции, либо имеется большое количество диалектов, затрудняющих выбор правильного варианта перевода.
- Отсутствие точного фонетического соответствия между звуками различных языков.
Во всех естественных языках в целом имеется приблизительно 100 фонем, звуков же несколько сотен, в то время как в каждом отдельном языке их несколько десятков. Это приводит к тому, что при создании систем транскрипции приходится ставить в приблизительное соответствие звукам одного языка звуки другого. При этом зачастую теряется важная фонетическая информация, такая как длительность, палатализованность, высота тона и др.
- В общем случае отсутствует взаимнооднозначное соответствие при транскрипции с национального языка на латиницу и обратно.
В соответствии с международными требованиями машиночитаемые документы оформляются латинскими буквами, в связи с чем при транскрипции берется не само слово языка-оригинала со всеми его специфическими буквами и диакритиками, а оно же, записанное латиницей.
- Трудности при переводе имен собственных на латиницу средствами национальных систем транскрипции для лиц, чьи имена принадлежат другому языку или вообще иной языковой группе. Например, перевод с испанского языка фамилии француза (François Krauth), проживающего в Испании, на латиницу (Franсois Krauth), а затем на кириллицу: вместо Франсуа Крот, его фамилия будет переведена на русский как Франкоис Краутх (в соответствии с правилами испанского языка).
- Отсутствие исчерпывающего списка имен для каждого языка (хотя бы собственно имен, а не фамилий). В противном случае проблема могла бы быть решена уникальным переводом каждого имени и создания баз данных таких переводов.
- Борьба между правилами транскрипции, принятыми в настоящее время, и исторической традицией при переводе иностранных имён, а также возникающие при переводе проблемы неблагозвучности.
- Встречающиеся в практике случаи перевода в художественной литературе имен собственных по смыслу.
- Отсутствие единого мирового стандарта для перевода имен собственных с различных языков (хотя бы на латиницу).
Указанные выше трудности делают создание многоязыковой машинной системы транскрипции фамильно-именных групп особенно ценным.
2. Анализ существующих средств машинного перевода фамильно-именных групп
Рассмотрим теперь уже существующие транслитераторы, транскрипторы и машинные переводчики. Вышеназванные системы отражают 3 основных метода перевода фамильно-именных групп:
- перевод, при котором некоторому часто встречающемуся имени ставится в соответствие его эквивалент, устоявшийся в данном языке в данный период времени;
- транскрипция (точнее практическая транскрипция), когда имени собственному одного языка ставится в соответствие слово другого языка, наиболее точно отражающее его звучание в родном языке;
- транслитерация – побуквенная передача имен собственных, записанных с помощью одной графической системы, средствами другой графической системы. Базируясь на каком-либо алфавите, транслитерация допускает условное употребление букв, введение дополнительных и диакритических знаков.
Было проведено тестирование различных программных средств, доступных для пользователей сети Интернет или продаваемых на рынке. Для тестирования была составлены выборки, причем в их состав входили не только имена, характерные для данного языка, но и переведенные на него с других языков. Таким образом, моделировалась ситуация, имеющая место в практических задачах.
Результаты тестирования записывались в виде таблицы, в которой основными пунктами сравнения было количество ошибок разных видов:
Вид ошибки |
Вес Wiошибки |
Не переведена вся фамильно-именная группа |
1 |
Не переведен один из элементов фамильно-именной группы (имя или фамилия) |
0,5 |
Не переведен символ (буква) |
0,03 |
Пропущена буква |
0,02 |
Вставлена лишняя буква |
0,02 |
Две буквы переставлены местами |
0,04 |
Не верно вставлена буква |
0,02 |
Не отделена приставка |
0,02 |
Формула расчета качества перевода имела вид:
Мера качества перевода- M,
Количество ошибок данного типа – Ni ,
Вес ошибки – Wi
M=, где К – количество типов ошибок.
Формула применима на конкретной конечной выборке, для использования её на произвольной выборке необходима нормировка по каждому типу ошибок (см. второй столбец таблицы).
Из десяти протестированных программ 7 являлись транслитераторами, никак не учитывающими особенности и правила чтения в том или ином языке, одна машинный переводчик, и две транскрипторы. Для выборки в 100 имен собственных количество ошибок колебалось от 70 до 150 штук, а мера качества перевода от 3,3 до 10,5. Наилучшее качество показали Betelgeuse Tr (3,8) и Argrig's Trans (3,3). Отсутствие ориентации на определенный язык, естественно, приводило ко множеству ошибок. Так, например, José Cristóbal (Хосе Кристобаль) одним из транслитераторов (HS Transliter) был переведен как Жосе Цристобал, а другим (Cifrica) Джосе Сристобал. В том и в другом случае не учитывались правила чтения испанского языка (такие как: «с» перед согласной читается как «к», «j» - как «х», а не как «ж» или «дж» и т.д.). Из сказанного выше становится очевидно, что транслитерация, широко используемая пользователями компьютерных сетей, для наших целей оказывается непригодной. Она не может обеспечить качественного перевода фамильно-именной группы не просто на латиницу, а на определенный язык, чтобы при этом носители этого языка произносили ее максимально близко к ее звучанию на родном языке.
Две протестированные программы при переводе использовали метод транскрипции, однако недостатков перевода у них было не намного меньше. Первая из них (Hieroglyph) довольно хорошо перевела всего лишь около трети предложенных ей фамильно-именных групп, остальные же оставила без перевода. Вторая (Translit to Cyrillic) перевела все фамилии, однако процент ошибок был очень велик.
И последняя из протестированных нами программ – машинный переводчик Промт – выдала самый лучший результат, однако в переводе, помимо оставленных без перевода слов и неверно переведенных букв и буквосочетаний, были зафиксированы также ошибки, когда слово именно «переводилось», т.е. вместо звукового соответствия имело место смысловое. Например, Corse Matin была переведена как Корсика Утро, что неприемлемо при работе с фамильно-именными группами.
В результате, оказалось, что задача создания машинной системы, осуществляющей практическую транскрипцию с приемлемым качеством, так и не решена.
3. Создание единой фонетической таблицы
Традиционный подход, принятый в практической транскрипции, требует составления отдельной таблицы транскрипции с каждого исходного языка на каждый язык перевода. Внедрение этих таблиц в код программного продукта требует совместной работы как программистов, так и лингвистов, что может являться затруднительным или невозможным при большом количестве языков. В связи с этим было принято решение создать программный продукт, работа которого основывается на единой фонетической таблице, что является фактором, в корне отличающим систему от ей подобных. Создание единой фонетической таблицы для всех языков позволило намного сократить количество правил транскрипции, работу по их написанию и, главное, улучшило качество транскрипции.
Если в существующих системах перевод осуществлялся напрямую с исходного языка на язык перевода (что, как отмечалось, требует написания правил транскрипции для каждой такой пары языков), то использование единой фонетической таблицы позволило писать для каждого языка лишь правила с исходного языка в знаки из этой таблицы и обратно. Транскрипция при этом осуществляется в два этапа: на первом этапе фамильно-именная группа переводится в промежуточное фонетическое написание в соответствии с таблицей, а затем из него – в кириллическое написание (при переводе, например, с английского языка на русский). Сама транскрипция осуществляется за счет работы программного движка, который остается неизменным при присоединении к нему баз транскрипции различных языков. В связи с этим совместная работа программистов и лингвистов потребовалась лишь на начальных этапах – создание и отладка программного движка транскрипции.
Важной задачей при таком подходе являлось само создание фонетической таблицы, т.е. отбор звуков таким образом, чтобы в таблице присутствовали все звуки исследуемых языков, и в то же время ни один звук не был представлен двумя символами. Использование уже имеющихся таблиц вызвало объективные трудности. Так, например, различные, но сходные звуки, обычно передаются одним и тем же знаком, хотя их реальное звучание и транскрипция, будут различны. В качестве примера можно привести английское «л» и немецкое «ль», обозначаемые «l»; или же французское «у» (близкое русскому «ю») и турецкое «ы», обозначаемые в традиционных грамматиках одним и тем же знаком «y». С другой стороны, многие оттенки фонем, важные и характеристические с теоретической точки зрения, при практической транскрипции могут быть отнесены на второй план и передаваться как параметры одного и того же знака промежуточного фонетического написания. Так, например, при практической транскрипции не различаются французское (дорсо-увулярное) и японское (или русское) «р» (апико-альвиолярное) или же средне-верхнее по подъему и средне-нижнее «о».
Прежде чем приступать к созданию таблицы нами был проанализирован материал различных языков. Таблица создавалась по принципу объединения множеств звуков разных языков, при этом возникали вопросы: обозначать ли звуки разных языков одним символом (возможно, с разными параметрами) или же разными. Ориентируясь при транскрибировании в основном на фонетическую форму слова, необходимо было одновременно учитывать и орфографический момент с тем, чтобы, не препятствуя правильному чтению, по возможности сохранить при передаче слова близость к его графической форме. Так, например, возник вопрос, следует ли английское q (на письме “th”) и испанское ¢ (на письме “c”), похожее на него по звучанию, обозначать одним и тем же символом или нет. Тут вступают в противоречие принципы фонетического и графического подобия. В данном конкретном случает вопрос был решен в пользу их различения (передачи испанского «с» в английском буквой «с») из-за того, что в американских диалектах испанского языка эта буква читается как «с», что сближает ее с графическом написанием в английском.
Еще одной сложностью является транскрипция фамильно-именных групп, передаваемых в соответствии с орфоэпической традицией языка-оригинала, либо языка, на который осуществляется транскрипция. Существенной помощью здесь является то, что русский язык не является застывшим. Многие фамилии и имена были транскрибированы достаточно давно и в отношении строго определенных людей, оставивших свой след в истории. Более того, истории известны примеры, когда людей, принадлежащих к одной семье, транскрибировали в разные периоды различным образом. Даже транскрипция имени одного человека может сильно изменяться со временем. Эволюция написания под влиянием фонетической тенденции ясно прослеживается на передаче фамилии английского политического деятеля XVIII века R. Walpole. В энциклопедическом словаре Брокгауза и Ефрона изд. 1891 г. он значится как Вальполь, в 6 томе БСЭ изд. 1951 г. дается транскрипция Вальпол, а в 44 томе БСЭ изд. 1956 г. и позже - чисто фонетический вариант: Уолпол.
Транскрипция же имен их современных однофамильцев позволяет использовать текущие представления о правилах фонетики. Например, Hamlet, Prince of Denmark — Гамлет, принц Датский. По нашим теперешним понятиям ему скорее следовало бы быть Хамлетом (или даже Хэмлетом), так как русское орфоэпическое Г — звук взрывной, а не фрикативный. Однако принц Датский так и остается Гамлетом, ибо именно в таком виде он давно уже вошел в русскую культуру и всем знаком, а его современные тезки оказываются Хамлетами.
4. Программа машинной транскрипции
В основу программного движка системы машинной транскрипции был положен декларативный принцип, то есть управление транскрипцией производится за счет правил, записанных в базах. С этой целью был разработан собсвенный формат правил, позволяющий в зависимости от информации во входной строке, производить выходную строку. Логичным в такой ситуации представляется разделение правила на входную и выходную часть. Разработанное представление входной части позволяет находить:
- произвольную букву, обладающую заданными характеристиками и находящуюся в заданном окружении;
- буквосочетания, обладающие или не обладающие заданными признаками;
- анализ букв и буквосочетаний в комбинации с уже транскрибированными фрагментами;
- буквы и буквосочетания, находящиеся в начале или конце слов;
- открытые и закрытые, ударные и безударные буквы.
Выходная часть правила позволяет:
- переносить символы без изменения из входной части цепочки в выходную с последующей их транскрипцией;
- переносить параметры от букв выходной цепочки в буквы выходной цепочки;
- вводить новые символы и их параметры в выходную цепочку;
- расставлять необходимые разделители слов.
При анализе слово проходится слева направо, причем производится поиск правил, применимых к текущей позиции в слове. При наличии нескольких правил, применимых к данной позиции выбирается правило с максимальной длиной анализируемой цепочки. Практика показала применимость такого предположения к алфавитным языкам.
Для обеспечения определения границ слов и слогов в программный движок были добавлены модули слово- и слогоделения. Выделение слов производится по знакам-разделителям, не входящим в алфавит данного языка. Примерами знаков, являющихся разделителями в одном языке, и не являющимися таковыми в другом языке может служить апостроф, означающий в арабском языке звуки смычное «а» или звук «айн». Так же в языках тюркских народов СССР, использующих в качестве алфавита кириллицу, апостроф использовался для обозначения арабского звука «айн» или смычки в словах, заимствованных с арабского языка.
Для выделения слогов всем буквам приписывается параметр, обозначающий являются они слогообразующими или нет. Далее не слогообразующие буквы, стоящие в начале слова, относятся к первому слогу, стоящие в конце слова – к последнему слогу. Буквы, находящиеся между слогообразующими буквами, делятся пополам, причем в случае нечетного количества букв большая часть относится к следующему слогу. Последняя буква каждого слова считается открытой, все остальные – закрытыми.
Созданная программа «ТрансСкриба» позволяет успешно решить изложенные выше задачи с учетом указанных трудностей. При этом она может использоваться не только для транскрипции фамильно-именных групп, но и других слов языка, записанных в латинском алфавите, например, географических названий. На момент написания данной работы программа позволяет транскрибировать с 10 основных европейских и азиатских языков. Количество ошибок на тех же выборках на которых тестировались другие программы по некоторым языкам составляет всего 10-15 штук, а мера качества перевода 0,2-0,4.
Литература
- Реформатский А.А. Введение в языкознание Гл. 3. Фонетика. М.: Аспект Пресс, 1996;
- Трубецкой Н.С. Основы фонологии. М.:НЛ, 1960.
Practical transcription of name groups for machine-readable documents
- V. Bondarenko, S. V. Yolkin, E. S. Klyshinsky, O. Yu. Slyozkina
Keywords. Machine transcription, phonetics, phonetics table, multilanguage system, transliteration.
Because using of existent tables are complicated, the unified phonetics table was conducted for the task of practical name groups transcription resolving in this paper. Transcription accomplishes in two steps. On the first step name group translated into intermediate phonetic spelling, according to the unified phonetics table, and on the second step – into Cyrillic. The transcription accomplishes by software engine, which stays unchanged during different languages transcription databases connection.
The developed program “TransScriba” allows successfully solves the problem of qualitative transcription. The program can be used not only for name group transcription, but other words written in Roman alphabet.