RULES OF SPEECH CORPUS SEGMENTATION INTO PHONETIC
UNITS AND THE STRATEGY OF UNIT SELECTION IN SPEECH SYNTHESIS
Объединённый институт проблем информатики НАН
Беларуси, Минск, Беларусь
Современные системы синтеза речи по тексту основаны на компиляции в непрерывный речевой сигнал фонетических сегментов размеченного речевого корпуса. При создании БД элементов компиляции существует несколько подходов, в соответствии с которыми могут быть сформированы базовые сегменты различной длины. При выборе сегментов той или иной длины разработчики систем синтеза речи используют, как правило, следующие критерии:
· объём работы,
необходимый для создания речевого корпуса, последующей сегментации и
маркировки;
· степень сохранения эффектов
взаимодействия звуков, реализующиеся в естественном потоке речи;
· степень сохранения
специфики межзвуковых переходов между выбранными элементами в естественном
потоке речи.
При использовании звуковых единиц бόльшей длины в
значительной степени сохраняется естественность эффектов взаимодействия звуков
и характеристик межзвуковых переходов, но при этом резко возрастает количество
звуковых единиц и, соответственно, объём работы для создания корпуса, его
сегментации и маркировки. При использовании коротких речевых единиц меньше
времени и усилий тратится на создание индивидуализированной речевой БД, но
естественность проявления эффектов взаимодействия звуков и характеристик
межзвуковых переходов могут быть представлены в недостаточной степени.
В данной работе предлагается компромиссный вариант
разметки речевого корпуса на фонетические сегменты различного
количественного и качественного состава и стратегия выбора элементов компиляции
при синтезе речи по тексту.
В основу используемой нами классификации фонетических
сегментов положено понятие аллофона – позиционного и комбинаторного оттенка
фонемы. Как показал опыт синтеза речи по тексту, для русского языка,
минимально-необходимый базовый набор аллофонов (мини-набор) должен включать 420
единиц (180 согласных и 240 гласных) [1]. Использование только базового набора
аллофонов обеспечивает синтез вполне разборчивой речи по произвольному тексту,
однако качество речи остаётся недостаточно высоким. Это объясняется тем, что
реальное разнообразие оттенков фонем при их взаимодействии в потоке речи
несоизмеримо большее, чем это обеспечивается используемым набором аллофонов.
Кроме того, взаимовлияние соседних аллофонов в некоторых случаях может быть
настолько сильным, что провести чёткую границу между ними зачастую просто
невозможно. К таким случаям относятся, например, сочетания двух гласных
аллофонов, а также некоторых сонорных согласных (таких, как /J/, /L/,
/R/) и гласных. Существенное повышение качества и естественности речи
может быть достигнуто, если в качестве элементов компиляции использовать не
только аллофоны, но также и более протяжённые фонетические сегменты –
мультифоны: диаллофоны, или ещё более протяжённые сегменты - аллослоги.
Следует, однако, иметь в виду, что платой за достижение более высокого качества
может стать резкое возрастание объёма БД элементов компиляции. Действительно,
теоретический подсчёт количества возможных диаллофонов оценивается очень
большим числом: Nda =
N2a = 4202 = 176 400. Далеко
не все комбинации аллофонов возможны, но как показывает опыт, их количество в
представительном речевом корпусе может достигать десятка тысяч.
Разметка
корпуса осуществляется автоматически [2] с целью создания следующих групп
фонетических сегментов: аллофоны – {Sa}, диаллофоны – {Sda},
аллослоги – {Sas}. При создании БД элементов компиляции
используются только наиболее частотные фонетические сегменты, извлекаемые из
достаточно представительного корпуса естественной речи. Ниже, в разделе 3,
рассмотрены характерные особенности статистических распределений для различных
типов сегментов в используемом речевом корпусе [2].
Разметка
корпуса на диаллофоны осуществляется посинтагменно, т.е. создаваемые
диаллофонные сегменты могут находиться как внутри фонетического слова, так и на
границе фонетических слов. Внутрисловное и межсловное различие существенно для
диаллофонов типа ГГ и СГ (где Г обозначает гласный, С – согласный) [3]. Это
различие в местоположении диаллофонов однозначно определяется позиционными
индексами аллофонов.
Правила разметки речевого корпуса на слоговые
комплексы учитывают фонетическую и артикуляционно-акустическую природу слога.
Среди существующих определений понятия слог и способов слогоделения, описанных
в литературе по фонетике [4-7], наиболее предпочтительным выглядит определение
открытого СГ-слога, предложенное Л.В. Бондарко [7]. Это определение положено в
основу разметки речевого корпуса на слоговые комплексы с некоторыми
существенными уточнениями и дополнениями, вызванными объективными трудностями
вычленения СГ-слога по следующим причинам:
· взаимная ассимиляция аллофонов в
сочетаниях гласный-гласный, гласный-сонорный и в некоторых комбинациях
сонорный-сонорный;
· редукция, вплоть до полного исчезновения, безударных гласных, находящихся между согласными.
В связи с этим при разметке создаются три типа слоговых комплексов, которые с точки зрения достижимой точности разметки являются трудно сегментируемыми (1-й тип), умеренной трудности сегментации (2-й тип), и относительно легко сегментируемыми (3-й тип).
При этом трудно сегментируемый слоговой комплекс ближе
всего соответствует определению слога, данному в работе [7] и чаще всего будет
иметь минимальную длительность. Слоговый комплекс умеренной трудности
сегментации (который чаще всего будет иметь среднюю длительность) определяется
в соответствии с контрастом смежных фонем по степени сонорности и в
значительной степени соответствует определению слога, данному Л.В. Щербой и его
последователями [8]. Границы легко сегментируемого слогового комплекса
определяются с учётом указанных выше условий возможной полной редукции
безударных гласных. Легко сегментируемый слоговый комплекс, как правило, будет
иметь максимальную длительность.
Предлагаются следующие определения слоговых комплексов:
1. Слоговой комплекс 1-го типа
определяется как открытый слог со следующими уточнениями:
· если
за гласным, определяющим конец слога, находится гласный, он присоединяется к
текущему слогу.
(1)[2] В слове “наивный”, аллофонная запись
“N002, A223, I021, V013, N002, Y323, J'010”,
будут выделены следующие аллослоги (где границы аллослога помечаются символами “<”,
“>”): <N002A223I021>,
<V013N002Y323J'010>.
· если
за гласным, определяющим конец слога, находится последовательность “J’ – безударный гласный”, вся последовательность присоединяется
к текущему слогу.
(2) В слове “такая”, аллофонная запись: “T001, A222, K002, A033, J'012, A240”, будут выделены аллослоги <T001A222>,
< K002A033J'012A240>.
· если
слог состоит из одного гласного, он присоединяется к последующему слогу,
формируя слоговой комплекс.
(3)
В слове “аллофон”, аллофонная запись: “A201, L102, A211, F001, O012, N000”, будут выделены аллослоги <A201L102A211>,
<F001O012N000>.
2. Для
определения границ слогового комплекса 2-го типа выполняются описанные в
п.1 правила и, кроме того, определены следующие дополнительные правила:
· если за гласным, определяющим конец
слога, следует не менее двух согласных, первый из которых – сонант или J’, V, V’
(т.е. принадлежит множеству { J’ijk, Vijk,
V’ijk, Rijk, R’ijk, Lijk,
L’ijk, Nijk, N’ijk, Mijk,
M’ijk}), а последующий – нет, то граница определяется после
первого из них.
(4) В слове “майка”,
аллофонная запись: “M002, A013, J'013, K002, A230”, будут выделены аллослоги <M002A013J'013>,
<K002A230>; в слове “жарко”,
аллофонная запись: “ZH002, A022, R003, K002, A230”, будут выделены аллослоги <ZH002A022R003>,
<K002A230>.
3. Для
определения границ слогового комплекса 3-го типа выполняются описанные в
п.1, 2 правила и, кроме того, определены следующие дополнительные правила:
· если за концом слога находится
последовательность “сонант – безударный гласный”, она присоединяется к текущему слогу.
(5)
В слове “Кóлоса”, аллофонная запись: “K001, O032, L002, A312, S001, A220”, будут выделены аллослоги <K001O032L002A312>,
<S001A220>.
· безударный слог, содержащий гласный
второй степени редукции, присоединяется к предыдущему или последующему слогу,
содержащему гласный меньшей степени редукции.
(7)
В слове “фатализм”, аллофонная запись: «F001, A312, T001, A223, L'002, I042, Z001, M000”,
будут выделены аллослоги <F001A312T001A223>, <L'002I042Z001M000>.
Разметка на
слоговые комплексы каждого из перечисленных выше 3-х типов проводится двумя
способами: пословно и посинтагменно. В первом случае разметка осуществляется
независимо для каждого отдельного фонетического слова, входящего в синтагму. Во
втором случае последовательность слов в синтагме рассматривается как единый
речевой поток с учётом межсловных фонетико-акустический явлений, описанных в
работе [3]. Очевидно,
что поскольку на стыках слов могут встретиться любые сочетания фонем,
невозможно создать речевой корпус разумного размера, в котором бы реализовались
все сочетания. Целесообразно поэтому при использовании речевого корпуса
воспользоваться обоими способами его разметки.
Таким
образом, каждая речевая синтагма с учётом пословной и посинтагменной разметки и
3-х типов аллослогов размечается шестью различными способами. Пример разметки
на различные виды слоговых комплексов синтагмы “Олимпийские чемпионы вернулись
на родину” приведен в
табл. 1, где границы аллослогов помечены значками “<”, “>”.
Вид разметки |
Тип слогового
комплекса |
Размеченная на
слоговые комплексы синтагма “Олимпийские
чемпионы вернулись на родину” |
Пословная |
Трудно
сегментируемый (тип 1) |
<A203L'002I243>,
<M'003P'001I043>, <J'013S001K'001I343>,
<J'012E343>, <CH'001E343>,
<M'003P'001I241O042>,
<N002Y323>, <V'012E242>,
<R001N002U023>, <L'002I343S'001>,
<N002A222>, <R002O023>,
<D'002I342>, <N002U320> |
Умеренной
трудности сегментации (тип 2) |
<A203L'002I243M'003>,
<P'001I043J'013>, <S001K'001I343J'012E343>,
<CH'001E343M'003>, <P'001I241O042>,
<N002Y323>, <V'012E242>,
<R001N002U023>, <L'002I343S'001>,
<N002A222>, <R002O023>,
<D'002I342>, < N002U320> |
|
Легко
сегментируемый (тип 3) |
<A203L'002I243M'003>,
<P'001I043J'013>, <S001K'001I343J'012E343>,
<CH'001E343M'003>, <P'001I241O042N002Y323>,
<V'012E242>, <R001N002U023L'002I343S'001>,
<N002A222>, <R002O023>,
<D'002I342N002U320> |
|
Посинтагменная |
Трудно
сегментируемый (тип 1) |
<A203L'002I243>,
<M'003P'001I043>, <J'013S001K'001I343>,
<J'012E343>, <CH'001E343>,
<M'003P'001I241O042>,
<N002Y323>, <V'012E242>,
<R001N002U023>, <L'002I343>,
<S'001N002A222>, <R002O023>,
<D'002I342>, <N002U320> |
Умеренной
трудности сегментации (тип 2) |
<A203L'002I243M'003>,
<P'001I043J'013>, <S001K'001I343J'012E343>,
<CH'001E343M'003>, <P'001I241O042>,
<N002Y323>, <V'012E242>,
<R001N002U023>, <L'002I343>,
<S'001N002A222>, <R002O023>,
<D'002I342>, <N002U320> |
|
Легко
сегментируемый (тип 3) |
<A203L'002I243M'003>,
<P'001I043J'013>, <S001K'001I343J'012E343>,
<CH'001E343M'003>, <P'001I241O042N002Y323V'012E242>,
<R001N002U023L'002I343S'001N002A222>,<R002O023>,
<D'002I342N002U320> |
Табл 1. Разметка синтагмы на аллослоги
Статистический анализ корпуса, используемого для записей естественной речи и содержащего
макси- и мини-тексты [2], проводился с целью выявления частоты встречаемости
сегментов различного фонетического “качества” (фонемы, позиционные аллофоны,
позиционно-комбинаторные аллофоны) и различного фонетического “количества”
(аллофоны, диаллофоны, аллослоги). Процедура обработки текстового корпуса и
получения статистических характеристик [9], показанная на рис. 1, состоит из
нескольких этапов.
На первом этапе орфографический текст подвергается
преобразованию “буква-фонема” (Б-Ф), происходит объединение фонем в дифонемы и
фонослоги. На втором этапе полученная последовательность фонем подвергается
преобразованию “фонема – позиционный аллофон” (Ф-ПА), полученные позиционные аллофоны объединяются
в последовательности позиционных диаллофонов и позиционных аллослогов. Третий
этап обработки текста включает преобразование “позиционный аллофон – позиционно-комбинаторный аллофон” (ПА-ПКА), объединение аллофонов в диаллофоны и
аллослоги. Последовательности данных, полученные на каждом этапе обработки
текста (обозначенные на рис. 1 цифрами от 1 до 9), подаются на
статистический анализатор, определяющий частоту встречаемости фонетических
сегментов (дифференциальные распределения) и вычисляющий на этой основе степень
покрытия текста различными элементами (интегральные распределения).
Дифференциальные и интегральные распределения частот
встречаемости сегментов различного “фонетического
количества” – аллофонов, диаллофонов, слогов
– в макси-тексте представлены на рис. 2.
На графиках
2 а), б), в) показаны дифференциальные распределения для
аллофонов, диаллофонов и аллослогов. По оси абсцисс расположены сегменты
соответствующего типа в порядке уменьшения частоты их встречаемости в тексте,
по оси ординат – количество сегментов указанного типа в тексте.
На графиках 2 г), д), е) показаны
интегральные распределения аллофонов, диаллофонов и аллослогов в тексте. На
каждом из графиков по оси абсцисс отложено количество различных фонетических
сегментов заданного типа- Nd, а по оси ординат - процентное
отношение общего количества сегментов заданного типа (различных и
повторяющихся) к суммарному количеству фонетических сегментов - Ns,
встретившихся в тексте.
а) г)
б) д)
в) е)
Рис. 2. Дифференциальные (а, б, в) и интегральные (г, д,
е) распределения в макси-тексте сегментов различного “фонетического
количества”: а, г – аллофонов; б, д – диаллофонов, в, е –
аллослогов
Степень покрытия макси-текста сегментами различного “фонетического качества”: фоно-сегментами, позиционными алло-сегментами,
позиционно-комбинаторными аллосегментами – представлена на рис. 3. По оси
абсцисс отложено количество различных фонетических сегментов заданного типа- Nd,
а по оси ординат - процентное отношение общего количества сегментов заданного
типа к суммарному количеству фонетических сегментов - Ns.
а) д)
б) е)
в) ж)
Рис. 3. Степень покрытия
текста сегментами различного “фонетического
качества”: а - фонемами, б -
позиционными аллофонами, в - позиционно-комбинаторными аллофонами,
г – дифонемами; д – позиционными диаллофонами, е –
позиционно-комбинаторными диаллофонами
Как видно из
графиков 2 – 3, характер интегральных распределений для полисегментов
различного фонетического количества (рис. 2 г, д, е)
существенно отличается от интегральных распределений для моносегментов
различного фонетического качества (рис. 3). При увеличении показателя “фонетическое
количество” требуемое для
достижения 90 %-ой степени покрытия текста количество различных сегментов
увеличивается от 43% до 84% (рис. 2 г, д, е). В то же время,
увеличение степени детализации “фонетического качества” сегментов от фонем до
аллофонов влечёт уменьшение от 69% до 43% необходимого числа различных
сегментов (рис. 3 а, б, в), а увеличение степени детализации “фонетического
качества” от дифонем до
диаллофонов – увеличение от 47% до 66% необходимого для 90 %-ой степени
покрытия текстов числа сегментов (рис. 3 г, д, е).
На основе разметки речевого корпуса создаются
соответствующие БД элементов компиляции: мини-набор аллофонов - {Sa}
и макси-набор мультифонов - {Sas, Sda}.
Аллофонная последовательность, формируемая в процессе синтеза речи по тексту, размечается на внутрисинтагменные и внутрисловные комплексы трёх типов. Затем осуществляется поиск в БД элементов компиляции полученных слоговых комплексов в соответствии со следующим приоритетом: внутрисинтагменные слоговые комплексы 3-го типа, внутрисловные слоговые комплексы 3-го типа, внутрисинтагменные слоговые комплексы 2-го типа, внутрисловные слоговые комплексы 2-го типа, внутрисинтагменные слоговые комплексы 1-го типа, внутрисловные слоговые комплексы 1-го типа. На каждом шаге выбора элементов компиляции из БД в случае, когда в БД не найден внутрисинтагменный слоговый комплекс 3-го типа, осуществляется последовательный поиск составляющих его слоговых комплексов других типов в соответствии с указанным выше приоритетом.
В случае, когда в БД не найден ни один из
сформированных типов аллослогов, осуществляется поиск составляющих его
диаллофонов. При этом всё множество диаллофонов разбивается в порядке
уменьшения взаимовлияния соседних аллофонов и, как следствие, важности их
вклада в качество синтезированной речи на 4 группы: ГГ, СГ, СС, ГС. Указанный
порядок задаёт приоритет их выбора. В случае, когда необходимые диаллофоны
отсутствуют в БД элементов компиляции, происходит выбор соответствующих
аллофонов.
В результате указанной стратегии приоритетов элементы
БД аллофонов, составляющие мини-набор, будут использоваться только в тех
крайних случаях, когда необходимые для синтеза элементы верхних уровней –
мультифоны – отсутствуют в имеющейся БД.
Описанные выше правила
разметки речевого корпуса на фонетические сегменты и стратегия выбора элементов
компиляции реализованы в системе синтеза речи по тексту “МУЛЬТИФОН”. Их
использование в системе позволило получить синтезированную речь с высокими
показателями разборчивости и естественности. Образцы синтезированной речи будут
продемонстрированы участникам конференции во время доклада.
1. Лобанов Б.М., Пьорковска Б.,
Рафалко Я., Цирульник Л.И., Шпилевский Э. Фонетико-акустическая база данных для
многоязычного синтеза речи по тексту на славянских языках // “Компьютерная лингвистика и интеллектуальные технологии”: труды междунар. конф. Диалог’2006. М.: 2006. – С. 357–363.
2. Цирульник Л.И., Лобанов Б.М.
Технология компьютерного клонирования и синтеза персональных характеристик речи
диктора // “Компьютерная лингвистика и интеллектуальные технологии”: труды
междунар. конф. Диалог’2007. М.: 2007. В печати.
3. Лобанов Б.М., Цирульник Л.И.
Внутрисловные и межсловные правила обработки текста для полного и разговорного
стилей речи // Функциональные стили звучащей
речи: сб. науч. тр. М.: 2006. – С. 21–30.
4. Русская грамматика. М.: 1982. Т.1. С. 22–24.
5. Зиндер Л.Р. Общая
фонетика. Л.: 1960.
6. Трахтеров А.Л. Основные
вопросы теории слога и его определение // Вопросы
языкознания. 1956. № 6. C 32–37.
8. Грамматика
русского языка. М.: 1952. Т.1. С. 71.
9. Лобанов Б.М., Цирульник Л.И. Статистический
анализ фонетической структуры речевого корпуса для систем распознавания и
синтеза речи // “Информационные системы и технологии”: материалы третьей междунар. конф. IST’2006. Мн.: 2006. Ч.2. С. 46–51.
[1] Работа выполнена при поддержке европейского фонда INTAS в рамках проекта «Разработка многоголосовой и многоязыковой системы синтеза и распознавания речи (языки: белорусский, польский, русский)» в соответствии с грантом INTAS № 04-77-7404
[2] В приводимых примерах аллофоны обозначаются именем фонемы и следующими за ней тремя индексами: i, j, k, где i указывает позицию фонемы, j – группу левого контекста, k – группу правого контекста