ОБ ОДНОМ ПОДХОДЕ К СИНТЕЗУ ГЛАСНЫХ ЗВУКОВ С ИСПОЛЬЗОВАНИЕМ МЕТОДА ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ
Е.В. Березинская
Казанский государственный университет
Введение.
Для описания процесса речеобразования было предложено много различных математических моделей, но ни одна из них не позволяет объяснить все характеристики человеческой речи. Одной из наиболее простых моделей является линейная модель:
сигнал возбуждения ® система линейных фильтров®речевой сигнал.
Различные системы синтеза речи на основе такой модели отличаются способом построения фильтров и выбором возбуждающего сигнала. Входной сигнал системы, как правило, представляет собой периодическую импульсную последовательность для вокализованных звуков и случайный шум с равномерным распределением для невокализованных звуков. Целью данной работы является исследование модели синтеза гласных звуков на основе линейного предсказания с многоимпульсным сигналом возбуждения.
Модель речеобразования на основе линейного предсказания
Линейная модель речеобразования в терминах z-преобразования описывается в виде соотношения
S(z)= E(z)G(z)V(z)L(z). (1)
Сигнал возбуждения на входе модели голосовой щели обозначается e(n) и описывается функцией E(z), G(z) – модель голосовой щели,V(z) – модель голосового тракта, L(z) – модель излучения губ.
S(z)=E(z)/A(z); E(z)=S(z) A(z). (2), (3)
Параметры фильтра A(z) определяются на основе анализа речевого сигнала. Упрощающие предположения позволяют сделать модель синтеза речи полюсной, т.е. считать, что A(z) содержит только нули, а фильтр 1/A(z) содержит только полюсы. Тогда во временной области уравнение (3) выглядит так:
e(n) = S M i=0 [ ai s(n-i)] = s(n) + S M i=1 [ ai s(n-i)]. (4)
e(n) = s(n) – s`(n), где s`(n) = - S M i=1 [ ai s(n-i)]. (5), (6)
Элемент функции возбуждения e(n) может быть интерпретирован как погрешность предсказания отсчета действительного речевого сигнала s(n) по M предыдущим отсчетам (рис.1). Считается, что линейное предсказание отсчетов речевого сигнала эквивалентно линейной модели речеобразования. Параметры модели A(z) можно непосредственно определить из исходного речевого сигнала, минимизируя ошибку предсказания, например, по методу наименьших квадратов. Если получены значения параметров A(z), то речевой сигнал s(n) равен сигналу ошибки e(n), пропущенному через полюсной фильтр 1/A(z). Если при вычислении обеспечивается достаточная точность, то устойчивость фильтра с характеристикой 1/А(z) теоретически гарантируется.
При синтезе речи сигнал ошибки некоторым образом аппроксимируется. Обычно при синтезе гласных звуков в качестве входного сигнала e(n) берут последовательность единичных импульсов с периодом следования, равным периоду основного тона (рис.2). Качество полученных таким образом звуков, как правило, далеко от естественной речи. Усложненные модели, в которых кроме полюсов, учитываются и нули фильтров, обладают более высоким качеством. Другой подход к проблеме улучшения качества – использовать многоимпульсный сигнал возбуждения (несколько импульсов с разной амплитудой за один период) (рис.3). Импульсная последовательность строится таким образом, чтобы лучше приближать ошибку предсказания.
Обозначим u0(n-n0) последовательность, представляющую единичный импульс в точке n0., тогда последовательность единичных импульсов с периодом Р будет равна
e1(n) = S k [ u0(n-kP)] . (7)
Многоимпульсная последовательность с амплитудами импульсов, равными A1, A2,.. Ai , и задержками n2,..ni :
e2(n) = S k [ A1u0(n-kP)+A2u0(n-kP-n2)+..+ Aiu0(n-kP-ni)]. (8)
Спектр обоих последовательностей сосредоточен на частотах, кратных частоте основного тона, причем мощность спектра первого сигнала одинакова на каждой из этих частот. Мощность спектра второго сигнала на частоте w определяется выражением
|(X(eiw))|=| A1 + A2 exp(i n2w)+..+Ai exp(i niw)| (9)
Т.о. использование многоимпульсной последовательности позволяет изменять соотношение между гармониками основного тона, изменяя амплитуды и задержки импульсов.
Пример реализации модели синтеза с многоимпульсным возбуждением
Описанный метод применялся для синтеза изолированных гласных звуков, произнесенных различными дикторами. Почти во всех случаях приемлемые по качеству результаты получались при использовании от 2 до 6 импульсов на 1 период ОТ. Метод плохо применим при синтезе звука «и», вероятно из-за того, что в его спектре большую роль играют высокочастотные составляющие.
Рис.1. Погрешность линейного предсказания e(n)=s(n)-s`(n) для изолированного звука «а» при M=15 и ее спектр
Рис.2. Стандартный сигнал возбуждения, используемый при синтезе гласных звуков, и его спектр.
Рис.3. Многоимпульсный сигнал возбуждения, аппроксимирующий ошибку предсказания на рис.1., и его спектр.
Рис.4. Спектрограммы естественного (слева) и синтезированного (справа) звуков «а».
Поскольку последовательность отсчетов, соответствующая гласным, является квазистационарной, то для большей естественности синтезированных звуков обычно генерируют импульсы со случайным периодом, в среднем равном периоду основного тона (±5%). В нашей реализации период выбирался постоянным, а амплитуды импульсов – случайными (±20% от заданных средних значений).
В примере, показанном на рисунках 1, 3 и 4, для синтеза звука «а» при частоте дискретизации 8Кгц использовалось 15 коэффициентов линейного предсказания, 3 значения амплитуд для 3-х импульсов, 2 значения задержки второго и третьего импульсов относительно первого, средняя длина периода основного тона и длительность сигнала, т.е. 22 величины. При этом синтезированный звук отличался естественностью, разборчивостью, и сохранялся тембр голоса диктора (рис.4.).
Заключение
Модель синтеза речи на основе линейного предсказания с использованием многоимпульсного сигнала возбуждения позволяет достичь неплохого качества для большинства гласных звуков. Важное достоинство модели – относительная простота оценки параметров фильтра A(z), т.к. используются линейные процедуры обработки сигнала. Поскольку на этапе проверки метода параметры возбуждающего сигнала задавались вручную, то направлением дальнейшей работы сейчас является создание алгоритма для автоматического вычисления амплитуд и задержек импульсов для произвольного гласного звука.
ЛИТЕРАТУРА
- Маркел Дж., Грей А. Линейное предсказание речи. М.: Связь, 1980
- Сорокин В.Н. Синтез речи. М.: Наука, 1992
- Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981