Proceedings 2000

Contents

Генерация тонального контура фразы в системах автоматического синтеза речи[1]

 

 

 

О.Ф. Кривнова

МГУ

okri@philol.msu.ru

 

 

  1. Просодическая параметризация речевого сигнала при автоматическом синтезе речи

 

Из опыта  разработок по автоматическому синтезу речи известно, что естественность синтезируемого отрезка сильно зависит от правил просодической параметризации речевого сигнала. Функция этих правил состоит в том, чтобы определить энергетические, временные и тональные характеристики, которые должны быть приписаны звуковым единицам (слогам или отдельным звукам), образующим сегментную транскрипцию синтезируемой фразы. Просодическая параметризация в равной степени необходима для всех систем синтеза речи по произвольному тексту[2] независимо от того, какой конкретно способ генерации речевого сигнала используется в системе: простейшая конкатенация, т. е. формирование  звуковой основы синтезируемого отрезка путем склейки готовых или модифицированных акустических образцов, или же сложный акустический синтез по правилам, которые управляют большим набором акустических параметров (как в большинстве формантных синтезаторов).

Просодическая параметризация звуковых элементов речевого сигнала может осуществляться по-разному в зависимости от задач, которые ставят перед собой разработчики конкретной системы синтеза. В идеале просодические характеристики синтезируемой фразы должны максимально соответствовать тому, что наблюдается при естественном произнесении той же фразы человеком.

Анализ имеющихся подходов к решению задачи просодической параметризации текста позволяет выделить два направления – это ресинтез просодических характеристик синтезируемой фразы по готовому образцу (образцам) и параметризация на основе фонетико-акустических реализационных правил (по просодическим правилам). В последнем случае  просодические правила выполняют функцию интерфейса  между выходом блока лингвистической обработки текста и блоком формирования речевого сигнала на основе заданных (управляемых) акустических параметров.

На выходе лингвистического блока, задача которого заключается в подготовке текста к озвучиванию, внешняя сторона каждого предложения в тексте обычно представлена в виде комплексной фонетической транскрипции. В ней фиксируются одновременно как звуковой (фонемный) состав предложения, так и его супрасегментные характеристики, отражающие в условной, символьной форме просодические признаки фонетических составляющих  предложения.

Набор просодических символьных маркеров, используемых в транскрипции, зависит, в первую очередь, от звуковой системы синтезируемого языка, в частности, от наличия в нем лексических тонов и словесных тональных акцентов. Однако при синтезе любого языка в выходную транскрипцию лингвистического блока обязательно входят маркеры, которые отражают интонационную характеристику синтезируемого предложения. Интонационные маркеры представляют интонацию речевых отрезков в весьма абстрактной форме: они фиксируют лишь семантически и/или синтаксически мотивированный выбор определенных просодических средств из арсенала возможностей, предоставляемых интонационной системой языка. Это как бы широкая транскрипция, условные знаки которой требуется конкретизировать с учетом всех поверхностных фонетических факторов, влияющих  на акустическое воплощение абстрактных  интонационных маркеров. Такая конкретизация и осуществляется с помощью просодических правил параметризации. Интерфейсная функция подобных правил показана на рис. 1.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Концептуальная схема, представленная на рис. 1, принята во многих системах автоматического синтеза речи. В целом она хорошо согласуется с динамическими моделями звукового кодирования информации, которые разрабатываются в лингвистической фонетике. Однако реализация этой схемы в конкретных приложениях характеризуется рядом ограничений, связанных, прежде всего, с синтезом интонации. Как правило, синтез интонации в системах "Текст-Речь" ориентирован на несколько базовых интонационных моделей, соотносимых с принятым в традиционной лингвистике делением предложений на повествовательные, вопросительные, побудительные и восклицательные, т. е. по общему коммуникативному (иллокутивному) предназначению. Такая ориентация имеет определенные лингвистические основания, но их обсуждение выходит за рамки настоящей работы. Есть и ряд практических соображений, которые заставляют исследователей ограничиваться базовыми моделями. Так, большинство систем "Текст-Речь" применяются для озвучивания нейтральных текстов с незначительной (или нулевой) аффективно-эмоциональной окраской. Воспроизведение паралингвистического компонента звуковой коммуникации существенно для диалогической речи, и прогресс в этой области связан не с системами синтеза речи по готовому тексту, а с моделированием порождения текста и его озвучивания в соответствии с коммуникативной интенцией говорящего в различных коммуникативных ситуациях (SLG, т.е. Spoken Language Generation). Возможности естественного озвучивания диалогов, заданных в письменной форме, с помощью систем "Текст-Речь" очень ограниченны, так как в тексте часто не бывает никаких ключей, указывающих на коммуникативную интенцию, лежащую в основе диалогических реплик.

Указанные ограничения (и ряд других, которые остались неупомянутыми) касаются работы лингвистического блока обработки текста и напрямую не связаны с правилами просодической параметризации. Опыт разработок показывает следующее: с помощью современных технологий, используемых при разработке синтезаторов, можно сформулировать просодические правила, которые обеспечивают достаточно естественное воспроизведение коммуникативных интенций или эмоций, если они заданы в явном виде. Так, например, в системе HAMLET [Murray et al. 1991], предназначенной  для людей, потерявших способность говорить, предлагается возможность ручного выбора из набора шести эмоций. Вводимый текст озвучивается средствами известного формантного синтезатора DECtalk с использованием просодических правил, регулирующих акустические характеристики голосового источника и резонансные свойства речевого тракта.

Системы, подобные HAMLET, крайне редки и представляют собой весьма специфическое применение синтеза речи по тексту, хотя они очень интересны с точки зрения научного изучения и моделирования звуковой коммуникации во всей ее полноте. В дальнейшем изложении мы рассмотрим только те системы, которые имеют более широкую сферу употребления и не ставят целью воспроизведение аффективно-эмоциональной стороны речи. Кроме того, мы ограничимся характеристикой той части просодических правил, которые обеспечивают построение тонального контура фразы (контура основной частоты голоса F0) в языках без тональных лексических противопоставлений. Как показывает анализ, в имеющихся приложениях используются достаточно разнообразные стратегии и способы генерации контура F0, и ориентация в них представляется полезной[3].

 

  1. Стратегии формирования тонального контура фразы в системах "Текст-Речь"

 

Базовые интонационные модели, из ограниченного набора  которых ис-

ходят создатели синтезаторов, реализуются на практически бесконечном множестве предложений.  Даже в языках, где тональный параметр не используется для создания лексических противопоставлений, реализация базовой модели в конкретном предложении может зависеть от таких фонетических свойств, как длина предложения, количество, место и степень выраженности словесных ударений, число слогов в использованных словах, структура слогов и даже их звуковой состав. В результате у разных предложений наблюдаемый контур F0 может иметь весьма разнообразную и сложную форму: интонационно мотивированные изменения тона (подъемы и падения) могут чередоваться в ровными (платообразными) участками; в контуре могут присутствовать "дырки" и локальные падения, обусловленные глухостью/звонкостью согласных; контур в целом может располагаться в разных областях голосового диапазона говорящего; параметры тонального пространства, занимаемого контуром (его рабочая зона), могут меняться от начала к концу предложения, например, контур может одновременно понижаться и сужаться и т. д.  Воспроизведение подобных поверхностных эффектов при синтезе речи, с одной стороны, необходимо, так как  от этого сильно зависит естественность конечного результата, а с другой – представляет значительные трудности. Это заставляет разработчиков либо создавать самим, либо искать в лингвистической фонетике какие-то интонационно-просодические модели, которые могли бы послужить основой для  автоматического порождения тональных контуров. Элементы модельных представлений содержатся даже в простейших системах, которые обеспечивают только просодический ресинтез.     

2.1. Генерация контура F0 методом ресинтеза

В системах, основанных на просодическом ресинтезе, в памяти системы хранятся детальные количественные данные о контурах основной частоты, интенсивности и длительности для некоторого фиксированного набора фраз, полученные в результате измерения их естественных произнесений. Например, контур основной частоты может быть запомнен в виде   последовательности чисел,  представляющих результат попериодного измерения звуковой волны на вокальных отрезках фразы, или же как последовательность значений,  измеренных через небольшие временные интервалы (например, каждые 10 мс) по контуру F0, полученному с помощью каких-либо автоматических методов акустического анализа речи. Затем эти данные воспроизводятся без изменения при генерации синтетических отрезков, не выходящих, как правило, за пределы того набора фраз, для которых в системе имеются готовые просодические образцы. Несмотря на очевидные ограничения, описанные системы (на Западе их называют copy-синтезаторами) находят свое применение. В частности, они оказываются полезными при тестировании качества синтезаторов в озвучивании сегментного состава речевых отрезков, т. е. помогают оценить степень естественности синтезированной речи, состоящей из искусственных звуков и естественной просодии. В этом случае синтезироваться может любой речевой отрезок, однако для получения просодических данных для ресинтеза он должен быть сначала произнесен человеком, т.е. стать известным синтезирующей системе. Для понимания закономерностей просодического оформления речевых отрезков подобный ресинтез не представляет особого интереса.

            Ресинтез известных просодических образцов используется также в системах, основанных на так называемых методах стилизации тонального контура – акустических или перцептивных. Цель акустической стилизации состоит в том, чтобы сократить детальную информацию, которая содержится в контурах F0 естественных фраз путем автоматического выделения некоторого набора опорных (целевых) точек, аппроксимирующих  контур в целом. Стилизация может быть широкой или узкой, в зависимости от разрешенной максимальной плотности опорных точек. Узкая разновидность стилизации часто реализуется в виде выбора трех точек контура на отрезке каждого отдельного гласного фразы – начальной, экстремальной (или серединной) и конечной. Опорные точки при аппроксимации контура соединяются прямыми линиями.

При широкой стилизации в качестве опорных точек часто выбираются локальные экстремумы контура (пики и впадины). Переходы между ними интерполируются либо прямыми линиями, либо более сложными функциями. При таком подходе в качестве особых характеристик контура могут использоваться также прямые, отражающие динамику изменения общего тонального пространства контура во времени. Линия, соединяющая локальные максимумы кривой F0, образует верхнюю границу этого пространства (topline). Нижняя граница (baseline) задается  локальными минимумами. Нисходящий характер обеих линий отражает общее смещение контура F0 вниз, которое часто наблюдается при произнесении повествовательных предложений во многих языках и называется деклинацией.

Перцептивная стилизация отличается от чисто акустической тем, что при выборе способа аппроксимации наблюдаемой кривой F0 учитываются данные восприятия. Наиболее известным примером применения метода перцептивной стилизации является модель, разрабатываемая с 1960 г. в Институте перцептивных исследований (IPO) в Голландии ['t Hart et al. 1991]. Исходный контур  F0 сначала аппроксимируется  вручную последовательностью прямых отрезков (тональных сегментов), которые не соотносятся каким-то специальным образом с сегментной основой анализируемой фразы. Затем фраза с аппроксимированным контуром ресинтезируется, далее с помощью повторных ресинтезаций находится такая аппроксимация контура, которая содержит минимальное количество тональных сегментов и на слух не отличается от исходного контура. Примечательно, что в экспертных экспериментах с перцептивной стилизацией было обнаружено, что модификации кривой F0 на участках глухих и звонких согласных и смежных с ними гласных (так называемые микропросодии) практически не влияют на восприятие тонального контура фразы. "Голландский" метод аппроксимации контура F0 можно рассматривать как широкую разновидность перцептивной стилизации.

В некоторых публикациях описаны методы автоматической перцептивной стилизации, основанные на подходах, отличных от голландского метода. Например, в [d'Alessandro and Martens 1995] принимается, что минимальным носителем тональных различий является слог. Восприятие тона в рамках слога зависит не только от F0, но и от других фонетических характеристик (длительности, интенсивности, звуковой структуры и т. п.). По мнению указанных авторов, перцептивная стилизация  тонального контура фразы должна представлять собой последовательность тонированных слогов, а тональный контур слога следует интерпретировать с учетом воздействия всех акустических факторов на восприятие высоты тона, а также с учетом известных психоакустических данных (абсолютных и относительных слуховых порогов оценки тональных изменений). Описанный метод является примером узкой разновидности перцептивной стилизации, он был реализован в автоматическом режиме и интенсивно тестировался на материале французского языка.

Судя по имеющимся в литературе оценкам, все методы стилизации контуров F0 позволяют генерировать ресинтезированную речь высокого качества. При создании систем "Текст-Речь" получение качественного тонального ресинтеза с помощью тех или иных автоматических методов не является целью разработок, однако выполняет важную подготовительную функцию. Во-первых, любой  метод стилизации (при условии высокого качества ресинтеза)  позволяет получить такое представление наблюдаемого контура F0,  которое освобождено от ненужных акустических деталей и параметризовано, т. е. содержит количественную спецификацию конечного числа опорных тональных элементов (точек или отрезков), с помощью которых аппроксимируется контур. Во-вторых, выбор опорных элементов стилизации зачастую отражает теоретические представления (или допущения) исследователей о том, что представляет собой глубинная интонационная характеристика предложения, которая получается (или может быть получена) на выходе лингвистического блока подготовки текста к озвучиванию. В этом случае ресинтез на основе выбранного метода стилизации позволяет дать предварительную оценку сложности параметрического просодического интерфейса и активно используется для текущей отладки правил генерации тонального контура. В то же время ясно, что ресинтез сам по себе не может обеспечить порождение тонального оформления произвольного предложения.  

2.2.Формирование контура F0 для произвольного предложения

В конкретных системах автоматического синтеза речи содержание и слож-

ность просодических правил, порождающих  тональный контур предложения по его интонационному описанию, зависит как от  практических возможностей лингвистического блока системы, так и от того, что понимается под интонационной структурой предложения. Минимальная интонационно значимая информация включает: указание на коммуникативный тип предложения (sentence mode), интонационное членение и расположение акцентированных (или просто лексически ударных) слогов в пределах каждой интонационной группы.  В рамках этого общего минимального требования имеющиеся приложения делятся на две большие группы в зависимости от того, используется ли в них собственно интонационная транскрипция, базирующаяся на  некотором фиксированном наборе интонационных единиц – общих моделей или более элементарных просодических элементов –, входящих в интонационную систему синтезируемого языка. Условно системы синтеза, в которых интонационная транскрипция на входе просодических правил в явном виде не используется, могут рассматриваться как реализации инженерного подхода, в отличие от систем, опирающихся на транскрипцию. Последние называются лингвистически (фонологически) ориентированными. Рассмотрим основные особенности этих подходов.

2.2.1. Генерация тонального контура в системах инженерного типа

            В эту группу прежде всего попадают приложения, которые опираются на узкую акустическую стилизацию тональных контуров. Алгоритмы автоматического получения контуров F0 (pitch extraction) и автоматической сегментации речевого сигнала  создают возможность построения больших, просодически ориентированных баз данных, в которых фиксируются  частотные значения опорных точек контура F0 для каждого гласного или отдельного слога в составе предложения. Соответствие между минимальной интонационно значимой информацией (см. выше), которая дается для каждого предложения в базе данных, и тональными параметрами гласных или слогов (с учетом большого набора поверхностных фонетических переменных  – типа слога, его положения в слове и интонационной группе и т.п.) устанавливается с помощью статистических классификационных методов [Larreur et al. 1989] или методов, применяемых в системах распознавания речи, в частности нейроподобных сетей [Traber 1992]. После такого предварительного анализа или обучения реальный синтез произвольного предложения получается путем конкатенации тональных слоговых контуров, выбранных из базы с учетом как интонационных признаков, так и поверхностных фонетических факторов, влияющих на акустическую реализацию слогового контура F0. Нетрудно видеть, что просодические тональные правила заменяются в системах описанного типа хранением обширного инвентаря  тональных слоговых контуров, которые конкатенируются "склеиваются", образуя сложный тональный контур предложения.

По имеющимся в печати отзывам [Dutoit 1997], синтез на основе узкой акустической стилизации и тональной конкатенации обеспечивает очень высокую естественность синтезированной речи. Разработки в этом направлении начались сравнительно недавно, их технологичность, значительная доля автоматизации подготовительной работы привлекают исследователей, занимающихся речевыми технологиями, и специалисты прогнозируют бурный рост соответствующих приложений. В то же время с лингвистической точки зрения подобные системы мало интересны: фактически в них можно усматривать представление об интонации как о некотором акустическом гештальте, который развертывается в виде сложной тональной схемы на слоговой цепочке предложения. Однако возможно, что некоторые речевые единицы, ритуальные или несущие сильную эмоциональную окраску, действительно запоминаются и  используются в речи, снабженные подобными "гештальтными схемами-мелодиями", находящимися за пределами собственно интонационной системы языка. Безусловный интерес для лингвистически ориентированных исследований интонации представляет компьютерный инструментарий, который используется при создании послоговых конкатенативных систем тонального синтеза.

Кроме приложений, основанных на конкатенации слоговых тональных контуров, к системам инженерного типа относится и ряд разработок, которые на самом деле занимают промежуточное положение между чистой тональной конкатенацией и лингвистически ориентированными моделями тонального синтеза.

В приложениях такого типа наиболее часто  используется артикуляционнo-акустическая модель тонального контура  (production-oriented model), предложенная известным японским специалистом в области речевых технологий Х. Фуджисаки [Fujisaki 1983]. Основное допущение этой модели состоит в том, что тональный контур, непрерывный по своей природе, является на самом деле реализацией локальных физиологических событий, которые осуществляются разными ларингальными механизмами. Различаются два типа событий – фразовые и акцентные тональные команды, которые моделируются соответственно импульсной и ступенчатой функциями. Кроме этого, вводится  один глобальный параметр,  который фиксирует нижнюю границу  рабочей области голосового диапазона, на нее накладываются фразовые и акцентные команды. Локальные компоненты модели описываются несколькими параметрами, которые задают относительную амплитуду тонального изменения  и временные моменты реализации команд (таймирование) относительно границ фразы (для фразовых импульсов) и границ акцентированного слова для акцентных. Результирующий тональный контур получается путем сложения всех компонентов, имеющих, как следует из сказанного выше, разные области реализации во времени. В связи с этим модель Фуджисаки часто относят к суперпозиционным фонетическим моделям интонации (см. ниже).

При создании системы синтеза для конкретного языка используются просодические базы данных, где каждое предложение содержит, по крайней мере, минимальную интонационную информацию. При анализе корпуса предложений фразовые команды соотносятся с границами интонационного членения, а акцентные – с акцентированными слогами. Амплитудные и временные параметры аппроксимирующих функций подбираются по базе данных с помощью статистических методов. Модель тестировалась в системах синтеза  для весьма разных языков: японского, английского, китайского, немецкого и ряда других.  В США ведутся в этом направлении работы по синтезу русского языка [Sproat 1998].

2.2.2. Генерация тонального контура на основе лингвистических моделей интонации

            В лингвистически ориентированных системах тонального синтеза контур F0 рассматривается как акустическая манифестация интонационной структуры предложения, которая может быть представлена в виде определенной конфигурации абстрактных интонационных элементов, которые должны фиксироваться в выходной транскрипции лингвистического блока синтезатора. В разработке таких систем активное участие принимают лингвисты. В соответствии с теоретическими направлениями, существующими  в западной интонологии,  можно выделить два типа моделей, которые не только находят применение в системах синтеза речи по тексту, но и благодаря этому активно развиваются. Это так называемые суперпозиционные (layred components )  и линейные или последовательные (tone sequences) модели. Оба типа моделей исходят из представления о комбинаторной природе интонации: интонационная структура предложения рассматривается как  конструкция, состоящая из нескольких функционально самостоятельных тональных элементов. Оба типа моделей признают существование  и лингвистическую значимость локальных тональных объектов, имеющих фиксированную временную привязку в предложении, и глобальные тональные признаки, которые характеризуют тональное пространство в рамках которого реализуется контур в целом. Однако функциональная интерпретация локальных и глобальных тональных элементов и их взаимодействие в предложении трактуются в этих моделях по-разному.

            В суперпозиционных моделях интонационная структура предложения рассматривается как иерархическая просодическая структура, определяемая  в каждой точке предложения одновременно тремя тональными объектами, каждый из которых имеет свою сферу реализации. Тональные составляющие описываются следующим образом: выделяются глобальные тональные признаки, характеризующие тональное пространство, в котором  реализуется предложение в целом, глобальные тональные признаки пространства, занимаемого последовательными интонационными группами в предложении, и тональные фигуры, которые реализуются на составляющих, называемых акцентными группами. В [Gronnum 1992], где описывается суперпозиционная модель для интонации датского языка, утверждается, что интонационные  контуры основных коммуникативных типов предложений отличаются только  глобальным тональным признаком, отражающим частотное смещение тонального контура во времени (его наблюдаемым коррелятом служит линия деклинации, соединяющая акцентированные слоги в предложении). Так,  повествовательные предложения имеют наиболее резкий наклон деклинационной линии, а общий вопрос характеризуется  отсутствием наклона (плоской линией деклинации). На сходных теоретических позициях основана модель [Möbius 1995] для интонации немецкого языка. Реализационной базой лингвистических моделей суперпозиционного типа является описанная выше модель Фуджисаки. 

Линейные модели восходят к работам Ж. Пьерхумберт, посвященным первоначально интонации американского варианта английского языка [Pierrehumbert  1980]. В лингвистическом плане интонационная модель Пьерхумберт опирается на идеи метрической и автосегментной фонологии, развиваемые в США. В качестве минимальных элементов в модели выделяются два одинарных тона, отличающиеся  тональным уровнем – высокий (H)  и низкий (L). Интонационные тоны рассматриваются как абстрактные тональные цели (мишени), ближайшим отражением которых в наблюдаемом тональном контуре являются точки переломов (изменений) F0 (см. выше о широкой акустической стилизации). 

На основе этих тональных примитивов формируются тональные единицы следующих функциональных типов:

тональные акценты – одинарные (H*, L*) и битональные (аналоги контурных тонов ) (H*+L, H+L*, L*+H, L+H*). Знак * обозначает привязку тона к акцентированному лексически ударному слогу;

фразовые тоны – два типа тональных движений (H-, L-), которые реализуются между последним тональным акцентом  интонационной группы и граничным тоном;

граничные тоны – тоны, соотнесенные с начальным (%Н, %L) и конечным (H%, %L) слогами интонационной группы.

Возможные комбинации перечисленных тональных единиц образуют грамматику интонационной структуры фразы, которая состоит из четырех следующих компонентов:

{%Н, %L}  {Н*, L*, H*+L, H+L*, L*+H, L+H*}  {H-, L-}      {H%, L%}

начальный                   тональные акценты                фразовый     конечный

тон                                                                             тон                  тон

            Абстрактные тональные репрезентации, которые условно можно рассматривать как маршрут или схему движения в целевом тональном пространстве, преобразуются в наблюдаемые  контуры F0 с помощью просодических правил двух типов: тонального шкалирования и таймирования. Правила тонального шкалирования определяют для абстрактных целевых тонов конкретные значения F0, которые считаются зависимыми от двух факторов: степени выделенности слога, несущего тон, и тональной спецификации предшествующего тона. Таким образом, частотная спецификация последовательности тонов осуществляется строго слева направо (отсюда название "линейная" модель). Правила таймирования задают с учетом разных поверхностных фонетических факторов координаты временных точек, в которых должна достигаться тональная цель.  Кроме просодических правил, используются  адаптирующие функции, с помощью которых в контуре F0 целевые тональные точки соединяются тональными  переходами и контур в целом сглаживается.

Глобальные тенденции, наблюдаемые в контурах F0, в крайних вариантах линейной модели описываются также исключительно локально. Например, деклинация считается поверхностным результатом  локального взаимодействия определенных смежных тонов (аналогично downstep в африканских языках), а не глобальным тональным признаком, распространяющимся на всю интонационную группу. Локальная интерпретация глобальных тенденций является наиболее дискуссионной стороной строго линейных моделей и причиной построения различных гибридных моделей, авторы которых вводят в линейную модель и глобальные тональные признаки. В целом, надо сказать, что на Западе, особенно в США, линейная модель Пьерхумберт получила очень большой резонанс как в фонологических исследованиях, так и прикладных разработках. Эта модель в адаптированном виде использовалась в системах синтеза для английского, немецкого, китайского, японского и шведского языков. При создании приложений все просодические правила и адаптирующие функции настраиваются автоматически с помощью обширных аннотированных баз данных. Для интонационной аннотации речевых корпусов была создана широко известная просодическая транскрипционная система  ToBI (Tones and Break Indices). В то же время нельзя не отметить, что лингвистический (функциональный) потенциал линейной модели даже для английского языка в полной мере не проверен и не используется в системах синтеза, так как до сих пор не сформулированы правила выбора тонов, образующих тональный компонент интонационной структуры предложения.  

  1. Заключение

Мы рассмотрели только основные подходы к реализации тонального синтеза

в "Текст-Речь" системах. За пределами обсуждения остались некоторые интересные модели, которые трудно поместить в рамки основных исследовательских тенденций. В кратком докладе невозможно подробно анализировать достоинства и недостатки даже основных подходов, тем более что они зависят от задач конкретных приложений. Практика синтеза речи показывает, что говорить о бесспорном преимуществе какой-либо из описанных моделей (или стратегий) рано, поскольку учитываемый речевой материал слишком ограничен в лингвистическом плане и допускает  описание с помощью любой из них. Очень заметной особенностью современных разработок  по синтезу речи является отказ от экспертного (ручного) создания правил тональной параметризации. Для описания и оценки поверхностного фонетического варьирования параметров тональных контуров используется разнообразный компьютерный инструментарий и просодически аннотированные речевые базы данных. Это существенно сокращает время, которое тратится на разработку приложений, и облегчает их отладку. 

 

 

Литература

 

Кривнова О.Ф. Автоматический синтез русской речи по произвольному тексту (вторая версия с женским голосом) // Труды Межд. семинара "Диалог98". Таруса, 1998

d'Alessandro С., Martens P. Automatic Pitch Contour Stylization Using a Modal of Tonal Perception // Computer, Speech, and Language. 9, 1995.

Dutoit Th. An Introduction to Text-to-Speech Synthesis. Dordrecht, 1997.

Fujisaki H. Dynamic characteristics of voice fundamental frequency in speech and singing // Production of Speech. N.Y. 1983.

Gronnum N. The Groundworks of Danish Intonation – An Introduction. Copenhagen, 1992.

't Hart J., Collier R., Cohen A. A Perceptual Study of Intonation: an Experimental-Phonetic Approach to Speech Melody. Cambridge, 1991.

Larreur D., Emerard F., Marty F. Linguistic and Prosodic Processing for a Text-to-Speech Synthesis System // Proc. of Eurospeech 89. Paris, 1989.

Möbius B. Components of a quantative model of German intonation // Proc. of the XIII Int. Congress of Ph. Sciences. V.2. Stockholm, 1995.

Murray I., Arnott J., Alm N., Newell A. A communication system for the  disabled with emotional synthetic speech produced by rule // Proc. of the European Conf. On Speech Communication and Technology. Genova, 1991

Traber C. F0 Generation with a Database of Natural F0 Patterns and with a Neural Network // Talking Machines: Theories, Models, and Designs. North Holland, 1992

Multilingual Text-to-Speech Synthesis: The Bell Labs Approach.(ed. by R. Sproat). Dordrecht, 1998.

Pierrehumbert  J. Synthesizing Intonation // JASA. 70(4), 1980

 

 

 

 

 

[1] Работа выполнена при финансовой поддержке ИНТАС (INTAS-99-00-795).

[2] Прототипическая схема синтезаторов типа "Текст-Речь" (TTS) приводится в [Кривнова 1998]. 

[3] Значительным стимулом для написания настоящей работы был вопрос о том,  какое направление или подход реализован при моделировании интонации в системе синтеза русской речи (МГУ).