Речевые корпусы
(опыт разработки и использование)[1]
О. Ф. Кривнова, Л. М. Захаров, Г. С. Строкин
Москва, МГУ
1. Речевые корпусы как разновидность языковых ресурсов
Корпусы звучащей речи, которые называют также речевыми базами данных, представляют собой важнейший тип языковых ресурсов. Последний термин обычно используется для обозначения любых, как правило больших, наборов лингвистических данных и описаний, представленных в электронном виде и специально организованных для разработки, совершенствования и оценки систем и алгоритмов обработки речевого и языкового материала в лингвистических технологических приложениях. Иногда к языковым ресурсам относят также и компьютерные программы, которые обеспечивают создание, сбор, организацию и управление собственно лингвистическими ресурсами.
Интерес к созданию корпусов звучащей речи был в значительной степени инициирован разработками в области автоматического распознавания речи, где исследователям приходится сталкиваться с огромной акустической вариативностью звуковых единиц языка, которая имеет весьма разнообразные источники – от системной контекстной вариативности, обусловленной коартикуляцией, до психофизиологического состояния говорящего или технических характеристик микрофона, который используется при записи речевого материала. Современные системы распознавания речи, которые дают наиболее высокие показатели надежности, базируются преимущественно на методах статистического (вероятностного) моделирования речевых и языковых явлений.
Такие системы обычно обучаются на очень больших массивах звучащей речи, записанной от многих дикторов (не менее 100 человек). Звуковые файлы, входящие в обучающий речевой корпус, специальным образом аннотируются, т. е. снабжаются акустико-фонетической и лингвистической информацией, необходимой для построения статистических моделей. В последнее десятилетие заметен переход от «ручных» правил и алгоритмов к корпусному моделированию и в области автоматического синтеза речи. Специалисты (Sagisaka 1997) считают, что корпусной подход (corpus-based approach) является определяющим для дальнейшего усовершенствования и развития технологий синтеза, особенно при моделировании просодических характеристик речи и индивидуальных особенностей голоса говорящего. Отмечается также такое достоинство этого подхода, как формализация процедур обучения, включая применение циклического процесса с исправлением возникающих и контролируемых ошибок, и возможность контроля и объективной оценки работы различных систем на стандартизованной основе (на одних и тех же речевых корпусах). Практика показывает, что при наличии речевых корпусов и технологии обучения создание прототипической версии автоматического распознавателя или синтезатора речи занимает не так уж много времени. В литературе указываются сроки от двух месяцев до полугода. Для коммерчески ориентированных разработок это немаловажное обстоятельство.
Было бы неправильно думать, что речевые корпусы представляют интерес только для развития речевых технологий. Проблема описания и моделирования звуковой стороны речевых сообщений с учетом ее акустической вариативности в разнообразных речевых ситуациях представляет самостоятельный научный интерес и возникает во многих задачах, связанных с анализом звучащей речи. Несмотря на достаточно большой опыт исследования этой проблемы в акустической фонетике, нельзя сказать, что она решена в полном объеме даже для такого относительно простого речевого режима, как чтение связных текстов, нейтральных в экспрессивно-эмоциональном отношении. Использование представительных речевых корпусов, снабженных специальной аннотированной информацией, уровень развития современных речевых технологий и постоянно возрастающие мощности компьютерной техники дают недоступную ранее возможность для проведения крупномасштабных и статистически достоверных фонетических исследований, обычно весьма трудоёмких. Об этом свидетельствует, в частности, опыт использования в фонетических исследованиях известного речевого корпуса TIMIT (американский вариант английского языка), исходно предназначенного для разработки и оценки систем автоматического распознавания речи (подробнее об этом корпусе см. ниже).
2. Организационно-финансовые проблемы создания речевых корпусов
Несмотря на общее признание необходимости и плодотворности развития корпусной фонетики и соответствующих речевых технологий, количество корпусов звучащей речи, созданных для разных языков, не так уж велико. Судя по отзывам экспертов и имеющемуся опыту, главной причиной такого положения дел являются большие финансовые затраты на создание любых языковых ресурсов.
Первые речевые корпусы появились в середине 80-х годов в США, где их разработка финансировалась прежде всего Министерством обороны. При поддержке этого ведомства были созданы: TI-DIGITS корпус (1984 г.) для тестирования систем распознавания изолированных цифр и цифровых последовательностей; Road Rally для анализа и распознавания ключевых слов (word spotting) и King Corpus для систем идентификации говорящего (speaker recognition). В рамках государственной программы развития лингвистических технологий, известной как ARPA/DARPA (the Advanced Research Projects Agency), это же министерство финансировало создание уже упоминавшегося выше корпуса TIMIT, который послужил прототипом для многих других речевых баз данных. При этой же финансовой поддержке были разработаны специализированные речевые корпусы Resourse Management (RM) и Wall Street Journal (WSJ) для исследований в области распознавания слитной речи, а также Air Travel Information Service (ATIS) для исследования спонтанной речи и понимания естественного языка в диалоговых системах.
Накопленный к концу 80-годов опыт показал, что создание представительных речевых корпусов требует кооперативных усилий исследовательских институтов, индустриальных компаний и государственных спонсоров. Финансовые и временные затраты на разработку высококачественных ресурсов оказались очень велики. Эксперты отметили, что дорогостоящие, но необходимые для развития информационных технологий ресурсы не должны разрабатываться для какой-то одной специальной системы или задачи (Godfrey & Zampolli 1997). Они пришли к выводу, что ресурсы должны обеспечивать возможность их многократного использования разными пользователями, т. е. быть общедоступными, и более чем для одной цели, т. е. быть многофункциональными. В связи с этими требованиями возникла проблема стандартизации лингвистических описаний, согласования форматов представления информации в разных видах лингвистических ресурсов и их типологии (подробнее см.(Gibbon D. et al. 1997)).
По признанию специалистов, важным результатом первого этапа разработки корпусных методов в технологической сфере было создание специальных координационных центров, в функции которых входит сбор, хранение, распространение и организация разработки общедоступных и стандартизованных лингвистических ресурсов, в том числе и речевых. В 1991 году в США был создан лингвистический консорциум (LDC Linguistic Data Consortium), который поддерживает создание новых языковых корпусов и распространяет ресурсы, полученные из разных источников. В частности, в настоящее время LDC предлагает более 20 речевых корпусов, включая упомянутые выше, которые в совокупности содержат многие сотни часов звучащей речи. Технологический Центр в штате Орегон (CSLU Center for Spoken Language Understanding) коллекционирует, аннотирует и распространяет телефонные речевые корпусы. Активность Центра поддерживается индустриальными спонсорами, но собранные корпусы доступны университетам по всему миру бесплатно. Этот центр располагает также многоязычным корпусом для оценки алгоритмов идентификации языка, который состоит из фрагментов спонтанной речи на одиннадцати разных языках мира. В 1995 году координационный центр лингвистических ресурсов (ELRA European Language Resources Assosiation) был образован и в Европе (более подробные сведения об истории создания и задачах этой ассоциации можно найти, например, в обзорных статьях (Mariani 1996; Teubеrt 1996). В распоряжении этого центра находятся речевые корпусы для большинства официальных языков Европейского Союза: для британского и шотландского вариантов английского языка, голландского, датского, шведского, немецкого, французского, итальянского, испанского, а также несколько многоязычных корпусов. В настоящее время в результате осуществления программы Copernicus ELRA распространяет также речевые корпусы для языков Восточной Европы (польский, болгарский, эстонский, румынский и венгерский). На сайте Европейской Ассоциации в Интернете можно найти предложения и речевых корпусов для русского языка. Насколько нам известно, в их разработке принимала участие Санкт-Петербургская компания «Одитек». В материалах IX сессии РАО, посвященной современным речевым технологиям, есть доклад сотрудников этой компании, в котором сообщается о разработке двух специализированных корпусов русской «телефонной» речи для задач верификации говорящего (65 дикторов, 10 подходов) и автоматического распознавания речи (1350 дикторов) (Викторов А. Б. и др. 1999).
3. Вопросы проектирования речевых корпусов
Ввиду значительных финансовых и рабочих затрат, создание речевого корпуса требует предварительного проектирования с учетом задач, для решения которых предполагается использовать речевой корпус. Несмотря на стремление к разработке многофункциональных и компактных корпусов, пригодных для различных приложений, на практике продолжают разграничивать узкоспециализированные и репрезентативные (эталонные или общие) корпусы. Как правило, это связано с экономией усилий при создании конкретных речевых систем. Часто требования таких систем трудно совместить в одном корпусе: например, для систем автоматической верификации дикторов нужны корпусы, содержащие многократное произнесение небольшого количества парольных фраз относительно небольшим количеством дикторов (обычно не более 100), а для систем автоматического распознавания речи или фонетических исследований необходимы корпусы, в которых представлены однократные произнесения разных фраз или текстов большим количеством дикторов (заведомо больше 100). Поэтому, рассматривая при проектировании фактически одну и ту же совокупность вопросов, разработчики разно ориентированных речевых корпусов принимают по ним различные решения.
Условно всю совокупность возникающих вопросов можно разделить на четыре группы: технические, содержательные, структурные и инструментальные (исполнительские). К техническим относятся вопросы, связанные с акустическими и техническими условиями записи речевого материала (выбор типа и количества микрофонов, звуковой карты компьютера, режима цифрового кодирования и формата звуковых файлов, акустическая среда записи, тип канала связи и пр.). Содержательные вопросы более разнообразны и принципиально существенны. Перечислим основные проблемы, которые приходится здесь решать.
Выбор дикторов (количество, пол, возраст, диалектные различия, образование, социальное положение, профессия и пр.)
Подбор текстового материала (специализированный/репрезентативный, тип произносимых речевых образцов (слова, отдельные предложения, тексты, образцы спонтанной речи), фонетически сбалансированный/ не сбалансированный, тип балансировки, статистическая представительность звуковых единиц и т. п.)
Распределение текстового материала по дикторам, включая количество подходов для каждого диктора
Распределение речевого материала на тренировочную и тестовую части
Выбор типов информации, ассоциированной с каждым звуковым файлом (орфографическая запись, фонемная запись / фонетическая транскрипция реального произнесения, акустико-фонетическая разметка звукового сигнала, прочие типы аннотаций и комментариев)
Структурные вопросы касаются организации информации, содержащейся в корпусе, в формат, удобный для размещения, хранения, поиска и использования нужной информации (структура директорий и файлов, создание протоколов и пр.).
«Инструментальные» или исполнительские вопросы возникают в связи с автоматизацией и стандартизацией разных этапов создания речевого корпуса. Для репрезентативных или общих корпусов главная проблема связана с разработкой стандартов для транскрипции речевых сигналов на разных уровнях их представления и для разных языков, с установлением набора транскрипционных символов, соглашений о разметке сигналов, задающих уровни транскрипции – акустический, фонетический, фонемный, словесный, просодический и пр. Как правило, для создания речевых корпусов, содержащих транскрипционную информацию, привлекаются фонетические эксперты, но даже в этом случае для получения согласованных экспертных транскрипций и разметочных файлов необходимо разрабатывать специальные рабочие инструкции, в которых приходится предусматривать не только типовые, но и трудные случаи фонетической интерпретации речевых сигналов. Кроме того, при разработке таких корпусов необходим специальный компьютерный инструментарий для обеспечения удобной, быстрой и надежной работы эксперта. Хотя сейчас существует довольно большое количество компьютерных программ, которые позволяют анализировать, размечать, транскрибировать и аннотировать речевые сигналы, каждая из них имеет свои особенности, которые не всегда удобны для решения конкретных задач. В особенности, это относится к программам, которые относительно дешевы или находятся в свободном доступе. Специальных программ требует также организация записи и файлирования речевого материала. Как правило, используется так называемый метод суфлера (prompt-method), который позволяет создавать звуковые файлы, соответствующие отдельным объектам речевого корпуса, непосредственно в процессе его записи.
Нет необходимости специально останавливаться на том, что качественные речевые корпусы должны быть снабжены подробной документацией.
4. Краткое описание репрезентативного речевого корпуса TIMIT (американский вариант английского языка)
Выше уже упоминалось, что американский корпус TIMIT до сих является прототипическим образцом корпуса репрезентативного типа. Поэтому полезно рассмотреть, каким образом при его создании были решены вопросы содержательного характера. Акустико-фонетический корпус TIMIT предназначался для широких фонетических исследований, а также для разработки и тестирования автоматических систем распознавания слитной речи в рамках американского варианта английского языка. В егоразработке (1998-1990 гг.) принимало участие несколько широко известных организаций и исследовательских центров: MIT (the Massachusetts Institute of Technology, SRI (Stanford Research Institute) and TI (Texas Instruments) и NIST (National Institute of Standards and Technology). Это один из первых речевых корпусов, который начал распространяться на CD-дисках. В записи корпуса принимало участие 630 дикторов из 8 региональных диалектных зон США, причем разработчики стремились к одинаковому процентному представительству диалектов, хотя это удалось сделать не для всех зон. Соотношение дикторов по полу также выдерживалось – каждый записанный диалект представляют около 70% дикторов-мужчин и 30% женщин. Среди прочих признаков при подборе и записи дикторов учитывались: возраст, рост, расовая принадлежность, уровень образования, время записи речи. Текстовый материал TIMIT включает 2342 отдельных предложения. Из них 2 предложения представляют собой специально сконструированные фразы, насыщенные контекстами, в которых можно ожидать максимального проявления диалектной принадлежности диктора. Остальные 2340 предложений делятся на две группы следующим образом. Первая состоит из 450 специальных фонетически сбалансированных предложений, которые обеспечивают полное покрытие фонемного инвентаря и встречаемость фонем в особых «проблемных» контекстах. 1890 предложений второй группы отбирались из имевшихся текстовых корпусов, критерий отбора – увеличение разнообразия типов предложений и фонетических контекстов употребления фонем. Распределение корпусных предложений по дикторам характеризует следующая таблица.
Тип предложения |
Количество предл. |
Количество |
Диктор / |
Общее количество произнесен. |
Предложение / диктор |
Диагностические (диалектные) |
2 |
630 |
2 |
1260 |
630 |
Компактные |
450 |
630 |
5 |
3150 |
7 |
Разнообразные |
1890 |
630 |
3 |
1890 |
1 |
В TIMIT корпусе звуковые файлы, полученные от разных дикторов, разделены на тренировочную и тестовую части. При этом разработчики руководствовались следующими соображениями. Тестовая часть корпуса должна составлять от 20 до 30% всего корпуса, ни один из дикторов не должен использоваться одновременно в обеих частях, в каждой части должны быть представители всех диалектов разного пола, тренировочный и тестовый наборы не должны содержать одинаковых предложений, тестовый набор должен обеспечивать полное покрытие фонемного инвентаря, достаточное разнообразие их фонетических контекстов и частоту встречаемости. С каждым предложением, как в тренировочном, так и тестовом наборе, ассоциированы 4 разных файла, которые отличаются только расширением и содержат разную информацию о произнесенном предложении. Один из файлов звуковой, а остальные – текстовые. Структура ассоциированных текстовых файлов одинакова и отражает временную соотнесенность (time-alignment) разных языковых объектов с сигналом, т. е. разные уровни его разметки. Текстовые файлы имеют следующий вид:
<№ начального отсчета> <№ конечного отсчета> <текст> <маркер новой строки>
<№ начального отсчета> <№ конечного отсчета> <текст> <маркер новой строки>,
в качестве текста выступают в разных файлах следующие объекты: полная орфографическая запись предложения, отдельные слова предложения в орфографической записи, транскрипционные символы отдельных звуков или их частей.
Корпус снабжен подробной документацией, где отражены многие детали его содержания и возможного использования.
5. Репрезентативные речевые корпусы для русского языка
В заключение остановимся кратко на своем опыте участия в создании представительных речевых корпусов для русского языка. Первый подобный корпус, специально ориентированный на использование в речевых технологиях, был разработан в Институте системного анализа РАН при поддержке РФФИ в период с 1996 по 1998 гг. в значительной степени по образцу описанного выше корпуса TIMIT. Мы участвовали в нем как фонетисты-эксперты. Подробное описание этой речевой базы, ее текстового содержания, фонетического обеспечения и программного инструментария содержится в (Богданов и др. 1998). К сожалению, к настоящему времени в некоторых, технологически важных отношениях корпус ISABASE морально устарел: слишком мало дикторов (36), дискретное чтение предложений и др. При подготовке корпуса много усилий и времени было потрачено на ручную сегментацию и транскрипцию звуковых файлов. Современные технологии построения систем автоматического распознавания речи не требуют наличия большого массива размеченных звуковых файлов. Это дает возможность существенно увеличить количество дикторов и размеры текстового материала при разработке речевого корпуса. При этом особое значение приобретают статистические характеристики фонетического содержания текстового материала (балансировка, представительность и разнообразие контекстов) и наличие фонетической транскрипции, отражающей реальное дикторское произнесение текстового материала.
В настоящее время в ИСА РАН осуществляется разработка нового корпуса русской речи с нашим участием. Надо заметить, что подбор текстовых массивов с заранее оговоренными статистическими требованиями на контекстное употребление фонем представляет собой очень трудоемкую задачу. В целях ее автоматизации мы разработали специализированный компьютерный инструментарий, который включает автоматический транскриптор русских письменных текстов и программу статистической обработки транскрипционных записей. Статистическая программа, сопровождающая работу транскриптора, используется не только для окончательного подсчета частоты встречаемости фонем в разных контекстах, но также как фильтр-накопитель, который позволяет накапливать текстовый массив, удовлетворяющий априорным статистическим требованиям на частоту встречаемости тех или иных звуковых объектов.
Работа с записанным речевым материалом требует верификации канонической транскрипционной записи, которая была построена для текстовых массивов с помощью автоматического транскриптора. Цель верификации состоит в том, чтобы учесть реальное произнесение предложенных материалов дикторами. Временные затраты на эту работу можно существенно сократить, если использовать каноническую автоматическую транскрипцию как своего рода «подстрочник», который может исправляться экспертами-фонетистами в интерактивном режиме работы со звуковыми сигналами. Для облегчения и унификации этой деятельности была разработана специальная инструкция и компьютерная программа, обеспечивающая удобный режим работы фонетиста-эксперта.
Несколько иной тип русского речевого корпуса разрабатывается нами в рамках исследовательского проекта, который посвящен моделированию акустической вариативности звуковых единиц в связной речи. Проект поддерживается РФФИ. При подборе и верификации речевого материала для этого корпуса мы также активно использовали созданный нами автоматический транскриптор, а также статистический и верификационный компьютерный инструментарий. Для выполнения этого проекта необходима сегментация звуковых файлов на фрагменты фонемной размерности и их фонетическая аннотация (phonetic labelling). К сожалению, мы пока не имеем возможности автоматизировать (хотя бы частично) эту трудоемкую процедуру. На Западе эта задача решается как упрощенный вариант распознавания слитной речи с использованием аналогичных технологий (см. например (Rapp 1996), где подробно описана задача построения фонемного aligner’а для немецкого языка). Хотелось бы надеяться, что развитие систем распознавания русской речи даст русским фонетистам возможность автоматизировать процедуры сегментации и аннотации звуковых файлов, к которым приходится прибегать при решении многих исследовательских и прикладных задач.
Литература
- Богданов, Д. С., Кривнова, О. Ф., Подрабинович, А. Я., Фарсобина, В. В. База речевых фрагментов русского языка «ISABASE» // Интеллектуальные технологии ввода и вывода информации. М., 1998.
- Викторов А. Б., Викторова К. О., Воронцова А. В. и др. Речевые базы данных для задач автоматического распознавания речи и верификации говорящего // Современные речевые технологии. Сб. трудов IX сессии Российского акустического общества. М., 1999.
- Gibbon, D.,Moore, R., Winski, R. (Editors) Handbook of Standards and Resources for Spoken Language Systems Mouton de Gruyter, 1997.
- Godfrey, J., Zampolli A. Language Resources. Overview // Survey of the state of the art in human language technology. Cambridge, 1997.
- Mariani, J. Language resources and evaluation: a survey // Integration of Language and Speech. Proc. of the ELSNET workshop. Moscow, 1996.
- Sagisaka, Y. Spoken Output Technologies. Overview // Survey of the state of the art in human language technology. Cambridge, 1997.
- Rapp, S. Automatic phonemic transcription and linguistic annotation from known text with Hidden Markov Models. An Aligner for German // Integration of Language and Speech. Proc. of the ELSNET workshop. Moscow, 1996.
- Teubårt, W. Language resources for language technology // Integration of Language and Speech. Proc. of the ELSNET workshop. Moscow, 1996.
[1] Работа выполнена при поддержке РФФИ, проект № 00-06-80091 и ИНТАС (INTAS-99-00-795).