ТЕХНОЛОГИЧЕСКИЕ ВОПРОСЫ ПОДГОТОВКИ ЗВУКОВЫХ МАТЕРИАЛОВ, ПРЕДНАЗНАЧЕННЫХ ДЛЯ НАУЧНЫХ ИССЛЕДОВАНИЙ В СРЕДЕ ИНТЕРНЕТ
П. П. Щербаков
Санкт-Петербургский государственный университет
paul@icape.nw.ru
П. А. Скрелин
Санкт-Петербургский государственный университет
paul@phonet.lang.pu.ru
Т. Ю. Шерстинова
Санкт-Петербургский государственный университет
tanya@ts4306.spb.edu
Ключевые слова: экспериментальная и прикладная фонетика, речевые технологии, лингвистические базы данных, русский язык, Интернет
Рассматривается опыт работы, проводимой в Санкт-Петербургском университете, целью которой является разработка модели электронной звуковой коллекции для Интернет и ее техническая реализация. Особенностью работы является то, что материалы коллекции предназначаются для научного использования, в первую очередь для фонетических исследований. Обсуждаются проблемы, возникающие при создания таких коллекций, и возможные подходы к их реализации на примере опыта авторского коллектива, полученного при реализации программ, поддержанных грантами РФФИ № 00-07-90197 и № 01-08-80188.
Представляется работа, направленная на подготовку и публикацию звуковых коллекций в Интернет. Особенностью работы является то, что материалы коллекции предназначаются для научного использования, в первую очередь для фонетических исследований [1; 2]. Наличие таких коллекций с доступом через Интернет позволит создать такие условия, при которых у удаленных территориально друг от друга исследователей появится возможность проводить фонетические исследования на основе единого звукового материала или использовать его как эталонные образцы.
При реализации проекта приходится решать ряд специфических задач и большинство проблем, которые приходится преодолевать, связаны с самим предметом изучения, которым при фонетических исследованиях является собственно звуковой материал [3; 6].
С одной стороны этот звуковой материал должен представлять достаточно представительный массив данных. Для хранения десяти минут звучания речи приемлемого качества требуется около 25 Mb. Для использования и хранения на локальном компьютере такой это обстоятельство не является критической характеристикой, однако при необходимости передать данные через Интернет такой объем становится серьезным препятствием. Использование компрессии (например, mpeg) позволяет существенно уменьшить размер звуковых файлов, однако потери информации при такой компрессии могут сделать звуковой материал непригодным для дальнейшего использования. С другой стороны для научных исследований может понадобиться не весь звуковой файл, ссылка на который имеется на сайте, а лишь какой-то его фрагмент (хотя заранее не всегда известно какой). Например, специалисты в области речевых технологий, независимо от того, работают они в сети Интернет или вне ее, во многих случаях интересуются “локализованными” фонетическими явлениями (например, произнесением отдельного слова, слога или даже звука) [4; 5].
Во многих случаях в фонетических исследованиях предоставление самого речевого материала должно сопровождаться соответствующими описаниями и расшифровкой. Таким образом, наряду с непосредственно звуковым материалом существенной может являться дополнительная информация, которую необходимо привязать к соответствующему звуковому фрагменту.
Еще одной проблемой при изучении звукового материала является отличие в восприятии звуковой информации и визуальной. При изучении визуальной информации у исследователя имеется возможность сделать один или несколько мгновенных снимков – стоп-кадров. Имеется возможность некоторого изменения масштаба изображения. При изучении звукового материала для тонкого изучения свойств приходится использовать результаты обработки сигналов, например, спектрограммы.
При фонетических исследованиях возникают и другие специфические проблемы. Фонетическая транскрипция не дает полного и исчерпывающего описания речевого материала. Это обстоятельство, в свою очередь, поднимает вопрос об эталонах, шкалах, что считать нормой, отклонением от нормы и так далее.
Нам представляется, что в настоящий момент в нашем распоряжении уже имеется ряд технологий, позволяющих решать задачи создания звуковых Интернет-коллекций, предназначенных для использования в научных целях.
При подготовке таких коллекций необходимо выполнить ряд мероприятий:
- Выбрать фонетически представительные текстовые фрагменты.
- Выбрать дикторов, речь которых может быть признана эталонной или типичной для определенных отклонений от нормативных вариантов.
- Записать и перевести речь в цифровую форму.
- Провести разноуровневую сегментацию и записать эту информацию в базу данных.
- Провести фонетическое описание текстов и звукозаписей и тоже записать эту информацию в базу данных.
Полученную бузу данных и звуковой материал разместить на WEB-сайте и разработать серверное программное обеспечение, позволяющее вычленять по запросу пользователя и отправлять для воспроизведения на компьютере пользователя любой фрагмент звукозаписи. Выбирать характеристики такого фрагмента на основе орфографической записи текста или опираясь на интересующие исследователя фонетические признаки. При наличии звукозаписи одного текстового фрагмента разными дикторами сравнивать нормативное и ненормативное произнесение тех или иных элементов.
Учитывая, что Интернет в большой степени ориентирован на текстово-графическую информацию, снабдить соответствующие звуковые образцы графическими иллюстрациями. Получение осциллограмм и спектрограмм показало, что имеются дополнительные возможности повышения информативности коллекции.
В Санкт-Петербургском государственном университете осуществляется совместная программа кафедры фонетики, лаборатории экспериментальной фонетики филологического факультета и Междисциплинарного центра СПбГУ, целью которой является разработка модели электронной звуковой коллекции для Интернет и ее техническая реализация. В рамках программы разрабатываются две веб-системы, содержание которых должны составить эталонные образцы русской речи и ее варианты в чтении и спонтанном диалоге (проект “Создание Wеb-коллекции эталонных звуковых образцов произношения для исследований в области синтеза и распознавания речи” — грант РФФИ, № 00-07-90197 — http://www.webspeaker.nw.ru и проект “Фонетические свойства русской спонтанной речи” http://www.phonetics.pu.ru/s-speech/s-speech.htm – грант РФФИ, № 01-08-80188).
При разработке модели профессионального звукового архива для Интернет авторским коллективом в той или иной степени были решены или находятся в стадии решения все основные технологические задачи организации научно-ориентированных звуковых коллекций для Интернет. Так, в настоящий момент система, основанная на использовании фонетической базы данных, делает возможным по-фрагментное прослушивание звукозаписей в режиме он-лайн, выдает по запросу пользователя всю имеющуюся в ней информацию по каждому из фрагментов. Представляется, что разрабатываемая модель может быть использована при разработке подходов к созданию единой универсальной технологии, позволяющей унифицированным образом решить задачи, возникающие при создании Интернет-коллекций мультимедийных данных.
Литература
- Бондарко Л.В., Вольская Н.Б., Скрелин П.А., Шерстинова Т.Ю. Представление в Интернет звуковых коллекций Санкт-Петербургских фонотек // Тезисы I Всероссийской научно-методической конференции “Интернет и современное общество” IMS’98 Санкт-Петербургский гос. университет. 8-11 декабря 1998. С. 34.
- Скрелин П.А., Шерстинова Т.Ю. Проект "Региональные варианты звучащей русской речи в Интернет" как модель интерактивной базы данных для филологических исследований // Тезисы II Всероссийской научно-методической конференции “Интернет и современное общество” IMS’99 Санкт-Петербургский гос. университет. 29 ноября - 3 декабря. С. 55-57.
- Скрелин П.А., Т.Ю.Шерстинова «Исследовательская фонетическая база данных для Интернет “Региональная вариативность русской звучащей речи”» // Тезисы докладов международного семинара «Диалог’2000» - Компьютерная лингвистика и ее приложения». 3-10 июня 2000, Таруса. Booton R.C. Nonlinear control systems with random inputs // Trans. IRE Profes. Group on Circuit Theory. 1954. Vol. CT1, No 1. P. 9-18.
- Скрелин П.А., Таланов А.О., Шерстинова Т.Ю., Щербаков П.П. Разработка интерактивной системы Интернет-доступа к коллекциям звуковых архивов // Труды конф. EVA’2000 “Электронная конвергенция: новые технологии в музеях, галереях, библиотеках и архивах”. Москва, Гос. Третьяковская галерея, 30 октября – 3 ноября 2000 г. С. 06-10-1–3.
- Скрелин П.А., Шерстинова Т.Ю., Щербаков П.П. Дистанционный доступ к информационным базам данных, содержащим большие объемы звукового материала // Тезисы III Всероссийской научно-методической конференции “Интернет и современное общество” IMS’2000 Санкт-Петербургский гос. университет. 20-24 ноября 2000.
- П.А.Скрелин, Т.Ю.Шерстинова, П.П.Щербаков. Технологические аспекты публикации звуковых коллекций в Интернет // Тезисы IV Всероссийской научно-методической конференции “Интернет и современное общество”IMS’2001 Санкт-Петербургский гос. университет. 20-23 ноября 2001. С. 63-65.
Technological problems in development of sound collections designed for scientific investigations in the Internet
P. P. Tscherbakov, P. A. Skrelin, T. Y. Sherstinova
The paper describes the main technological problems which should be solved by developers of Web sites, presenting multimedia collections for professional usage. It proposes ideology and general approach to data representation and access, which were used by the authors for creation of the perspective models of phonetic databases for the Internet and which may be further used for creation of other Internet multimedia applications. The paper generalizes the results of works spent by the authors within the framework of projects, supported by grants of Russian Foundation for Fundamental Research (project #01–06–80188 “Phonetic features of the Russian spontaneous speech”) and Russian Foundation for Fundamental Research (project #00–07–90197 “Wеb-Collection of Reference Sound Samples of Standard Russian Pronunciation for Researches in the Field of Speech Synthesis and Recognition”).