Мультимедийная база данных исчезающего языка
О.А.Казакевич
НИВЦ МГУ
kazak@orc.ru
Ключевые слова: исчезающие языки; бесписьменные языки; диалект; говор; фольклорные тексты; селькупский язык; компьютерная обработка лингвистических данных; озвученный компьютерный словарь; база данных звуковых файлов; видеоряд; мультимедийная база данных.
- Введение
Настоящая публикация рассказывает о разработке модельного образца мультимедийной базы данных исчезающего языка, осуществляемой в рамках проекта “Говоры северных селькупов: сопоставительное описание и база данных звуковых файлов”, работа над которым начата в 2001 г. в лаборатории автоматизированных лексикографических систем Научно-исследовательского вычислительного центра МГУ им. М.В.Ломоносова при финансовой поддержке Российского фонда фундаментальных исследований[1]. Современные технологии позволяют по-новому подойти к сбору, хранению и анализу информации по исчезающим языкам, документация которых является одной из самых неотложных задач современного языкознания. Создаваемая база данных рассматривается как одна из возможных форм оптимизации упорядочения, хранения и анализа соответствующей информации.
- Общие сведения о проекте “Говоры северных селькупов”
Целью проекта является сопоставительное синхронное описание современных говоров северного диалекта селькупского языка на фонетическом, грамматическом и лексическом уровне. На примере северного диалекта селькупского языка предполагается исследовать тенденции развития локальных вариантов языка без письменной традиции в условиях интенсивных контактов с другими, в том числе и функционально гораздо более развитыми языками. То, что в литературе в настоящее время принято называть северным (тазовско-туруханским) диалектом [Хелимский 1993] или наречием [Хелимский 1994] селькупского языка, существует как совокупность взаимопонимаемых локальных вариантов - говоров, функционирующих в нескольких поселках на территории Красноселькупского и Пуровского районов Ямало-Ненецкого автономного округа и Туруханского района Красноярского края. На сегодняшний день реально функционируют, хотя и в разной степени, четыре говора: среднетазовский говор (пос. Красноселькуп и Сидоровск Красноселькупского района; очень близким вариантом этого говора является говор немногочисленных селькупов пос. Советская речка Туруханского района - выходцев из пос. Янов Стан), верхнетазовский говор (пос. Ратта и Толька Красноселькупского района; немногочисленные носители этого говора - выходцы из Ратты живут также в поселках Туруханского района, расположенных на Енисее - Сургутихе, Бакланихе, Верещагино), баишенскийговор (пос. Фарково Туруханского района), верхнетолькинский говор (пос. Толька Пуровского района; носители этого говора - выходцы их Пуровской Тольки живут и в других поселках Пуровского района - Халясавэй, Харампур, Быстринка, а также в райцентре Тарко-Сале).
В качестве материала при реализации проекта предполагается использовать:
1) шесть корпусов фольклорных и бытовых текстов общим объемом более 60000 словоупотреблений, записанных на протяжении XX века и представляющих все четыре основных говора северных селькупов;
2) аудиозаписи фольклорных и бытовых текстов, сделанные в 1996-2000 гг. и также отражающие, хотя и в разной степени, все четыре названных выше говора;
3) видеозаписи речевых актов на баишенском и верхнетолькинском говорах, сделанные в 1999-2000 гг.;
4) новые аудио- и видеоматериалы, заполняющие лакуны в имеющихся данных, которые предполагается получить во время экспедиций в ходе реализации проекта.
Поскольку основные различия между говорами наблюдаются на фонетическом уровне, именно этот уровень будет исследован особенно тщательно, хотя грамматические и лексические различия также будут фиксироваться и описываться.
- Мультимедийная база данных как важнейшая составляющая проекта
Наиболее распространенной формой фиксации языкового материала в разнообразных компьютерных базах данных была и остается форма графическая. Однако современные компьютерные технологии позволяют хранить, воспроизводить и анализировать не только графическое изображение речи, но и ее звучание, а также видеозапись речевых актов. Создание комплексных компьютерных архивов исчезающих языков, включающих как графическое, так и аудиовизуальное представление языкового материала, является, на наш взгляд, оптимальным с точки зрения обеспечения сохранности и возможности последующего анализа этого материала[2].
Графическая составляющая разрабатываемой мультимедийной базы данных северного диалекта селькупского языка наиболее представительна. Это уже упоминавшиеся выше шесть корпусов фольклорных текстов, записанных на протяжении XX века (1925-2000 гг.) и отражающие все четыре рассматриваемых говора. Каждый из корпусов организован в виде текстовой базы данных. Помимо селькупских текстов в базе хранится пофразовый перевод этих текстов на русский язык. Ж.Г.Аношкиной разработан пакет программ, позволяющий работать с параллельными текстами и получать конкордансы с переводом селькупских контекстов на русский язык. Примерно треть общего объема корпуса текстов отлемматизирована, причем лемматизация проводилась автоматизированно (Ж.Г.Аношкиной были написаны для этого специальные программы) с последующей ручной коррекцией. Кроме того, имеется словарная база данных, включающая грамматический словарь к ряду текстов и тезаурус фольклорных реалий[3]. Словарные базы связаны с текстовыми.
Создание компьютерного аудиоархива предусматривает введение аудиозаписи текстов на отдельных говорах в компьютер в виде звуковых файлов, которые далее предполагается организовать в базу данных. В качестве основы программного обеспечения на начальном этапе будет взята реляционная база данных Access, функционирующая в среде Windows, хотя не исключено, что впоследствии база звуковых файлов из реляционной будет преобразована в иерархическую. Для обработки звуковых файлов предполагается использовать редактор WinCecil[4], который позволяет получить комплекс сегментных и супрасегментных характеристик звуковых единиц различной протяженности (от отдельных звуков речи до целого дискурса) в виде осциллограмм, спектрограмм, интонограмм, графиков интенсивности. В рамках нашего проекта помимо уточнения набора фонем для каждого говора и набора возможных вариантов (аллофонов) каждой фонемы, особое внимание будет уделено исследованию супрасегментных характеристик отрезков речи, поскольку до настоящего времени ни ударение, ни интонация практически ни в одном селькупском говоре не исследовались.
Существенной составляющей базы данных должен стать озвученный словарь говоров северных селькупов. Предполагаемый объем словаря - 300-400 лексем, при каждой из которых будут приведены все словоформы, встретившиеся в анализируемых текстах.
Наличие в базе данных наряду со звуковыми материалами видеоматериалов представляется весьма полезным для составления адекватного описания артикуляторной базы носителей разных говоров. Кроме того, видеоряд облегчает исследователям восприятие звучащей речи и, в случае необходимости, ее адекватное транскрибирование. Наличие видеоряда дает также дополнительную информацию о функционировании языка в рамках конкретного языкового коллектива[5].
По окончании проекта (который рассчитан на три года) будут выработаны рекомендации относительно оптимальной организации мультимедийной базы данных как хранилища лингвистической информации и инструмента ее (этой информации) анализа.
Литература
Казакевич О.А. Автоматический тезаурус языка фольклора северных селькупов // Труды Международного семинара Диалог’99 по компьютерной лингвистики и ее приложениям. Том 2. Приложения. Таруса, 1999. С. 92-97.
Казакевич О.А. Шаманская лексика в автоматическом тезаурусе фольклора северных селькупов // Труды международного семинара Диалог’2000 по компьютерной лингвистике и ее приложениям. Том 1. Протвино, 2000. С. 127-132.
Люблинская М. Озвученный словарь как инструмент сохранения и исследования фонетики малых языков // Congressus nonus internationalis fenno-ugristarum. 7.-13.8.2000 Tartu. Pars 2. Tartu, 2000. С. 344-345.
Хелимский Е.А. Селькупский язык // Языки мира: Уральские языки. М.: Наука, 1993. С. 356-372.
Хелимский Е.А. Селькупский язык // Красная книга языков народов России. Энциклопедический словарь-справочник. М.: Academia, 1994. С. 48-49.
[1] Исследовательский проект № 01-06-80363.
[2] В последнее десятилетие появились звуковые компьютерные архивы отдельных малых языков, однако они немногочисленны. В качестве примера можно назвать озвученный словарь ненецкого языка, работа над которым ведется в на кафедре фонетики Санкт-Петербургского государственного университета [Люблинская 2000].
[3] О компьютерном тезаурусе селькупского фольклора см. [Казакевич 1999; 2000]
[4] Редактор WinCecil был разработан сотрудниками Летнего лингвистического института (Summer Linguistic Institute) специально для анализа “малых” языков.
[5] Кроме того, отснятые материалы при соответствующем качестве монтажа могут стать вкладом в развитие визуальной антропологии.