Proceedings 2002

Contents

ОЗВУЧЕННЫЙ СЛОВАРЬ ГОВОРОВ ИСЧЕЗАЮЩЕГО ЯЗЫКА[1]

 

 

О. А. Казакевич

Научно-исследовательский вычислительный центр МГУ им. М.В. Ломоносова

kazak@orc.ru

 

И. В.Самарина

Институт языкознания РАН

ira_samarina@hotmail.com

 

Д. Л.Трушков

ООО ЛУКойл-нефтехим

morion-tr@mtu-net.ru

 

 

Ключевые слова: исчезающие языки, бесписьменные языки, локальная вариативность, диалект, говор, селькупский язык, тезаурус, компьютерная обработка лингвистических данных, база данных звуковых файлов, озвученный компьютерный словарь

 

В докладе рассказывается о результатах первого этапа работы над Озвученным словарем говоров северных селькупов. Озвученный словарь рассматривается нами как одна из важнейших составляющих модельного образца мультимедийной базы данных исчезающего языка, создаваемой в лаборатории автоматизированных лексикографических систем Научно-исследовательского вычислительного центра МГУ им. М.В.Ломоносова в рамках проекта «Говоры северных селькупов: сопоставительное описание и база данных звуковых файлов». С демонстрационной версией словаря можно ознакомиться на сайте http://www.infolex.ru.

 

 

  1. Введение

 

В докладе представляются результаты первого этапа работы над Озвученным словарем говоров северных селькупов, осуществляемой в рамках проекта «Говоры северных селькупов: сопоставительное описание и база данных звуковых файлов». Проект предполагает запись и обработку материалов по четырем реально функционирующим сегодня говорам северного (тазовско-туруханского) диалекта селькупского языка: среднетазовскому, верхнетазовскому, баишенскому и верхнетолькинскому. Подробнее о проекте, а также о местах распространения говоров см. в [1].

Работу над словарем мы начали с верхнетолькинского говора. Выбор говора был сделан не случайно: несмотря на довольно хорошую сохранность, этот говор является наименее исследованным. Нам удалось найти только одну публикацию, посвященную этому говору - небольшую статью А.И.Кузьминой [2] с описанием некоторых фонетических особенностей говора. В докладе будут затронуты следующие вопросы:

  1. i) методика сбора материала для озвученного словаря;ii) первичная обработка материала;iii)      организация словаря;iv)      структура словарной статьи; v)       грамматика в озвученном словаре;vi)      контексты в озвученном словаре;vii)     оптимальный формат звуковых файлов; viii)   возможные области применения озвученного словаря исчезающего языка.

 

 

  1. Сбор материала для озвученного словаря

 

Материал для озвученного словаря верхнетолькинского говора был собран летом 2001 г. во время экспедиции в Пуровский район Ямало-Ненецкого автономного округа (участники – О.А.Казакевич и И.В.Самарина)[2]. При подготовке к экспедиции на базе селькупско-русского словаря, опубликованного в [3] и в основном содержащего материал среднетазовского говора, был составлен русско-селькупский тематический словник, своего рода словарь-тезаурус объемом около 2000 словарных статей. Статьи распределены по пятнадцати разделам: 1. Части тела; 2. Природа (ландшафт, стихии); 3. Пространство; 4. Время; 5. Флора; 6. Фауна; 7. Люди (термины родства, социальные роли, этнонимы, духовная культура); 8. Материальная культура (жилище, одежда, транспорт, оружие, инструменты); 9. Пища; 10. Абстрактные имена; 11. Количество; 12. Местоимения; 13. Образ действия; 14. Качество, характеристика, оценка; 15. Действия, процессы, состояния. Внутри каждого раздела выделяются подразделы.

При записи материалов для озвученного словаря селькупскому информанту-диктору в качестве стимула предъявлялось русское слово. В случае если информант не мог вспомнить селькупский эквивалент слова, ему давался второй стимул – селькупское слово среднетазовского говора. Особенно эффективным этот стимул оказывался при работе с пожилыми информантами, не слишком хорошо знающими русский язык: поскольку говоры взаимопонятны, информант узнавал слово, но комментировал неправильность произношения, а затем произносил то же слово по-своему, так, как считал правильным, то есть по нормам своего говора. Обычно мы сначала разбирали с информантами часть списка, давая им возможность вспомнить селькупские эквиваленты для максимального числа лексических единиц рассматриваемого фрагмента, и лишь затем проводили запись разобранного фрагмента.

Следует отметить, что параллельно с записью материалов словаря при работе с информантами мы по возможности старались собрать дополнительный лексический и грамматический материал, поэтому как правило, не ограничивались лишь получением селькупского эквивалента слов, имеющихся в списке, а старались записать примеры употребления слова, а также уточнить значение слова.

В качестве примера приведем фрагмент тезауруса, предложенный одному из информантов, и записи, сделанные от этого информанта.

 

Таблица 1. Фрагмент тезауруса с информацией, полученной от информанта.

 

Русское слово

Селькупский эквивалент среднетазовского говора

Селькупский эквивалент верхнетолькинского говора (информант 7)

волосы

opty

Opty

wyl’aχyj opty

‛гладкие волосы’,

ńεnsyqyrm#tpıj opty

‛спутанные волосы’,

parpıj opty ‛спутаные волосы’,

pyrńaj opty

‛кудрявые волосы’,

cumpy opty

‛длинные волосы’,

xo#mycy opty

‛короткие волосы’,

optäl’ pütät(y)

‛стриги волосы’

колтун

parpy

parpıj opty ‛спутаные волосы

ухо

üNkylsa; qo# (верхний таз)

χo#ly

ukkyr χo:ly ‛одно ухо (твое)’

χo#ly nom ammajimpa
‛(твои) уши отморозил (ты)’

 

Весь тезаурус был записан от восьми информантов. В качестве дикторов работали пятеро мужчин и три женщины в возрасте от 34 до 65 лет с различным уровнем образования и языковой биографией. При этом некоторое – сравнительно небольшое количество слов удалось записать только от трех самых пожилых информантов, так как более молодые этих слов просто не знали. Что касается работавших с нами пожилых информантов (старше 50 лет), то они опознали (и соответственно произнесли) все слова из нашего списка. Относительно нескольких слов было при этом сказано, что они существуют, их употребляют селькупы, но не жители Пуровской Тольки, а жители поселков на р.Таз.

Для записи использовались цифровая видеокамера Sony DCR TRV 530E и цифровой диктофон Samsung SVR S1330.

 

 

  1. Обработка материала и организация словаря

 

После снятия звуковой дорожки с видеокамеры и конвертации диктофонных файлов мы получили аудиоматериалы в формате wav, пригодные для организации в озвученный словарь. Струкура словаря отрабатывалась при подготовке демонстрационной версии.

Из полученных файлов вырезались необходимые фрагменты с помощью программы Sound Forge 5.0. Для создания структуры документа был использован пакет MS FrontPage 98. Подготовка текстовой информации для наполнения сайта производилась в MS Word 98. Для передачи специальных символов международной фонетической транскрипции был использован шрифт Lucida Sans Unicode.

В связи с особенностями внутренней архитектуры сервера, на котором размещается словарь (сайт), возникла необходимость представления русских текстов в кодировке КОИ8-Р. Это наложило некоторые ограничения на применение MS FrontPage 98 для наполнения сайта информацией, подготовленной в MS Word. После наполнения информацией сайта HTML код был частично отредактирован вручную в текстовом редакторе (NotePad).

Формат wav был выбран, несмотря на его большой размер, в связи с тем, что он воспроизводится практически любой программой проигрывания звуковых файлов. Более привычные для интернет форматыmp3 и RealAudio было решено не использовать по следующим причинам: качество исходного звука было очень низким для сжатия в mp3-формат (при этом некоторые фрагменты становились неразличимыми); для проигрывания файлов в формате RealAudio требуется специальный программный проигрыватель, который может отсутствовать у пользователей. Следует также отметить, что форматы mp3 и RealAudio являются форматами потокового аудио, требующего определенной скорости передачи информации, которая не всегда достижима при низком качестве связи.

 

 

  1. Лингвистический аспект внутреннего устройства словаря

 

Входом в словарную статью может служить русское слово, его английский эквивалент и его селькупский среднетазовский эквивалент. Входы не озвучены. В основной зоне словаря располагаются звуковые файлы селькупских верхнетолькинских эквивалентов заглавного слова, записанные от восьми информантов. (В демонстрационной версии, размещенной в интернете на сайте www.infolex.ru, использованы записи звучания слов от четырех информантов.) Каждый информант произносит слово по три раза. Каждое произнесение сопровождается транскрипцией и, в случае необходимости, грамматическим комментарием. Необходимость грамматического комментария возникает, если информант произносит не ожидаемую «словарную» форму слова (именительный падеж единственного числа непритяжательного склонения для существительных, простой инфинитив для глаголов), а какую-нибудь другую форму, представляющуюся ему более естественной. Так, для существительных наши информанты гораздо чаще выдавали лично-притяжательные формы, а вовсе не непритяжательные, причем это могли быть формы как 1-го или 2-го, так и 3-го лица единственного числа обладателя. Для глаголов простой инфинитив выдается довольно редко. Гораздо чаще форма русского инфинитива переводится 2-ым лицом единственного числа императива или 1-ым лицом оптатива. Нередки также случаи, когда информант приводит мини-контекст, в котором может быть употреблен искомый глагол, и тогда этот глагол при произнесении обретает форму индикатива или латентива любого из трех лиц и чисел. Вообще примеры в перспективе должны составить, по-видимому, особое поле

На сегодняшний день словарь включает материалы только одного говора. После добавления еще трех говоров информация, получаемая из словаря, станет намного богаче, но при этом не может не усложниться его структура. В связи с этим, несмотря на обилие записанного аудиоматериала, было принято решение ограничить пока объем словаря 350 тезаурусными статьями. Увеличивать объем словника мы будем не раньше, чем проверим эффективность его функционирования при загрузке материалов по всем четырем говорам.

Приведем фрагмент демонстрационной версии Словаря.

 

Таблица 2. Фрагмент внутреннего устройства Озвученного словаря говоров северных селькупов

 

 

 

 

 

Пуровская

Толька

 

Русское слово

Английское слово

Селькуп-ское слово (Средний Таз)

Инфор-мант № 1

Инфор-мант № 2

Инфор-мант № 3

Инфор-мант № 4

ухо

ear

üNkylsa

qo

qo#-l’«

ухо+Poss2Sg

 

qo#-l’«

ухо+Poss2Sg

qo#-l’«

ухо+Poss2Sg

челюсть

Jaw

#qyl«

q-qyl l«

рот+Loc+кость

q-qyl l«-ll«

рот Loc+ костьPoss2Sg

q-qyl l«-lly

рот Loc + костьPoss2Sg

 

q-qyl l«-lly

рот Loc + костьPoss2Sg

 

  1. Заключение

 

В заключение необходимо сказать о том, где может использоваться Озвученный словарь исчезающего языка. Помимо чисто научного применения для исследования фонетической системы языка, а также в качестве звукового архива языковых данных, которые, возможно в обозримом будущем перестанут воспроизводиться, словарь может и должен быть использован в качестве пособия для школьников и студентов на занятиях по родному языку Он может стать основой для создания специальных лингофонных курсов, но и в настоящем виде может стать весьма полезным. В настоящее время эффективность словаря как учебного пособия проверяется на студентах ОтиПЛ филологического факультета МГУ, посещающих спецкурс по селькупскому языку.

 

 

Литература 

  1. Мультимедийная база данных исчезающего языка // Труды Международного семинара Диалог’2001 по компьютерной лингвистике и ее приложениям. Т. 1. Аксаково, 2001. С. 108-110.
  2. Кузьмина А.И. О некоторых особенностях языка ларьякских селькупов // Происхождение аборигенов Сибири и их языков. Материалы Всесоюзной конференции. Томск. 1976. С. 107–111.
  3. Кузнецова А.И., Казакевич О.А., Иоффе Л.Ю., Хелимский Е.А. Очерки по селькупскому языку. Тазовский диалект. Т. 2. М., 1993.

 

 

 

Sounding Dictionary of Local Dialects of an Endangered Language

Olga Kazakevitch, Irina Samarina, Dmitriy Trushkov

 

 

Key words: language endangerment, unwritten languages, local variation, dialect, sub-dialect, the Selkup language, thesaurus, computer processing of linguistic data, database of sound files, sounding computer dictionary

 

A sunding dictionary of local dialects of the Northern Selkups is being developed within the project “Local dialects of the Northern Selkups: a contrastive description and a data base of sound files” with financial support of the Russian Fundamental Research Support Foundation (grant N 01-06-80363). In the paper the following issues are being discussed: 1) methods of gathering data for a sounding dictionary; 2) primary data procession; 3) dictionary structure; 4) entry structure; 5)transcription; 6) grammar information in the sounding dictionary; 7) contexts in the sounding dictionary; 8) optimal formate of sound files; 9) applications of the sounding dictionary. A demo version of the Dictionary can be seen on the Internet site http://www.infolex.ru.

 

 

[1] Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований в рамках проекта «Говоры северных селькупов: сопоставительное описание и база данных звуковых файлов», грант РФФИ № 01-06-80363.

[2] Экспедиция проводилась при финансовой поддержке Российского фонда фундаментаальных исследований, грант № 01-06-88020.