Proceedings 2001

Back to articles

СИСТЕМАТИКА ЯЗЫКОВ МИРА
И БАЗЫ ДАННЫХ В ИНТЕРНЕТЕ

Ю.Б. Коряков, Т.А. Майсак

Отделение теоретической и прикладной лингвистики, МГУ

В отличие от многих естественных наук, в лингвистике отсутствует строгая и удобная система классификации и номинации языков и языковых сообществ мира.Вопрос о том, почему это так, и может ли ситуация в данной области быть изменена к лучшему, рассматривается в первой части статьи. Существующие справочники по языкам мира (среди которых есть и такие, которые претендуют на довольно полный охват языкового разнообразия) бывают устроены по-разному в зависимости от того, какие принципы положены в основу принятой в них классификации, является ли она иерархической, каковы используемые в справочнике таксоны и т.п. Во второй части статьи на основе выделенных признаков рассматриваются два крупнейших современных справочника по языкам мира — Этнолог и Реестр Лингвосферы — которые также представлены и в интернете. Недостаточно полное и/или адекватное представление языков России даже в этих наиболее авторитетных изданиях говорит о необходимости активного участия российских лингвистах в этих проектах.

1 ТЕОРЕТИЧЕСКИЕ СООБРАЖЕНИЯ

Во многих науках существует особая вспомогательная дисциплина, помогающая упорядочивать изучаемые данной наукой объекты – систематика. Это касается прежде всего естественных наук, где есть много чего упорядочивать. Наибольшего совершенства систематика достигла в биологии, причем у биологов лингвисты в свое время кое-что позаимствовали (например, идею генетического древа в качестве модели развития языков). Достойно удивления, что одно из достоинств биологии – строгая систематика объектов – до сих пор не была воплощена в лингвистике.

Вот что характерно для созданной еще Карлом Линнеем в XVII веке биологической систематики:

вся совокупность объектов распределяется по единой иерархически организованной системе;
вся система хоть и базируется на генетическом принципе, но принимает во внимание и синхронную близость объектов (например, отдельные семейства ластоногих и хищных исторически ближе друг к другу, чем к другим семействам своего отряда);
существует единый критерий для определения принадлежности животных к одному виду (возможность скрещивания с получением репродуктивного потомства);
имеется единая система таксонов от высшего (царство) через целый ряд промежуточных (класс, отряд, семейство с целой системой префиксов) до базовой единицы (вида) с возможным дроблением дальше (подвид, подподвид и так далее, вплоть до популяции);
каждой единице присваивается уникальное имя, обеспечивающее легкую идентификацию объектов;
для базовой единицы (вид) используется бинарная система номинации, облегчающая идентификацию родственных видов – ср. Canis lupus, Homo sapiens и т.п.;
все имена независимы от языка описания, что обеспечивается использованием латинского языка, с заимствованиями из греческого и других языков.

Таким образом, в систематике можно выделить три группы принципов:

единая иерархически организованная система;
единая система таксонов;
единая система номинации.

Посмотрим теперь, насколько можно применить эти принципы для создания систематики языков, чтобы она была столь же универсальной и удобной в использовании.

1.1 Единая иерархически организованная система

В основу Систематики языков должна, очевидно, лечь генетическая классификация языков (ГКЯ): эволюционно-генетическая группировка является естественной, а не искусственной, она достаточно объективна и устойчива (в отличие от зачастую быстро меняющегося ареального распределения языков). Однако в отличие от биологии, в лингвистике ГКЯ не сведена в единую систему и это вряд ли вообще может быть сделано, поскольку чем глубже уровень реконструкции, тем он менее надежен, если возможен вообще. Поэтому верхние уровни Систематики языков необходимо базировать на каком-то другом принципе.

Единство всей системы и сравнимость единиц одного уровня должны обеспечиваться общими критериями для отнесения объектов к тому или иному уровню. Поскольку основой Систематики языков должна быть ГКЯ, то, следовательно, и критерии нужно использовать генетические. Генетическую близость можно выразить в цифрах, определив примерное время распада языковой общности для каждого уровня по глоттохронологической методике. Однако, такая система будет излишне сильно опираться на пошлое, а нас в данном случае интересует прежде всего систематика, удобная для современного разнообразия языков. Поэтому более удобным кажется относительный критерий, например, сохранность базовой лексики в процентах. Это критерий хорош тем, что учитывает скорее синхронную близость языков, нежели точную дату их расхождения. Однако его надежность заметно снижается по мере приближения к крайним точкам шкалы (от 0% до 100%). Совпадение базовой лексики в 5-10 % может быть случайным и должно подкрепляться другими весомыми данными.

Сказанное относится прежде всего к высоким уровням классификации (группы, семьи, макросемьи). Что касается использования этого критерия для выделения отдельных языков и уж тем более их диалектов, то здесь тоже можно найти немало возражений. Прежде всего, многие лингвисты уже привыкли к тому, что понятия "язык" и "диалект" слишком расплывчаты и относятся скорее к ведению социолингвистики. С социолингвистической точки зрения можно выделить несколько критериев для отнесения идиомов к одному или нескольким языкам (эти критерии неоднократно обсуждались в соответствующих работах):

наличие единой этнической общности, к которой относятся носители данных идиомов;
самоидентификация носителей идиома;
взаимопонятность идиомов;
наличие престижного наддиалектного идиома, воспринимаемого носителями данных идиомов как "свой";
функциональная полноценность данного идиома.

В единой Систематике критерии для отнесения объектов к одному уровню должны отвечать следующим требованиям: применимость к любому объекту и непротиворечивость (или однозначность) отнесения объекта к определенному классу. Удовлетворяют ли вышеперечисленные критерии этим требованиям?

Первый (язык = народ) неудобен уже тем, что определение народа является еще более сложным; вероятно, скорее классификация народов должна основываться на Систематике языков, а не наоборот.

Многие исследователи целиком уповают на мнение носителей. Однако мнение разных носителей может не совпадать между собой; это мнение легко меняется под воздействием внешних факторов и пропаганды; утверждение одних людей, что они говорят на языке Х, может противоречить мнению других носителей этого же языка, утверждающих, что первые говорят на другом языке; и наконец, во многих культурах вообще не было и нет четкого представления о своем языке. Так что этот, казалось бы, самый важный критерий противоречит обоим поставленным требованиям.

Третий критерий является следствием структурного различия языков и мог бы быть вынесен за рамки социолингвистики, однако реально взаимопонятность осложняется многими другими факторами, как-то: знакомство с языком собеседника, тема общения, само желание/нежелание понимать собеседника и пр.

Общая письменная традиция (ср. немецкий термин Dachsprache "язык-крыша") часто объединяет довольно далеко разошедшиеся идиомы (например, итальянский, немецкий или китайский литературные языки) или даже отдаленно родственные (латынь в средние века). Причем у разных частей одного идиома могут оказаться разные "крыши" (нижнесаксонские диалекты в Нидерландах и Германии), что противоречит принципу однозначности. А главное, это принцип заведомо не может быть применим к языкам, не обслуживаемым никакой письменной традицией.

Следуя последнему критерию, мы должны присвоить некоторому числу функционально полноценных идиомов статус "язык", остальные же (например, используемые лишь в ситуации бытового общения) оставить в ранге "диалектов". Безусловно, этот, хотя и очень важный, критерий невозможно использовать для универсальной Систематики языков.

Таким образом, из рассмотренных критериев лишь взаимопонятность хоть как-то отвечает поставленным требованиям. Но наиболее простым способом измерить ее является сравнение структурной близости языков и, в частности, совпадения лексики — прежде всего базовой.

Итак, там где это возможно, лучше всего использовать критерий сохранности базовой лексики. Однако, таким способом мы сможем объединить известные нам языки мира лишь в достаточно большое количество крупных объединений (около сотни), причем часть языков никуда не попадет. Свести все это в меньшее количество единиц на основе генетических принципов оказывается невозможным (по крайней мере, на том же уровне надежности). Возможным выходом является все же объединение их в спорных случаях по географическому принципу.

1.2 Единая система таксонов

Стройной системе таксонов в биологии лингвисты могут только позавидовать. Хотя и у нас существует немало терминов (семья, группа, ветвь, иногда фила, филум), но их использование очень сильно варьирует от автора, языка описания и конкретной ситуации. Очевидно, что необходимо предложить некоторую стройную систему таксонов (лучше вместе с примерным уровнем сохранения базовой лексики для каждого уровня). Возможно, что лучше даже отказаться от традиционной терминологии, чтобы она не приводила к путанице. Но этот вопрос остается пока открытым.

1.3 Единая система номинации

В отличие от объектов биологии, для которых в каждом языке существуют свои названия, названия языков, как правило, довольно близки между собой (используется обычно тот же корень, с фонетическими изменениями и дополнительными суффиксами, ср. русский, Russian, russo и пр.). Это, с одной стороны, облегчает ситуацию (обычно в тексте на любом языке можно понять, о каком языке идет речь), с другой стороны, усложняет ее, поскольку насущность решения вопроса о стандартном наименовании становится не столь очевидна, как это было в своем время в биологии. Тем не менее, идея номинации языков независимо от языка описания кажется нам очень удобной и важной. Многим лингвистам не раз приходилось сталкиваться с тем, что для известного языка в другом языке используется совсем другое слово; или даже с тем, что в одном языке один и тот же язык именуется по-разному.

Соответственно, встает вопрос о метаязыке для номинации языков (и их объединений). Использовать, как в биологии, латынь не имеет смысла – это было бы слишком искусственно, а кроме того, латынь в современной лингвистике практически не используется. Можно использовать какой-то современный язык, тогда на эту роль будет скорее всего претендовать английский. Но не стоит упускать из виду, что объекты изучения лингвистики (в отличии от той же биологии) уже имеют для самих себя названия (самоназвания, или автолингвонимы), и мы вполне можем использовать их, договорившись лишь о единой их письменной фиксации.

Однако этот принцип практически неприменим для названий объединений языков. Здесь можно предложить несколько решений:

использование некоторого внешнего языка (опять же латынь или английский);
образование групповых названий путем сложения названий двух составляющих, как это часто и делается (например, абхазо-адыгские или финно-угорские языки);
"усреднение" всех названий для данного объединения среди языков, входящих в это объединение;
разработать искусственную систему номинации, например, на основе корней.

Каждое из этих решений имеет свои преимущества и недостатки, так что пока и этот вопрос остается открытым.

2 СИСТЕМАТИКА ЯЗЫКОВ В БАЗАХ ДАННЫХ ИНТЕРНЕТА

В лингвистике (к сожалению, преимущественно западной) существует целый ряд справочников, посвященных перечислению языков мира и приведению их в единую систему классификации. Лишь несколько из таких изданий претендуют на полноту охвата языкового разнообразия (на русском языке подобных справочников не существует). Двумя наиболее полными и наиболее современными работами такого рода являются “Этнолог” (Ethnologue: Languages of the World), известный многим отечественным лингвистам, и появившийся лишь недавно и поэтому пока недостаточно известный “Реестр Лингвосферы” (The Linguasphere Register of the World's Languages and Speech Communities).

Обе работы доступны как в печатном виде (хотя в российских библиотеках они отсутствуют), так и через интернет (см. подробнее ниже) — тем самым, они являются уникальными справочными изданиями по языкам мира, воспользоваться которыми может любой желающий.

Ниже подробный обзор данных работ дан по единой схеме, включающей:

1.Наличие единой иерархически организованной системы и принципы организации

2.Наличие единой системы таксонов

3.Принципы выделения языков / диалектов

4.Наличие единой системы номинации групп языков

5.Наличие единой системы номинации языков (и более мелких единиц)

6.Дополнительные названия на языке описания и на других языках

7.Структура и объем сведений для каждого языка

8.Общий объем работы: количество языков; количество лингвонимов

9.Включение мертвых, контактных и искусственных языков, языков глухонемых

10.Наличие приложений: библиографии, указатели, таблицы, карты

11.Доступность для пользования и для исправления

2.1 "Этнолог", 1996

“Этнолог” был разработан в SIL — одной из наиболее известных в мире лингвистических организаций, недавно переименованной в SIL International, а ранее известной как Summer Institute ofLinguistics (Летний лингвистический институт).

Эта крупная организация ставит своей целью изучение редких и малоизвестных языковых сообществ мира, описание их языка и культуры, распространение грамотности и создание письменности для бесписьменных языков, а также перевод на эти языки различных текстов (например, Библии). В настоящее время SIL насчитывает порядка 6.100 сотрудников; президентом организации является Кэролин Миллер (Carolyn P. Miller).

Одним из направлений деятельности SIL является разработка справочника по языкам мира. Обновленные переиздания этого справочника выходят каждые 4 года. Последнее издание вышло в 2000 г., однако в силу его недоступности мы ниже приводим данные по 13-му изданию 1996-го года, которое помещено и в интернете. Редактором "Этнолога" с 1971 по 2000 год являлась Барбара Граймс (Barbara Grimes); новым редактором “Этнолога” стал Рэй Гордон (Ray Gordon) из Далласа.

2.1.1. Наличие единой иерархически организованной системы и принципы организации

Хотя в данной работе и используется ГКЯ, основная часть книги построена по политико-географическому принципу: разделами являются страны, а далее перечисляются статьи о языках в алфавитном порядке. Один язык может встречаться несколько раз (одна из стран тем не менее считается основной для языка). Для каждого языка указывается его место в ГКЯ, которая целиком приводится в качестве приложения. ГКЯ доходит только до уровня надежно реконструируемых объединений, что приводит к сильной неравномерности: например, количество объединений в Америке достигает 60, а в остальной части мира их всего 34. При этом большое количество языков попадает или в группу изолированных, или в группу неклассифицированных языков.

2.1.2. Наличие единой системы таксонов

В Этнологе не используется никаких таксонов, кроме терминов "язык" и "диалект". Названия групп языков в "древесном" изображении ГКЯ (в Приложении) даются без сопроводительного таксона и различаются лишь величиной абзацного отступа.

2.1.3. Принципы выделения языков / диалектов

В предисловии к Этнологу говорится о разном понимании терминов "язык" и "диалект" как среди носителей, так и среди лингвистов. Сами авторы, исходя из целей составления этого справочника (вспомогательное пособие для переводчиков Библии на другие языки), стремятся подавать как отдельные языки те идиомы, носители которых с трудом могут читать или говорить на другом идиоме, не изучая его специально. То есть, они исходят из критерия взаимопонятности. Кроме того, во внимание принимаются и некоторые социолингвистические факторы, например, отношение к другому языку, самоидентификацию носителей и другие.

2.1.4. Наличие единой системы номинации групп языков

Для обозначения групп языков, так же как и для отдельных языков, используется английский язык. Названия даются так, как они сложились в лингвистической традиции, основываясь прежде всего на энциклопедии The Oxford University Press International Encyclopedia of Linguistics (1992) под ред. Уильяма Брайта, а также на более поздних изысканиях в этой области.

2.1.5. Наличие единой системы номинации языков (и более мелких единиц)

Языком описания в Этнологе является английский, так что и все названия языков и групп языков даются по-английски. При этом одно из английских названий выбирается в качестве основного, другие же приводятся рядом в скобках. Никакой попытки разработать единую систему номинации, независимую от языка описания, не делается.

Зато, каждому языку (но не диалекту и не группе языков) присваивается особый идентификационный код, состоящий из трех заглавных букв латинского алфавита и приводимый в квадратных скобках после названия языков. Это помогает различать языки с одинаковыми названиями и используется в он-лайн версии Этнолога в качестве имени для гиперссылок. Часто буквы кода соответствуют названию языка, однако, по понятным ограничениям, накладываемым количеством букв алфавита, это не всегда бывает так.

2.1.6. Дополнительные названия на языке описания и на других языках

Для каждого языка (и в меньшей степени диалекта) в скобках после основного названия даются альтернативные названия по-английски и иногда автолингвонимы и названия на других языках. Все они обычно никак не разграничиваются. Названия, несущие оскорбительный оттенок, ставятся в кавычки. В самом тексте иногда приводится название этнической группы, если оно сильно отличается от названия языка. Все названия даются только в латинской шрифте с небольшим набором диакритик (в основном используемые в западно-европейских алфавитах). Другие письменности не используется и их не предполагается использовать.

2.1.7. Структура и объем сведений для каждого языка

Основная часть Этнолога организована по странам (всего 228 стран). Для каждой страны сначала приводится краткая справка: население страны (как правило, на 1995 год); полное официальное название по-английски и на официальном языке данной страны; столица; площадь; уровень грамотности; список языков иммигрантов с числом носителей в данной стране (сюда включаются также языки, для которых известно только число носителей, если более подробная информация о них дается под другой страной); степень точности данных для всей страны (в основном относительно взаимопонятности) по четырехбалльной шкале и наличие дополнительно проверенной лингвистами информации; основные религии; количество слепых и глухонемых и количество учреждений для них; общее число языков (не включая языки иммигрантов), в том числе число живых, мертвых и употребляемых только в качестве второго языка.

Затем перечисляются языки, для каждого из которых даются следующие краткие сведения в неструктурированной текстовой форме (в виде единого абзаца): основное название, варианты названий в скобках (заглавными буквами); трехбуквенный идентификационный код в квадратных скобках; число носителей, в том числе монолингвов, билингвов, и тех, для кого это второй язык; источники сведений; число носителей в других странах, число носителей во всех странах; примерная территория распространения; аффилиация; список диалектов с вариантами названий (заглавными буквами); дополнительная социолингвистическая информация; СМИ и литература; образование и грамотность; степень взаимопонятности между диалектами; тип письменности; официальный статус языка; краткая типологическая характеристика грамматики (как правило, базовый порядок слов); наличие шрифт Брайля; основная религия; наличие перевода Библии. Впрочем, для многих языков значительная часть информации может отсутствовать.

2.1.8. Общий объем работы: количество языков; количество лингвонимов

В Этнологе выделяется более 6.700 языков. В Указатель названий включено более 39 тыс. названий языков и диалектов (основных и вариантов). Однако в указатель не включены названия групп языков, и их точное число в Этнологе неизвестно.

2.1.9. Включение мертвых, контактных и искусственных языков, языков глухонемых

Помимо генетических объединений языков, в Указателе языковых семей есть дополнительный раздел "Языки, представляющие специальный интерес", где приводятся списки изолированных и неклассифицированных языков; пиджинов и креольских языков; языков жестов и языков глухонемых; а также такие интересные категории, как "еврейские" и "цыганские" языки.

Принадлежность ко всем этим категориям указывается в статьях соответствующих языков вместо генетической принадлежности (кроме еврейских и цыганских, которые указываются дополнительно к ней).

В Этнолог включаются те мертвые языки, которые вымерли лишь недавно или занимают особое место внутри своей семьи или если на них есть перевод Священного Писания. Мертвые языки не включаются в общую статистику, однако ни их список, ни их число нигде не приводится.

Никакие вспомогательные и/или искусственые языки (как эсперанто или волапюк) в Этнолог не включены.

2.1.10. Наличие приложений: библиографии, указатели, таблицы, карты

Данный справочник включает 3 части: это

собственно справочник по языкам (Ethnologue: Languages of the World), включающий описания 6.703 языков, характеристику языковых ситуаций в 228 странах, а также 112 карт распространения языков и библиографию (более 300 входов);
указатель лингвонимов (Language Name Index), включающий 39 тысяч наименований (альтернативыне названия, названия диалектов и пр.);
указатель языковых групп и семей (Language Family Index), включающий информацию о генетическом родстве языков, организованную в виде 99 генеалогических деревьев, а также списки языков "особого интереса".

2.1.11. Доступность для пользования и для исправления

Печатная версия 13-го издания “Этнолога” была опубликована в 1996 г. и впоследствии выпускалось на CD-ROM. Полный текст книги (кроме карт) доступен в html-формате в интернете по адресу http://www.sil.org/ethnologue. Там он организован в виде базы данных, по которой можно производить поиск по слову или при помощи идентификационного кода, уникального для каждого языка.

Имеется также раздел, в котором желающие дополнить информацию в "Этнологе" могут заполнить анкеты по соответствующим темам и послать их в редакцию. Это весьма развернутые анкеты по общим сведениям о языке, по социолингвистической ситуации, по владению языком в качекстве второго и пр. По-видимому, предполагается, что эти анкеты рассчитаны лишь на специалистов.

2.2 "Реестр Лингвосферы", 2000

Первое печатное издание "Реестра Лингвосферы" вышло в январе 2000 г. на английском языке под названием The Linguasphere Register of the World's Languages and Speech Communities (в 2 томах, общий объем 1043 стр.). "Реестр" был практически полностью создан одним человеком -- лингвистом из Великобритании Дэвидом Долби (David Dalby), известным в нашей стране прежде всего своими работами по африканистике. Ему же принадлежит идея создания так называемой “Обсерватории Лингвосферы” (Observatoire Linguistique, Linguasphere Observatory,Bhasha Vishwa) — проекта по изучению и системному описанию языков и языковых сообществ мира.

"Реестр" является на сегодняшний день основным результатом деятельности Обсерватории и содержит информацию о более чем 20 тысячах языков и диалектов мира, распространенных вXX веке — от языков, находящихся под угрозой вымирания, до 28 “языковых артерий мира”, т.е. языков, на каждом из которых говорит более 1% человечеcтва. В целом, задачей Обсерватории является наблюдение за современным состоянием и развитием лингвосферы -- совокупности всех языков мира в их взаимосвязи (по аналогии с термином “ноосфера”, предложенным В. Вернадским). Обсерватория существует с 1983 г. и является независимой и некоммерческой транснациональной (т.е. развивающейся на пересечении национальных групп и независимо от государственныхз границ или контроля со стороны конкретных стран) организацией. Составными частями Обсерватории являются добровольные ассоциации, существующие на сегодняшний день в Нормандии, Уэльсе, индийских штатах Гуджарат и Махараштра; с лета 2000 года в работе Обсерватории принимают участие и лингвисты из Москвы.

Далее следует характеристика "Реестра Лингвосферы" по выделенным нами параметрам. В силу малоизвестности данного издания в России эта характеристика более полна, нежели описание "Этнолога" выше.

2.2.1. Наличие единой иерархически организованной системы и принципы организации

Система классификации языков, принятая в Реестре, является оригинальной разработкой Дэвида Долби. В ее основу положены принципы в чем-то традиционные, но в чем-то весьма отличные от других указателей языков. (Хотелось бы подчеркнуть, что в разработке достаточно простого и удобного принципа каталогизации языков мира Долби видит одну из своих основных задач; этой проблемой он занимался начиная с 70-х годов, работая над картой языков Африки.)

Наиболее крупными таксонами являются сектора, которых выделяется 10, каждый из которых подразделяется на 10 зон. Как сектора, так и зоны выделяются либо по генетическому принципу (это, соответственно, “филосектора” и “филозоны”), так и по ареальному (“геосектора”, “геозоны”) в случае, если последнее основание выделения предпочтительнее.

Филосекторов пять — 1=АФРАЗИЙСКИЙ, 3=АВСТРОНЕЗИЙСКИЙ, 5=ИНДО-ЕВРОПЕЙСКИЙ, 7=СИНО-ИНДИЙСКИЙ и 9=ТРАНСАФРИКАНСКИЙ. Как легко заметить, эти сектора примерно соответствуют традиционным “семьям” или “макросемьям” — под Сино-индийским сектором в данном случае имеется в виду сино-тибетская семья языков, а под Трансафриканским — конго-атлантическая (включающая все языки гипотетической нигеро-кордофанской макросемьи, кроме манде и кордофанских). В силу того, что ярлыки для названия "семей" и подобных объединений часто наполняются различным содержанием в различных работах, автор часто отказывается от традиционных названий.

Геосекторов также пять — это 0=АФРИКА (куда попали языки нило-сахарской и койсанской макросемей, и манде и кордофанские языки, включаемые в нигеро-кордофанскую макросемью), 2=АВСТРАЛАЗИЯ (» австралийские, тасманийские и папуасские языки), 4=ЕВРАЗИЯ (» "алтайская", уральская, дравидийская, аустроазиатская, паратайская, северокавказская, картвельская семьи и все изолированные языки Евразии), а также 6=СЕВЕРНАЯ АМЕРИКА и 8=ЮЖНАЯ АМЕРИКА. Если в качестве филосекторов автор выделяет лишь те пять крупнейших языковых объединений, родство внутри которых бесспорно и принимается мировым научным сообществом, то в геосектора включаются более мелкие группы языков или такие объединения, родство между которыми принимается большинством ученых скорее лишь на уровне гипотезы (например, "алтайская" макросемья, а тем более "ностратическая" или "америндская" макросемьи).

Внутри зон языки группируются уже исключительно по генетическому принципу, причем здесь также используется оригинальная концепция группировки языков, предложенная Д. Долби взамен расплывчатых терминов “семья”, “группа”, “подгруппа” и пр. Внутри зоны языки последовательно объединяются на трех уровнях генетической близости: крупнейшее объединение именуется ОТРЯД (англ. set) и предусматривает наличие у языков хотя бы 25-35% совпадений в базовом словаре. Таких объединений насчитывается 694. (Примерами объединений уровня ОТРЯД могут служить абхазо-адыгский, нахско-дагестанский и картвельский отряды в 42=КАВКАЗСКОЙ геозоне или енисейский, чукотско-камчатский, юкагирский и нивхский отряды в 43=СИБИРСКОЙ геозоне). Далее, уровень ЗВЕНО (англ. chain) соответствует большей степени близости языков, примерно 36-50% (1.410 групп, например нахское, лезгино-даргинское, аваро-андо-цезское и лакское звенья в нахско-дагестанском отряде или скандинавское, английское, западно-германское и восточно-германское звенья в германском отряде 52=ГЕРМАНСКОЙфилозоны). Наконец, уровень ЯЧЕЙКА (англ. net) отражает степень близости с порядка 51-70% лексических совпадений (это 2.694 объединения типа аваро-андийской и цезской ячеек в аваро-андо-цезском звене или четырех ячеек в славянском звене славянского же отряда Славянской филозоны). [Русские переводы таксонов данного уровня достаточно условны.]

Внутри ячеек происходит последнее деление языков, причем здесь также выделяются три уровня (Д. Долби намеренно отказывается от жесткой дихотомии “язык” vs. “диалект”). Внешний язык соотносится с базовой демографической единицей классификации. В традиционной классификации он соответствует одному или группе нескольких близкородственных языков, для которых можно говорить не менее чем о 71-85% совпадений в базовом словаре; это, например, русско-украинско-белорусский, аварский, андийский. Базовой единицей собственно лингвистической классификации является внутренний язык. Традиционно ему соответствует наречие, группа диалектов или отдельный язык, с более чем 86% совпадений в базовом словаре. Наконец, в классификации может использоваться и самый нижний уровень — диалект, соответствующий определенной территориальной, социальной или письменной разновидности внутреннего языка.

2.2.2. Наличие единой системы таксонов

Система таксонов "Реестра" является развернутой и достаточно строго определенной. Она отличается от какой-либо традиционной системы, в чем состоит как ее достоинство, так и некоторая трудность восприятия при первоначальном знакомстве со справочником. Эта система имеет три основных уровня классификации: на верхнем уровне выделяются сектора и зоны, на среднем – отряды, звеньи и ячейки, и на нижнем – внешние языки, внутренние языки и диалекты. См. подробнее пункт 1.

2.2.3. Принципы выделения языков / диалектов;

Принятая в Реестре трихотомия внешний язык / внутренний язык / диалект не соотносится непосредственно с традиционной дихотомией язык / диалект. Хотя отмечается, что при отнесении идиома к тому или иному уровню используются лишь "лингвистические" факторы (например, процент совпадения базовой лексики), на практике этот критерий применяется не всегда, а учитываются и такие параметры, как взаимопонятность идиомов и языковая самоидентификация носителей.

Процедура применения таких внешнелингвистических факторов при систематике идиомов строго не формулируется. (Так, например, в англоязычном ареале (ячейка 52-ABA English) выделяются 3 внешних языка: северо-британский (шотландско-нортумбрийские д-ты), южно-британский (собственно английские д-ты) и Global-English (все остальные варианты: стандартный английский и не-британские формы). Русский, украинский и белорусский языки объединены в один внешний язык 53-AAA-e Russkiy+Ukrainska.)

Литературные языки трактуются наряду с нелитературными формами как внутренние языки (сербский и хорватский наряду с кайкавским, чакавским и штокавским внутренними языками в сербско-хорватском внешнем языке) или диалекты (болгарский или македонский литературные диалекты в составе соответствующих внутренних языков в одном болгаро-македонском внешнем языке). Аналогично, одним внешним языком (и двумя внутренними) являются хинди и урду, которые, несмотря на использование различных систем письма, практически полностью взаимопонимаемы в устной речи.

2.2.4. Наличие единой системы номинации групп языков

Каждое из объединений высшего уровня – сектора – имеет свой номер, причем геосектора пронумерованы нечетными цифрами (1, 3, 5, 7, 9), а филосектора – четными (0, 2, 4, 6, 8). Названия крупных уровней имеют в оригинале единообразные суффиксы: все имена филосекторов оканчиваются на –an (например, 1=AFRO-ASIAN), имена геосекторов оканчиваются на –a (например, 2=AUSTRALASIA), а все названия филозон оканчиваются на –ic (например, 12= SEMITIC, 41= URALIC и пр.).

Каждой из 100 языковых зон присвоен номер от 00 до 99: первая цифра указывает на номер сектора, вторая на номер зоны внутри сектора. Благодаря такому простому цифровому коду может быть облегчен поиск языка в справочнике; подобный код может быть использован для отсылки к тому объединению, в которое входит язык (например, [44] Tatar или [51] Italiano) и в принципе может быть использован не только лингвистами, но и историками, этнографами, географами и пр.

Каждому из трех крупнейших уровней объединения ниже зоны (отряд, звено и ячейка) соответствует буквеный код из заглавных букв: например, 42-B для отряда Noxchin+Avar, далее 42-BBдля звена Avar+Lak, далее 42-BBA для аваро-андо-цезской ячейки Avar+Dido (внутри нахско-дагестанского отряда). Хотя это ограничивает возможность отражения разнообразия объединений до 26-и (по количеству букв латинского алфавита), реально большее число подразделений не встречается.

Названия средних уровней иерархии – отрядов, звеньев и ячеек – представляют собой сочетания двух основных составляющих более низкого уровня вместо использования традиционных, часто искусственных и иноязычных названий, ср. отряд Norsk+Frysk (единственный в 52=ГЕРМАНСКОЙ филозоне) и звено Norsk+Svenska (вместо традиционных названий Nordic илиScandinavian, указываемых в примечании).

Каждому из таксономических уровней соответствуют особые типографские конвенции: так, названия секторов, зон, отрядов, звеньев и ячеек даются прописными полужирными буквами.

2.2.5. Наличие единой системы номинации языков (и более мелких единиц)

Помимо краткого цифрового кода, используемого для отнесения языка к одной из 100 зон (например, [51] Français), каждый идиом имеет полный буквенный код, в котором отражено его положение во всех высших уровнях иерархии. Он состоит из двух цифр (сектор+зона), трех заглавных букв (отряд+звено+ячейка) и трех строчных букв (внешний язык+внутренний язык+диалект), ср. внешний язык 51-AAA-i Français, внутренний язык 51-AAA-id français-G. (= General; разговорный французский Франции), диалект 51-AAA-idd français-de-normandie(региональный вариант Нормандии). Названия внешних языков иногда являются составными, ср. Russkiy+Ukrainska.

Названия внешних языков даются с большой буквы, внутренних языков и диалектов – строчными буквами; все названия, кроме названий диалектов, выделены полужирным шрифтом.

2.2.6. Дополнительные названия на языке описания и на других языках

Для языков и диалектов основным называнием всегда является самоназвание, что обеспечивает универсальную систему обозначения языков, не зависящую от языка описания. В первом издании Реестра самоназвания даны в латинице (например, “russkiy”, “ukrainska”, "kartuli" и др.), однако в будущем планируется приводить также и написание названия языка в оригинальной письменности.

Приводятся также все варианты самоназвания, а также основное названия по-английски. Названия на других языках предваряются указанием на язык (например, “in [53] Russkiy: абхазо-адыгский”).

2.2.7. Структура и объем сведений для каждого языка

Сведения о языках и диалектах в Реестре структурированы и представлены в виде пяти колонок, каждая из которых имеет фиксированное содержание.

В колонке 1 приводится буквенный код объединения или идиома (см. выше). В колонке 2 приводится основное название, используемое при отсылке. Перед названиями идиомов, которые существуют ныне только на письме, ставится значок &; а для идиомов, основанных на письменной норме (литературных), значок -. В колонке 3 приводятся все прочие названия языков, а также даются и другие сведения о языке, предваряемые специальными значками: E сведения о дву-, многоязычии и диглоссии; C сведения о контактах и взаимодействии языков; Å сведения об ареале или центре распространения; ¶ сведения о носителях, их перемещениях и т.д.; # номенклатурные замечания: этимология, использование названий; Ø сведения о близости языков, переходном характере и т.д.; & сведения об используемой письменности и письменной норме. В колонке 4 указываются государства (а в скобках более мелкие административные единицы), в которых распространен данный идиом. В колонке 5 указывается индекс численности носителей. Индексом является цифра от 0 до 9, которая соответствует порядку числа говорящих (как в качестве первого, так и второго) на языке (0 = язык вымер после 1900 г., 1 = менее 100 чел., 2 = 100 и более чел., 3 = 1000 и более чел., и т.д.). Значком “череп” помечены отряды, ячейки или звенья целиком исчезнувшие к концу 20-го столетия, а значком l – идиомы, вымершие до начала 20-го века.

2.2.8. Общий объем работы: количество языков; количество лингвонимов

По принятой в Реестре терминологии, выделяется 13.840 “внутренних языков” (с более чем 8.881 составляющих их диалектов), которые объединены в 4.994 “внешних языков”, и далее в 694 более крупные языковые общности.

В Указателе названий содержится более 70 тыс. входов (название + цифровой код); при этом, данный указатель включает в себя как все названия языков и диалектов, так и (в отличие от "Этнолога") названия языковых объединений разных уровней. В связи с этим, оценить количество лингвонимов в узком смыслке слова (названий языков и диалектов) довольно трудно.

2.2.9. Включение мертвых, контактных и искусственных языков, языков глухонемых

В Реестр включена информация о всех живых языках XX века. Из мертвых языков учтены: во-первых, те, которые в письменной форме продолжали использоваться в XX веке (например, латынь, санскрит, церковнославянский и др.), причем в будущем предполагается учесть и все языки, от которых остались какие-либо письменные памятники (этрусский, древнекитайский, хеттский и пр.); во-вторых, языки, исчезнувшие прежде всего в течение XX века (убыхский, айнский и др.), а по возможности и за последние пять столетий (например, полабский, готский, многие языки Америки, Австралии и других регионов, исчезнувшие в процессе экспансии европейских языков), — поскольку языки как первой, так и второй групп непосредственно влияли и влияют на современное состояние лингвосферы.

Контактные языки (пиджины и креольские) включены в Реестр, причем перечисляются в разделах, соответствующих языку-лексификатору (например, все контактные языки на романской основе – в филозоне 51=ROMANIC).

Среди искусственных языков упоминаются лишь некоторые: так, эсперанто, идо и новиаль выделяются в составе одной из мелких групп той же филозоне 51=ROMANIC).

Информации о языках глухонемых в текущей версии Реестра нет, однако ее предполагается разместить в будущих изданиях.

2.2.10. Наличие приложений: библиографии, указатели, таблицы, карты

Библиография в Реесте приводится в качестве предварительной и насчитывает более 200 основных источников.

Имеется обширный “Указатель языков и языковых сообществ” (более 160 стр.), о котором см. выше. “Указатель по странам” соержит информацию о государственных и официальных языках стран (перечисленных в алфавитном порядке). Приводятся обобщающие таблицы по языкам, на которых говорит более 1% населения Земли (60 и более млн. чел.), а также по языкам, на которых говорит 10-59 млн. чел. Имеются также таблицы со статистикой по секторам и зонам (число отрядов в зоне, число внешних языков, вымерших языков и пр.).

В Реестре имеется одна общая карта лингвосферы, на которой изображены границы языковых зон, с указанием индекса численности носителей. Вместе с тем, одним из проектов Обсерватории Лингвосферы является создание “Картографической база данных Лингвосферы” (Linguasphere Mapbase), которая должна представлять собой подробные карты распространения языков и диалектов по всем ареалам мира. В настоящее время создана подробная карта языков Африки; совместно с индийским отделение Обсерватории ведется работа по созданию карты языков Индии.

2.2.11. Доступность для пользования и для исправления

В настоящее время имеется платный доступ к полной он-лайновой версии “Реестра” по адресу http://www.linguasphere.net, однако в течение 2001 г. планируется сделать доступ ко всему Реестру свободным (и в html-формате). Часть материалов печатного издания в формате *.pdf помещена на основном сайте Обсерватории Лингвосферы (www.linguasphere.org), где все желающие могут также почитать материалы по проблеме языкового разнообразия на пороге XXI века. Страница Российского отделения Обсерватории Лингвосферы находится в настоящее время на странице http://isabase.philol.msu.ru/~jirik/linguasphere/.

С экземпляром печатного издания можно познакомиться в секторе "Языки мира" Института языкознания РАН (Москва, Бол. Кисловский пер., 1/12, комн. 36).

Важно подчеркнуть, что Обсерватория Лингвосферы не является закрытой организацией, а “Реестр Лингвосферы” предназначен далеко не только для специалистов (любой человек в той или иной мере является специалистом по тем языкам, на которых он говорит). В связи с этим, Обсерватория Лингвосферы приглашает к сотрудничеству как организации, так и частных лиц — всех, кому небезразлично состояние языков в современном мире. По мнению Д.Долби, участие самых широких кругов специалистов является крайне желательным и поможет проекту по изучению лингвосферы стать подлинно транснациональным, т.е. развивающимся на пересечении и независимо от национальных границ.

Замечания по усовершенствованию “Реестра”, а также отзывы и комментарии, можно присылать Д.Долби по адресу dalby@linguasphere.org, а также в русское отделение Обсерватории по нашим адресам.

* * *

В заключение для большей наглядности мы для сравнения приводим полностью характеристику одного языка (аварского) в каждом из двух справочников.

Этнолог:

Раздел Europe / Russia, Europe (европейская часть России)

AVAR (AVARO, DAGESTANI) [AVR] 601,000 in the former USSR, including 44,000 in Azerbaijan (1989 census); 959 in Kazakhstan; (1993 UBS), 98% speak it as mother tongue. Southern Dagestan ASSR and southern Azerbaijan, Terek and Sulak river areas. Also in Turkey. North Caucasian, Northeast, Avaro-Andi-Dido, Avar. Dialects: SALATAV, KUNZAKH (XUNZAX), KELEB, BACADIN, UNTIB, SHULANIN, KAXIB, HID, ANDALAL-GXDATL, KARAX (KARAKH), BATLUX, ANCUX (ANTSUKH), ZAKATALY (CHAR). Has literary status based on northern dialect, Kunzakh, which is used in Dagestan and as the lingua franca among speakers of the Avar group of languages. Education in it for the first two years except in the cities. Newspapers. Cyrillic alphabet is used. North Caucasian is also called 'Caucasian'. Language of wider communication. Sunni Muslim. Bible portions 1979-1996. Work in progress.

Реестр Лингвосферы:

Сектор 4=Евразия, геозона 42=Кавказ, отряд NOXCHIIN+ AVAR, звено AVAR+ LAK, ячейка AVAR+ DIDOI. Является самостоятельным внешним языком. [Суффиксы -N, -S указывают на стороны света.]

42-BBA-a	Avar	avaro, daghestani ÅCaucasus-E. mountains	Russian Fed.: Russsia (Dagestan); Azerbaijan	5
42-BBA-aa	avar-N.	ÅDagestan-S. Highland	Russian (Dagestan)	5
42-BBA-aaa	- avar-F.	"literary" avar &Cyrillic script; Khunzakh model	(Dagestan-S.)
42-BBA-aab	salatav	avar-NW.	(Dagestan-S.)
42-BBA-aac	khunzakh	xunzax, chunzach, avar-CN., "vehicular" avarÅKhunzakh & environs	(Dagestan-S.)
42-BBA-aad	avar-NE.		(Dagestan-S.)
42-BBA-ab	avar-C.	"transitional" avar Ctransition between Avar-N. & Avar-S.	Russia (Dagestan)	5
42-BBA-aba	keleb		(Dagestan-S.)
42-BBA-abb	bachadin	bacadin	(Dagestan-S.)
42-BBA-abc	untib		(Dagestan-S.)
42-BBA-abd	shulanin	shulani ÅShulani	(Dagestan-S.)
42-BBA-abe	kachib	kaxib ÅKachib & environs	(Dagestan-S.)
42-BBA-ac	avar-S.		Azerbaijan	5
42-BBA-aca	hid		Azerbaijan-N.
42-BBA-acb	andalal+ gkhdatl	andalal+ gxadatl	Azerbaijan-N.
42-BBA-acc	karakh	karax	Azerbaijan-N.
42-BBA-acd	antsukh	ancux	Azerbaijan-N.
42-BBA-ace	batlukh	batlux	Azerbaijan-N.
42-BBA-acf	car	char ÅZakataly & environs	Azerbaijan-N.

Как видно, ни один из двух рассмотренных нами справочники не превосходит другой во всех аспектах: каждый имеет свои сильные и слабые места, так что в каждом из них имеются типы информации, отсутствующие в другом.

В целом, характеристика языков Кавказа (и многих других языков России) не является сильным местом ни в одном из справочников. В связи с этим, актуален вопрос об участии в соответствующих проектах специалистов из России.

Выше уже говорилось об участии московских лингвистов в Обсерватории Лингвосферы. Первоочередной задачей русского отделения является исправление и добавление в ту часть Реестра, которая касается языков России и прилегающих территорий. В данный момент как раз идет работа над кавказскими языками (так что сведения в последней таблице будут в скором времени существенно пополнены), в будущем предстоит работа с алтайскими, уральскими, палеоазиатскими и другими языками, а также разработка Картографической базы данных по языкам Евразии. Подробнее о Российском отделении Обсерватории Лингвосферы смотрите на странице: http://isabase.philol.msu.ru/~jirik/linguasphere/. Все желающие приглашаются к участию.

Proceedings 2001

Contents

СИСТЕМАТИКА ЯЗЫКОВ МИРА
И БАЗЫ ДАННЫХ В ИНТЕРНЕТЕ

Ю.Б. Коряков, Т.А. Майсак

Отделение теоретической и прикладной лингвистики, МГУ

Collection of proceedings

Proceedings 2001

Contents

СИСТЕМАТИКА ЯЗЫКОВ МИРА И БАЗЫ ДАННЫХ В ИНТЕРНЕТЕ

Ю.Б. Коряков, Т.А. Майсак

Отделение теоретической и прикладной лингвистики, МГУ

Collection of proceedings

СИСТЕМАТИКА ЯЗЫКОВ МИРА
И БАЗЫ ДАННЫХ В ИНТЕРНЕТЕ