УНИВЕРСАЛЬНОЕ ТЕРМИНОЛОГИЧЕСКОЕ ПРОСТРАНСТВО
М. Г. Мальковский
МГУ им. М.В. Ломоносова
С. Ю. Соловьев
Межведомственный суперкомпьютерный центр
soloviev@jscc.ru
Ключевые слова: глоссарий, Интернет, понятие, семантика, семантическая сеть, семантическое отношение, термин, универсальное терминологическое пространство
Приводится определение универсального терминологического пространства (УТП) – общего хранилища терминологических статей научной и деловой лексики. Формулируется задача формирования УТП и описывается технология его построения. Обсуждаются первые результаты реализации УТП. Приводятся основные эмпирически установленные свойства УТП. Формулируются научно-технические задачи развития УТП и обсуждаются подходы к их решению.
1. Пути формирования универсального терминологического пространства
Информационное наполнение Интернета - по большому счету - фрагментарно, недостоверно и бедно. Простая сумма амбиций и информационных технологий принципиально неспособна породить нечто большее. Нашим потомкам еще предстоит разработать и реализовать конструктивные теории глобальной организации знаний. Однако уже сегодня можно продвинуться в этом направлении для частных видов знаний.
Во многих случаях недостаток знаний человек компенсирует обращением к терминологическим словарям, содержащим слабо структурированный набор статей, каждая из которых представляет собой определение одного термина. Особый интерес представляют глоссарии - терминологические словари по частным вопросам; статьи глоссария в совокупности описывают ту или иную предметную область. Познавательная сила глоссария состоит в том, что расположенные рядом статьи являются "близкими родственниками"; статьи глоссария человек может читать подряд, не выходя за пределы интересующей его темы.
По определению универсальное терминологическое пространство (УТП) есть абстрактное хранилище всех терминологических статей, связанных семантическими отношениями. Фактически УТП - семантическая сеть на множестве абсолютно всех терминов, выработанных человечеством.
Исходя из определения УТП и реальных возможностей программных систем понимания текстов, реализация УТП по силам только юридическому лицу, обеспечивающему непрерывное пополнение и развитие семантической сети. Не останавливаясь на вопросах прибыльности такого бизнеса, отметим, что даже простая самоокупаемость возможна только в том случае, когда построенная часть УТП становится доступной пользователям.
Исходными данными для построения семантической сети являются специально отобранные глоссарии, соответствующие тактическим целям развития УТП.
Формированием семантической сети занимаются редакторы-эксперты, деятельность которых поддерживается программным инструментарием, восходящим к системам извлечения знаний. Работа редактора-эксперта по обработке исходного глоссария состоит в выделении базового набора терминов-понятий и бинарных семантических связей между терминами. Особый вид работы составляет интеграция вновь поступившего и структурированного глоссария в ранее построенную семантическую сеть. В процессе интеграции исходный глоссарий перестает существовать как самостоятельная информационная единица и распределяется согласно семантическим отношениям между терминами.
Существенно, что работа редакторов-экспертов с одной стороны является интеллектуальной деятельностью, а с другой стороны регламентируется точно сформулированной технологией обработки исходных глоссариев.
Часть семантической сети, удовлетворяющая условиям готовности, автоматически транслируется в Интернет-ресурс, объединяющий в рамках единой навигационной и управляющей системы тысячи относительно компактных глоссариев. Эти глоссарии формируются вокруг терминов-понятий, которые и определяют темы (названия) глоссариев.
Описанная технология реализована в виде Интернет-ресурса www.glossary.ru. Статистика посещаемости свидетельствует о востребованности ресурса. Параллельно с развитием технологии выявлены устойчивые свойства научной и деловой терминологии и отражающей ее семантической сети, а также сформулировано несколько новых задач.
2. Формальные характеристики семантической сети
С формальной точки зрения семантическая сеть представляет собой пару множеств: множество вершин-статей A и множество бинарных связей R. Соответственно развитие УТП можно рассматривать как процесс формирования последовательности сетей:
<A(1),R(1)>, <A(2),R(2)>, . . . <A(t),R(t)>, . . . ,
где t - номер версии.
Достигнутый уровень формирования УТП обеспечивает увеличение множества статей-вершин на 1000 единиц за 1 месяц:
|A(t)| = |A(t-1)| + 1000
Развитие УТП характеризуется рядом формальных свойств, установленных эмпирически и не зависящих от объема построенной сети и индивидуальных особенностей редактора-эксперта.
2.1. Свойство I
Семантическая сеть <A(t),R(t)> представляет собой сильносвязный граф с ограниченным числом циклов.
Другими словами, в сети отсутствуют изолированные компоненты и компоненты, имеющие 1-2 точки сочленения. С одной стороны, свойство I есть отражение известного тезиса о единстве мира, а с другой стороны - объясняется существованием "сквозных" разделов терминологии, связывающих, на первый взгляд, весьма далекие темы. Так, "Страхование" и "Риск-менеджмент" связывают "Экологию", "Управление производством" и "Операции с ценными бумагами".
Особую роль в интеграции сети выполняет естественная потребность в понятиях более высокого уровня. Например, наличие значительного объема статей связанных с вопросами правого регулирования операций, порождают необходимость систематизации правовой терминологии вообще. В свою очередь "Право" порождает "Государство", "Государство" - "Общество".
2.2. Свойство II
В семантической сети <A(t),R(t)> отношение числа связей |R(t)| к числу статей-вершин |A(t)| практически постоянно: |R(t)| / |A(t)| = 1.2
Заметим, что для строго иерархических структур
|R(t)| = |A(t)| - c,
где c - количество компонент связности, т.е.
|R(t)| / |A(t)| → 1-0
В тоже время для полносвязных структур
|R(t)| / |A(t)| = (|A(t)| - 1) / 2
2.3. Свойство III
В семантической сети <A(t),R(t)> отношение общего числа статей |A(t)| к числу статей (p), выделенных редакторами экспертами в качестве терминов-понятий, практически постоянно:
6 < |A(t)| / p < 7
Другими словами в среднем на 6-7 терминологических статей приходится одна статья, выделенная редактором-экспертом в качестве понятия, раскрываемого через другие статьи и (потенциально) заслуживающая быть темой отдельного глоссария.
- Побочные свойства сети
3.1. Свойство IV
Структурирование терминологии, выполняемое в проекте УТП человеком-редактором, можно рассматривать как эффективный метод обучения. Установлено, что в результате добросовестного структурирования редактор исподволь осваивает соответствующий раздел науки или бизнеса. Особенность метода структурирования, как приема обучения, состоит в том, что метод допускает эффективную формальную проверку результатов обучения и не требует серьезных усилий по преобразованию учебного курса в курс автоматизированного обучения.
3.2. Свойство V
Программный инструментарий, поддерживающий процесс построения семантической сети, позволяет, в частности, наложить терминологию, заданную в том или ином толковом словаре (тестовом словаре) на имеющуюся семантическую сеть. В тех случаях, когда тестовый словарь принадлежит уже структурированной области, в результате наложения образуется подсеть терминов, свойства которой позволяют оценить качество и полноту тестового словаря. Таким образом, по мере роста семантической сети она начинает приобретать свойства оценщика качества для независимо подготовленных и опубликованных глоссариев.
3.3. Свойство VI
Семантическая сеть научной и деловой терминологии допускает трансформацию в тезаурус, содержащий отношения "класс-подкласс", ассоциативные связи, а также отношения синонимии.
- Актуальные задачи формирования УТП
Представление большой семантической сети в виде удобном для конечного пользователя порождает ряд специфических задач, главной из которых является задача кратчайшего "вывода" пользователя на нужный ему фрагмент сети.
Задача 4.1. - задача формирования и наглядного представления фрагмента семантической сети, в виде интуитивно понятном для пользователя. Графическое представление строго иерархических структур, типа вложенных каталогов файловой системы давно и плодотворно используется в прикладном программном обеспечении. Задача представления произвольных сетей, возникающая, скажем, при анализе локальных вычислительных систем, хорошего решения не имеет. Для решения задачи 4.1 существенное значение имеет свойство V.
Однако для навигации по сети в целом использование структуры связей явно недостаточно. Часто пользователю требуется предварительно сориентироваться в общей логике УТП. Отсюда возникает следующая задача.
Задача 4.2. - задача кластеризации понятий и формирования структуры связей между кластерами. Решение задачи 4.2 позволит пользователю удобно обозревать и выбирать интересующие его проблемные области.
Задача 4.3. - задача формирования последовательности статей в отдельном глоссарии. Обычно в глоссариях термины приводятся в алфавитном порядке, однако наличие структурных связей теоретически позволяет группировать близкие статьи. Строго говоря задача группировки не имеет единственного решения, что приводит к необходимости разработки эвристических методов группировки.
Задача 4.4. - задача предъявления неполно представленных глоссариев, неизбежно возникающих при описанной технологии формирования УТП. По сути дела задача 4.4 сводится к отказу от самостоятельно существования "краевых" понятий и их отображения средствами сортировки статей (задача 4.3). Один из возможных вариантов решения задачи 4.4 предусматривает оценивание структурной проработки того или иного понятия. Наличие оценки позволит пользователю самостоятельно выделять неполно представленные глоссарии.
Задача 4.5. - задача автоматизации деятельности экспертов-редакторов. Автоматизация предполагает разработку совокупности методов, предлагающих экспертам варианты связей между статьями на основании их формального анализа. Использование такого рода методов позволит повысить производительность труда и выявить неочевидные связи.
Задача 4.6. - задача построения интеллектуальной поисковой системы УТП, использующей тезаурус научной и деловой лексики (свойство VI).
Universal terminological space
M. G. Malkovsky, S. Yu. Solov’ev
Key words: glossary, concept, Internet, semantics, semantic network, semantic relation, term, universal terminological space
Universal Terminological Space (UTS) is an abstract repository of all the term definitions (entries). Semantics of UTS is set up in the form of the semantic network, that connects all the entries.
There are two problems connected with UTS. The first is the problem of UTS building. The second one is the problem of UTS representation in a form handly for a user.
For the purposes of UTS building and representation we use glossaries. Glossary we define as a terminological dictionary in a definite field. Glossary's entries as a whole dispose some domain. The cognitive power of the glossary lies in ability (for user) to read all the entries in sequence staying within the domain he is interested in.
The work of the editor-expert, handling the original glossary, consists in finding binary semantic relationship between terms. The particular part of the work is the integration of the already structured glossary into the previous build-up semantic network. The editor-expert's activity is an intellectual one but on the other hand it is regulated by the precise formulated technique of handling of initial glossaries (and is supported by the special program tools).
Prepared in a such way part of the semantic network is automatically transmitted to the Internet-resource, that comprises into entire system thousands of relatively compact glossaries.
The technique described is realized in the form of Internet-resource www.glossary.ru. Some properties of UTS semantic network are described and some urgent scientific problems are formulated.