ТЕЗАУРУС ДЛЯ АВТОМАТИЧЕСКОГО КОНЦЕПТУАЛЬНОГО ИНДЕКСИРОВАНИЯ
КАК ОСОБЫЙ ВИД
ЛИНГВИСТИЧЕСКОГО РЕСУРСА
Н.В.Лукашевич
Институт США и Канады; АНО Центр информационных исследований
Б.В.Добров
НИВЦ МГУ; АНО Центр информационных исследований
1 Введение
В течение более тридцати лет с 1960-х по 1980-е годы одним из основных способов поиска в информационно-поисковых системах был поиск с использованием информационно-поисковых тезаурусов. К достоинствам использования тезаурусов при индексировании и поиске документов относятся возможности уточнения запроса пользователем и расширения поиска на основе тезаурусных связей.
Однако в последнее время использование тезаурусов в информационных системах стало скорее исключением, чем правилом. Во многом это связано с тем, что традиционные информационно-поисковые тезаурусы разрабатывались для ручного индексирования человеком-индексатором, а объем потоков информации в настоящее время значительно превосходит возможности индексаторов по их тематической обработке. Как представляется, новым шагом, который мог бы возродить тезаурусный поиск в широком круге информационных систем, является разработка нового типа тезаурусов - тезаурусов для автоматического индексирования документов.
С 1994 года в АНО Центр Информационных Исследований ведутся работы по разработке Тезауруса для автоматического индексирования в общественно-политической области. С 1995 года Общественно-политический тезаурус активно и успешно применяется для различных приложений автоматической обработки текстов, таких как автоматическое концептуальное индексирование, автоматической рубрицирование с использованием нескольких рубрикаторов, автоматическое аннотирование текстов (Loukachevitch, Salii, Dobrov, 1999). Общественно-политический тезаурус - базовый поисковый инструмент в поисковой системе “РОССИЯ” (www.cir.ru).
В настоящее время Общественно-политический Тезаурус включает порядка 58 тысяч терминов и наименований, более 25 понятий, более 90 тысяч отношений между понятиями.
Данная статья посвящена обобщению опыта, полученного в ходе построения Общественно-политического Тезауруса для автоматического индексирования. На примере конкретных свойств и особенностей Общественно-политического тезауруса будут сформулированы основные отличия традиционных тезаурусов для ручного индексирования от тезаурусов, которые предполагается использовать в автоматической обработке текстов.
2 Тезаурусы для ручного индексирования
vs. тезаурусы для автоматического индексирования:
методологические отличия
Основной целью разработки традиционных информационно-поисковых тезаурусов (Шемакин, 1974; LIV, 1984; UNBIS, 1974) является использование их единиц (дескрипторов) для описания основных тем документов в процессе ручного индексирования. По своей сути тезаурус для ручного индексирования является искусственным языком описания, построенным на основе естественного языка. При этом сам процесс индексирования по такому тезаурусу базируется на лингвистических, грамматических знаниях, а также знаниях о предметной обрасти, которые имеются у профессиональных индексаторов текстов. Индексатор сначала должен прочитать текст, понять его и затем изложить содержание текста, пользуясь дескрипторами, указанными в информационно-поисковом тезаурусе. Именно индексатор должен хорошо понимать всю терминологию, использованную в тексте, -- для описания основной темы текста ему понадобится значительно меньшее количество терминов.
При автоматической обработке текстов человека-посредника между текстом и описанием его содержания в виде дескрипторов нет. Есть только автоматический процесс и Тезаурус, который должен содержать и те знания, которые содержатся в традиционных информационно-поисковых тезаурусах, и те знания (насколько это возможно), которые использует индексатор для определения основной темы текста.
Именно поэтому традиционные тезаурусы, разработанные для ручного индексирования, невозможно использовать при автоматическом индексировании (Salton, 1989).
Далее мы рассмотрим, какую именно дополнительную информацию должен включать в себя тезаурус для автоматического индексирования (АИ-тезаурус).
3 Дескрипторы в тезаурусе для ручного индексирования
vs. понятия тезауруса для автоматического индексирования
АИ-тезаурус должен включать не только термины, которые представляют важные понятия в текстах данной предметной области, но также охватывать широкий круг более специфических терминов, обнаружение которых в конкретном тексте сделает этот текст релевантным запросу по понятиям более высокого уровня.
Например, Тезаурус Исследовательской службы Конгресса США (LIV, 1984) не содержит такого дескриптора как ГРУЗ, а только дескриптор ГРУЗОВЫЕ ПЕРЕВОЗКИ. При этом конкретный текст может обсуждать проблему опасных грузов, не упоминая непосредственно процесс перевозки. Только описание термина груз как отдельной единицы АИ‑тезауруса может в процессе автоматического индексирования сделать такой текст релевантным при поиске по запросу “грузовые перевозки”.
По подобным же причинам, АИ-тезаурус должен включать в виде отдельных единиц семантически близкие понятия, в отличие от тезаурусов для ручного индексирования, где совокупности близких понятий сводятся к одному, наиболее представительному понятию для уменьшения субъективности индексирования. Таким образом, единицы АИ-тезауруса должны быть значительно ближе к понятийному аппарату предметной области, чем дескрипторы традиционного тезауруса. Поэтому когда мы будем говорить о тезаурусах для автоматического индексирования, мы будем называть их единицы не дескрипторами, а понятиями тезауруса.
4 Синонимические ряды понятия
и синонимический ряд дескриптора
Синонимические ряды понятий должны быть значительно богаче, чем совокупности вариантов дескриптора в тезаурусе для ручного индексирования, поскольку синонимы должны описывать различные способы выражения данного понятия в тексте для автоматического процесса, а не для человека. Ряды синонимов включают в себя не только существительные и именные группы, а также прилагательные, глаголы, глагольные группы. Значительные усилия должны быть также сделаны, чтобы найти различные многословные синонимы. В тезаурусах для ручного индексирования большинство таких вариантов рассматривались как избыточные, поскольку индексаторы могли узнать такие синонимы в тексте благодаря своим языковым знаниям. Приведем пример одного из синонимических рядов, кажущемся достаточно утомительным для человека, но являющийся полезным знанием для процесса автоматической индексирования:
ПРЕДВЫБОРНАЯ ДЕЯТЕЛЬНОСТЬ
предвыборная агитация
предвыборная борьба
предвыборная гонка
предвыборная кампания
предвыборная подготовка
предвыборное мероприятие.
Казалось бы избыточные, эти термины позволяют не только уверенно узнавать нужное понятие в тексте, но также исключают возможность неправильно интерпретировать многозначные слова борьба, гонка и т.д.
5 Описание многозначности
в тезаурусе для автоматического индексирования
и тезаурусе для ручного индексирования
В традиционных тезаурусах описание многозначности терминов сводилось к проставлению помет дескрипторам или снабжение их дополнительными комментариями, адресованными индексатору и помогающие ему правильно выбрать тот или иной дескриптор при индексировании текста. Один из комментариев, например, в LIV подробно объясняет, как правильно использовать дескрипторы Bombing, Bombardment, Aerial Bombing. Традиционный тезаурус мог включать, например, один из омонимов и не иметь никаких пометок о том, что данный термин (дескриптор) является неоднозначным. Так, тезаурус LIV без всяких пометок о многозначности включает термин capital в финансовом смысле, хотя имеется такое значение термина как столица, которое также значимо в предметной области этого тезауруса.
АИ-тезаурусы должны включать средства для описания и разрешения многозначности терминов. Комментарии, пометы, призванные прояснить значение термина и случаи его применения как индексирующего элемента для индексаторов, являются бесполезными в АИ‑тезаурусе. Они могут быть использованы лишь как смысловые средства различения понятий при разработке АИ‑тезауруса и изучении результатов автоматической обработки.
При этом необходимо решить вопросы, связанные с представлением в тезаурусе многозначных терминов, а именно, как и насколько подробно должны быть описаны различные значения многозначных терминов, чтобы такое описание могло стать базой для эффективного разрешения многозначности терминов в процессе автоматического индексирования. Дело в том, что слишком детальное разбиение значений, не поддержанное мощностью методов разрешения многозначности, ведет к серьезным потерям качества автоматического индексирования (Chugur, Gonzalo, Verdejo, 2000).
В Общественно-политическом тезаурусе существуют два основных способа представления значений многозначных терминов, в зависимости от того, имеет ли термин несколько значений в предметной области (разведка) или термин имеет в предметной области одно значение, а другие его значения относятся к общезначимой сфере языка (образование). В первом случае, один и тот же текстовый вход относится к синонимическим рядам различных понятий. Во втором случае, текстовому входу присваивается пометка о многозначности, как знак дополнительной проверки значения для автоматического процесса.
Кроме того, важнейшим видом деятельности при разработке Общественно-политического тезауруса, направленным на улучшение качества разрешения многозначности, является поиск и включение в тезаурус (как отдельных понятий или как синонимов к существующему понятию) однозначных словосочетаний, содержащих многозначные слова, например, глубокая печать, круглая печать, центральная печать. Как показал эксперимент, такие словосочетания улучшают качество разрешения многозначности терминов в процессе автоматического индексирования текстов на 30 процентов.
6 Отношения между понятиями
в тезаурусе для автоматического индексирования
Расширенная понятийная база АИ-тезауруса и ее использование в автоматической обработке текстов существенно увеличивают роль отношений между понятиями - концептуальных отношений. Концептуальные отношения в АИ‑тезаурусе должны служить для решения трех основных проблем.
Во-первых, для навигации от нижестоящих понятий к вышестоящим и наоборот, что необходимо при автоматическом расширении запроса и автоматической рубрикации текстов.
Во-вторых, в процессе построения автоматического концептуального индекса необходимо не только обнаружить термины, но и определить их относительную важность для содержания текста, определить, насколько тот или иной термин соответствует основной теме текста. В идеале термины, получившие максимальный вес в результате автоматической обработки текста, должны совпасть с теми терминами, с помощью которых описал бы основную тему текста человек-индексатор. При этом нужно учитывать тот факт, что употребление термина в тексте не является независимым от употребления других терминов. Значимые для текста термины обычно сопровождаются множеством других семантически и тематически близких терминов. Поэтому для качественного определения веса термина в тексте, необходимо распознавать совокупности таких близких по смыслу терминов в тексте, пользуясь для этого концептуальными связями, описанными в АИ-тезаурусе.
В-третьих, концептуальные отношения должны служить для разрешения многозначности терминов в процессе автоматического индексирования.
Для выполнения всех этих функций недостаточно двух типов отношений между дескрипторами, которые приняты в традиционных тезаурусах в общественно-политической области: отношений ВЫШЕ-НИЖЕ, обладающих свойством транзитивности, и отношений АССОЦИАЦИЯ, симметричных нетранзитивных. Легко можно найти примеры отношений, отличных от отношений ВЫШЕ-НИЖЕ, но обладающих транзитивностью или примеры ассоциаций, которые лучше использовать как несимметричные.
Поэтому типы отношений в АИ-тезаурусе должны быть расширены. Такое расширение типов должно производиться не в сторону нарастания типов названий этих отношений, а в сторону описания различных навигационных типов концептуальных отношений.
7 Концептуальные отношения
в Общественно-политическом Тезаурусе
В Общественно-политическом тезаурусе в настоящее время дополнительно выделены следующие типы концептуальных отношений:
1) мы выделили еще один транзитивный тип отношений -- отношение ЦЕЛОЕ-ЧАСТЬ, который используется как для описания транзитивного подкласса традиционных отношений меронимии, так и отношений ‘роль в ситуации’ (инвестор) - ситуация (инвестировать), объект (спортсмен) - сфера деятельности (спорт), в которой функционирует объект;
2) модификацию отношений ВЫШЕ-НИЖЕ и ЦЕЛОЕ-ЧАСТЬ для описания “альтернативных” ВЫШЕ или ЦЕЛОЕ. Отношение помечается модификатором В (“возможность”) и обладает частичной транзитивностью: имеет транзитивность по имени отношения, но не имеет транзитивности по полному множеству (наименование отношения, модификатор);
3) модификацию отношений ВЫШЕ-НИЖЕ и ЦЕЛОЕ-ЧАСТЬ для отражения неполноты описания связью ВЫШЕ или ЦЕЛОЕ. Частой причиной этого явления является многозначность термина, значения которого не представляется возможным расщеплять на отдельные понятия (школа - здание). Другая причина - часть свойств верхнего понятия не наследуется на нижнее понятие (приемная мать - мать). Отношение помечается модификатором А (“аспект”) и также обладает частичной транзитивностью (Лукашевич, Добров, 2001).
4) ассоциации были разделены на симметричные ассоциации и несимметричные ассоциации.
Симметричная ассоциация между понятиями Х и Y характеризуется тем, что при поиске текстов о Х, могут пригодиться тексты об Y и наоборот. Наиболее характерные примеры симметричной ассоциации: соседство по пространству или по времени, антонимы.
Несимметричная ассоциация используется в следующих случаях:
а) Х - это ситуация, которая может случиться с Y, при этом Y непременный участник ситуации Х, например: (Y - АВТОМОБИЛЬ, X - ПАРКОВКА):
ПАРКОВКА
АСЦ 1 АВТОМОБИЛЬ
АВТОМОБИЛЬ
АСЦ 2 ПАРКОВКА
б) Х - это объект, который связан отношением ЦЕЛОЕ (возможно с модификаторами) с некоторой ситуацией Z, а Z возможно не имеет хорошего терминологического выражения, но если бы имело, то было бы связано с Y как в п.а): X - ГАРАЖ, Y - АВТОМОБИЛЬ.
С точки зрения поиска несимметричная ассоциация характеризуется тем, что тексты об Х релевантны поиску по Y, а тексты об Y чаще не релевантны поиску по Х.
8 Тезаурус для автоматического индексирования
и понятийная система русского языка
В процессе разработки Общественно-политического тезауруса, в ходе экспериментов с текстами и создания действующих систем автоматической обработки больших потоков текстов, стала ясна необходимость организации в виде АИ‑тезауруса не только предметно-ориентированных знаний, но и общезначимых слов и выражений русского языка.
Общезначимые слова и выражения периодически оказываются необходимыми для формулирования запросов и описания рубрик. Обладание запасом общезначимой лексики важно и для выявления лексической связности текста, существенной для определения основных тем текста, а также разрешение значительного числа многозначных слов и словосочетаний невозможно без привлечения общей лексики языка.
Поэтому с 1997 года на основе принципов Общественно-политического тезауруса, мы стали развивать Тезаурус русского языка, который включил Общественно-политический тезаурус как свою составную часть. На наш взгляд наличие такого общезначимого лингвистического ресурса необходимо для развития и функционирования предметно-ориентированных АИ-тезаурусов в различных предметных областях.
В настоящее время Тезаурус русского языка (как единая понятийная система, включающая в свой состав в частности Общественно-политический тезаурус) насчитывает около 40 тысяч понятий, около 90 тысяч слов, словосочетаний и терминов, более 150 тысяч связей между понятиями (с учетом вывода по иерархии отношений - более 1,200,000 связей, то есть в среднем около 30 связей на каждое понятие).
9 Современное состояние и новые проекты
В настоящее время на основе Общественно-политического тезауруса работает тематический поиск в Университетской информационно-поисковой системе РОССИЯ. Все поступающие в систему тексты автоматически рубрицируются и аннотируются с использованием технологий, опирающихся на знания тезауруса.
На основе адаптивной технологии автоматического рубрицирования была выполнена новая система автоматического рубрицирования официальных документов по Классификатору нормативных актов (1168 рубрик) (введен в действие указом Президента РФ N 511 от 15 марта 2000 г.).
Общественно-политический тезаурус наращивает свои двуязычные свойства. Англоязычные переводы терминов тезауруса, полученные по русско-английским словарям, выверяются по англоязычным источникам, тезаурус пополняется американскими и европейскими реалиями. Планируется, что общественно-политические тезаурус будет состоять из двух равноправных понятийных систем. Такой понятийно-организованный ресурс позволит реализовывать эффективный поиск англоязычных текстов по русскоязычным запросам и наоборот и, что также очень важно, адекватно передавать содержание текста в терминах понятийной системы запроса (см. например, (Лукашевич, Добров, 1998), где описывается построение структурной тематической аннотации документов).
Следующим важным направлением развития тезаурусной технологии является применение Тезауруса русского языка, как целостного ресурса: для расширения запроса, сформулированного на естественном языке (в настоящее время, расширение запроса в УИС РОССИЯ производится на основе задания булевского выражения терминов). Задача является достаточно сложной, поскольку одни слова и термины запроса ограничивают расширение других терминов запроса. Однако существующая структура Тезауруса позволяет определять наиболее “перспективные” направления расширения запроса.
10 Благодарности
Эта работа частично поддержана Российским гуманитарным научным фондом (грант N 00‑04‑00272а) и Российским Фондом Фундаментальных исследований (грант N 99‑06‑80107).
11 Литература
Лукашевич, Н.В., Добров, Б.В. (1998) Построение структурной тематической аннотации текста. Труды международного семинара Диалог-98, Том 2, стр. 795‑802.
Лукашевич, Н.В., Добров, Б.В. (2001) Модификаторы концептуальных отношений в тезаурусе для автоматического индексирования. НТИ, сер.2. N 4.
Список нормализованной лексики по экономике и демографии (1989) -- M.: АН СССР, ИНИОН,. - Ч. 1. – 169 с.
Шемакин Ю. И. (1974) Тезаурус в автоматизированных системах управления и информации. - М: Военное изд-во министерства обороны СССР – 192 с.
Chugur I., Gonzalo J., Verdjeo F., (2000) Sense distinctions in NLP applications. In: Proceedings of “OntoLex-2000” (В печати).
LIV (Legislative Indexing Vocabulary) (1994) - Congressional Research Service. The Library of Congress. Twenty-first Edition,. 546 p.
Loukachevitch, N., Salii, A. and Dobrov, B. (1999) Thesaurus for Automatic Indexing: Structure, Development, Use. In Sandrini P. (ed.): TKE’99. Terminology and Knowledge Engineering. Proceedings 5th International Congress on Terminology and Knowledge Engineering. Vienna, TermNet,. P 343‑355.
Salton, G. (1989) Automatic Text Processing - The Analysis, Transformation and Retrieval of Information by Computer. Addison-Wesley, Reading, MA.
UNBIS Thesaurus, English Edition (1976) Dag Hammarskjold Library of United Nations, New York.