Сборник 2002

ТЕОН-2: ОТ ТЕЗАУРУСА К ОНТОЛОГИИ И ОБРАТНО

 

А. С. Нариньяни

Российский НИИ искусственного интеллекта

narin@aha.ru

 

 

Ключевые слова: Обработка текста, Семантика, Прагматика, Тезаурус, Онтология, Модель предметной области.

Доклад продолжает начатое в работе [1] обсуждение места Онтологии в системах обработки текста с внесением уточнений и поправок на основе имевших за истекший год место многочисленных дискуссий по этой теме. В отличие от противопоставления в [1] Онтологии и Тезауруса как компонентов интегрированного комплекса ТЕОН, в настоящем докладе рассматривается взаимосвязь трех составляющих ‘Тезаурус – Онтология – Модель предметной области’ для ограниченной области приложения. В дополнение к сопоставлению этих понятий и уточнению их взаимозависимостей, в докладе рассматривается схема технологии формирования составляющих данного треугольника на основе представительного массива текстов.

 

 

1. Предисловие

 

Как показывают публикации и многочисленные дискуссии, установить взаимоотношение терминов Тезаурус и Онтология достаточно четко не удается в связи с расплывчатостью и почти полным сходством их интерпретации.

Однако параллельное и весьма активное присутствие этих терминов на пересечении компьютерной лингвистики и искусственного интеллекта требует более определенно разделить их задачи и области действия.

До последнего времени само появление этикетки Онтология в этом тематическом поле наводило на мысль, что тут имеет место типичная косметическая операция: тема Тезауруса уже многие годы остается одной из центральных, а прогресс, к сожалению, “остается оставляет?желать”. Сочетание востребованности и дефицита новых идей подсказывает многократно испытанный прием: введем новый броский лейбл и будем говорить о том же, но как бы совсем не об этом. Глядишь, такая парапсихологическая операция совершит чудо, родив новые идеи. Ведь в начале, как известно, было только слово…

И действительно, - далеко не сразу, но материализация духов в конце концов началась. На границе Тезауруса и Модели предметной области (МПО) стало определяться нечто, сопоставляемое этикетке Онтология и принимающее очертания формализованной системы понятий: уже не Тезаурус, но еще не МПО, или, если двигаться в противоположном направлении, т.е. от Модели мира к языку, –  уже не МПО, но еще не Тезаурус.

Искусственный интеллект очередной раз открывает для себя “роковой треугольник”

сущность – понятие – слово,

в котором от самого своего рождения блуждает философия: еще древние греки терялись в поисках того из этих трех углов, который является исходным для двух остальных.

Поскольку пока Искусственный интеллект остается областью прикладной и не вторгается в сферу чистой философии, мы можем оставить проблему “курица или яйцо” в покое и ограничиться выяснением разделения функций интересующих нас базовых понятий и их взаимосвязи в системе представления знаний, связанных с обработкой текста.

Такая взаимосвязь должна проявляться прежде всего в самих определениях этих понятий, рассмотрение которых начнем с того же определения Тезауруса в “Современном словаре иностранных слов” [2], которое было использовано в [1].

 

 

  1. Тезаурус

 

Тезаурус: (1) словарь, в котором максимально полно представлены все слова языка с исчерпывающим перечнем примеров их употребления в текстах; в полном объеме осуществим лишь для мертвых языков; (2) идеографический словарь, в котором показаны семантические отношения (синонимические, родовидовые и др.) между лексическими единицами; (3) в информатике – полный систематизированный набор данных о какой-либо области знаний, позволяющий человеку или вычислительной машине в ней ориентироваться.

Если первые два толкования Тезауруса могут быть объединены (“полный идеографический словарь”), то третье в контексте нашего сопоставления явно начинает относиться к сфере Онтологии и\или МПО. Таким образом, Тезаурус сегодня – это максимально полный объем лексики, организованной по тематическому (семантическому) принципу с отражением определенного набора базовых семантических отношений.

Если речь идет о Тезаурусе всего (русского, английского,…) языка, то базовый набор семантических категорий не может быть большим, ограничиваясь, как правило, несколькими десятками понятий и отношений. Такой словарь ориентирован на работу с текстами любой тематики, как в творческом процессе, так и в системах автоматической и автоматизированной обработки теста (перевод, стилистическая правка, генерация отчетов, интеллектуальный поиск и др.). Однако при этом возможности универсального Тезауруса ограничены самой ограниченностью отражения в нем спектра семантических концептов.

И здесь надо отметить, что в наш треугольник совсем не случайно введена МПО, т.е. Модель конкретной предметной области, а не Модель мира. Иначе нам пришлось бы иметь дело со всей системой знаний, и это с самого начала исключило бы возможность продвижения к какому-либо прикладному результату. Действительно, систему знаний можно уподобить N-мерной сфере: при каждом очередном шаге ее расширения объем знаний растет в степени N и уже на первых этапах перестает быть обозримым.

Начальные этапы определения системы знаний в Модели мира связаны с увязыванием наиболее общих понятий, что, хотя и с трудом, но семантике еще как-то удается. Именно эти общие элементы используются в универсальном Тезаурусе, поскольку его содержание проецируется на все общекультурное ядро текущей системы знаний.

Сегодня Тезаурус из всего спектра средств языка отражает только лексику просто потому, что она задана в знаковом виде и относительно просто поддается систематизации. Хотя в идеале Тезаурус можно было бы представить как комплекс лингвистический знаний, включающий все составляющие языка от фонетики (применение систем с использованием голоса требуют включения просодии и интонации) до риторической структуры текста и законов коммуникации. Но это еще долго не будет возможно будет невозможно? хотя бы потому, что сегодня даже морфология, наиболее проработанная из этих составляющих, еще не достигла уровня достаточной законченности, а основная их часть находится на этапе первых эскизных набросков. Таким образом, вопрос о том, чтобы “объять необъятное” пока даже не ставится.

В то же время требования приложений в области обработки текста непрерывно растут. К счастью, основная их часть ориентирована на конкретные, часто очень ограниченные, практические задачи. Таким образом, возникает проблема Тезауруса в узкой предметной области, позволяющая ставить вопрос о:

  • расширении проблемно-ориентированной лексики, что пока непродуктивно для универсального Тезауруса, поскольку превратило бы его в нечто необозримое;
  • некотором шаге приближения к “идеалу” включением тех или иных лингвистических элементов, дополняющих и расширяющих традиционное лексическое пространство;
  • углублении семантики, так как это гораздо более достижимо для узкой тематики.

Последнее связывает создание специализированных Тезаурусов с разработкой соответствующих МПО.

 

 

  1. Модель предметной области

 

В [1] Онтология определялась как комплекс понятий от самых общих до наиболее конкретных, охватывающий полный спектр объектов и отношений, включая события и процессы, а также значения (атрибутов и отношений), определяемые, если необходимо, во времени и пространстве. Эта система сущностей связывается как универсальными зависимостями типа “общее - частное”, “часть - целое”, “причина - следствие” и т.п., так и специфическими для соответствующей МПО. При этом определяя сущности в Онтологии, можно использовать различные аппараты представления знаний, - например, фреймы, слоты которых связываются ограничениями, обусловливающими допустимые сочетания их значений. В качестве ограничений могут выступать продукции, логические, алгебраические, табличные и другие зависимости. Таким образом, Онтология – это модель предметной области, использующая все доступные средства представления знаний, релевантные для данной области.

Таким образом, год назад автор [1] сознательно отождествлял Онтологию с МПО. За это время прошло достаточно обсуждений, чтобы такое отождествление перестало казаться бесспорным и конструктивным.

Необходимость МПО как именно модели, а не просто формального описания предметной области, сомнения не вызывает, по крайней мере в Искусственном Интеллекте. Это означает, что компоненты МПО суть не просто символы понятий сущностей и отношений между ними, но микромодели со своей встроенной оперативной (активной) семантикой и прагматикой. При отражении в МПО фрагмента реальности частичная информация о нем должна автоматически дополняться выводами \ вычислениями, переводящими все доступные знания и информацию из имплицитных в эксплицитные.

Проблема в том, что полноценная МПО возможна только для областей, знания о которых достаточно формализованы, – а таких, как известно, не так уж много, поскольку они ограничены точными науками и хорошо математизированными разделами техники. Гораздо хуже дело обстоит с естественными науками, в которых далеко не каждое понятие определяемо формально через другие, а из тех, которые определяемы, не  для каждого удается построить активную модель. Еще дальше от МПО отстоят науки гуманитарные, ремесла, быт и где-то в наибольшем удалении – искусства.

Соответствующая данному выше определению символьная система моделирования , возможно, удовлетворительно или даже хорошо представляет комплекс понятий через их связь между собой, но никак (или почти никак) не отражает их связь с действительностью в тех областях, для пространства которых нет адекватной системы координат: например, запахи, тактильные ощущения, формы, и т.п.

Отражение действительности через понятия может быть неадекватной даже там, где, казалось бы, существует полная и точная система измерений. Например, хотя почти семнадцать миллионов оттенков цвета в компьютере однозначно определяются тройкой базовых оценок, даже профессиональный набор понятий художника, различающего несколько тысяч цветов, может образно передать описание на порядок меньшего количества реальных образцов. Поскольку в общем случае множество различаемых элементов реальности несоизмеримо больше возможности их отражения в формальной понятийной структуре МПО, то эта структура просто прикована к реальности: в нее должны включаться какое-то число выбранных элементов реальности, служащих своего рода эталонами для привязки к ним понятий. Сколько Джоконду ни описывай, ее надо увидеть, так же, как надо увидеть, услышать, ощутить многие тысячи эталонов действительности, служащих привязкой каждой Модели Мира к пространству реальности.

Таким образом, в нашей системе знаний лишь относительно небольшая зона может претендовать на пригодность для МПО. И, с удалением от нее, понятия и отношения между ними становятся все более размытыми и все хуже поддающимися формализации. Героическая попытка окультурить эти целинные территории предпринята энтузиастами fuzzy, уже более четверти века самоотверженно, не жалея своих научных жизней, возводящих на них виртуальные нечеткие МПО, на строительство которых работает целая индустрия публикаций, давно перевалившая по своему объему за сотню тысяч работ. Правда, ведет себя эта целина неблагодарно, - чем больше на ней сеют, тем меньше она рождает.

Итак, озвученная в [1] концепция построения ТЕОН наталкивается на естественное препятствие: почти повсеместное отсутствие Онтологий в предписанной им в [1] форме МПО. С другой стороны, сама концепция ТЕОН сомнению автором не подвергается: интерфейс ЕЯ и Модели мира (семантика плюс прагматика) один Тезаурус обеспечить не может, эта задача требует тандема взаимодополняющих систем Тезаурус–Онтология, первая  – со стороны языка, вторая  – со стороны предметной области.

При этом сам Тезаурус выступает как нечто на пересечении трех своих определений в “Современном словаре иностранных слов”, - как внешняя часть МПО для лингвистических знаний, внутренняя часть которой пока недоступна для моделирования ввиду недостаточной разработки и плохой формализуемости. Именно это делает его отличной иллюстрацией того, насколько ограниченной может быть МПО для такой конкретной области.

Естественно, что МПО лингвистики не ограничивается ее самым поверхностным слоем – лексикой: существуют многие десятки (скорее даже сотни) концепций модели ЕЯ, различающихся полнотой охвата основных компонентов языка и законченностью проработки каждого из них. Пока из этих основных компонентов только лексика и морфология могут претендовать на определение полный систематизированный набор данных о какой-либо области знаний (в данном случае, компонентов? ЕЯ), позволяющий человеку или вычислительной машине в ней ориентироваться.

 

 

  1. Онтология

 

Выше мы отметили, что оперативная (активная) семантика и прагматика, которые способнаобеспечивать вывод \ вычисления, переводящие доступные знания и информацию из имплицитных в эксплицитные, возможны возможны?только в идеальной МПО для полностью формализуемых областей. Для большинства же приложений такой уровень в ближайшей перспективе остается недостижимым.

Однако комплекс понятий имеется для любой области, иначе эта область просто не существовала бы в нашей Модели Мира. Именно такой комплекс,  с одной стороны,  является скелетом МПО, а с другой, –  может и должен выступать в качестве основы семантико-прагматической структуры проблемно-ориентированного Тезауруса. Таким образом, симметрично треугольнику

сущность – понятие – слово,

намечается треугольник, отражающий соотношение обсуждаемых здесь понятий:

МПО – Онтология – Тезаурус.

Видимо, пока для большинства предметных областей МПО есть Онтология (с минимальной активной семантикой и прагматикой) плюс упоминавшаяся выше система образцов – эталонов реальности, а и? Тезаурус – опирающаяся на Онтологию организация пространства лексики и, в меру возможности, других компонентов языка.

Таким образом, в этой схеме Онтология оказалась общей частью МПО и Тезауруса, связывающей знания о мире со знаниями о языке в проекции на конкретную сферу деятельности.

Это совершенно не означает, что Онтология по своей природе ориентирована на Тезаурус, - напротив, это полноценный Тезаурус невозможен без Онтологии в самой основе его организации. Это очевидно потому, что она, хотя бы в самой наивной форме, является скелетом всякой системы данных и\или знаний. Любая классификация чего бы то ни было - дерево иерархической структуры архива или государства, - являются эмбрионом или эрзацем Онтологии соответствующего понятийного пространства. Эмбрионом в тех случаях, когда используется небольшая, а часто и не центральная часть проблемной системы понятий, а эрзацем – там, где прагматика иерархии подминает содержательный каркас концептуальной организации.

Например, широко используемые иерархические структуры применяются не потому, что такова суть организуемого пространства, а из-за невозможности отражения всех измерений этого пространства на бумаге. Именно поэтому и универсальные тезаурусы строятся сегодня на основе иерархической рубрикации, которая является естественной для книжного издания, но не адекватна в реальных предметных областях. Возможность формирования более сложной организации информации до последнего времени была ограничена каталогами на перфокартах, и только развитие виртуального ассоциативного пространства в компьютере позволит создавать хранилища данных и знаний, в том числе и Тезаурусы, организованные на основе адекватных Онтологий.

 

 

  1. ТЕОН

 

Естественно, возникает вопрос о праве ТЕОНа на место в этой скорректированной картине после того, как пара Онтология – Тезаурус перестала быть всем, отделившись от МПО.

Чтобы ответить на него стоит вспомнить, что нас здесь интересует не абстрактная концепция взаимосвязи языка и реальности, а структура аппарата знаний, необходимых для организации обработки текста. В ближайшей перспективе мы не можем втянуть в этот процесс ни систему образцов – эталонов реальности, ни активную семантику и прагматику потому, что не умеем это делать. От МПО нам остается только Онтология, разработка которой, как представляется, не кажется невозможной, поскольку состоит из инвентаризации понятий и установления взаимосвязей между ними.

Что такое ТЕОН и каковы его функции, было достаточно подробно рассмотрено в [1]. Однако остается открытым вопрос о том, как строить две основные его составляющие - Тезаурус и Онтологию: будет ли этот процесс филигранным кустарным искусством, требующим кропотливого “ручного” труда лингвистов и инженеров знаний высшей квалификации, или можно представить себе автоматизированную технологию, поддерживающую основную “черновую” часть этой работы, и оставляющую мастерам только ее окончательную доводку.

 

 

6. От Тезауруса к Онтологии и обратно

 

Многовековые неудачи в определении исходной вершины в треугольнике сущность – понятие – слово лишь демонстрирует тесную связь и даже неразделимость этих концептов, каждый из которых отвечает за свою проекцию нашей картины мира. Хотя сущность, казалось бы, представляет в этом треугольнике действительность, однако сама по себе она континуальна и лишь частично связана с реальностью, - она не доступна в качестве материала исследования вне системы понятий. Которые, в свою очередь, сами не могут служить элементами построения Онтологий непосредственно, без оформления словом.

Таким образом, процесс создания ТЕОН на базе Онтологии возможен только на основе обработки текстов, - единственного вида сырья, данного нам в ощущениях (кроме уже упоминавшихся образцов –эталонов) и доступного для анализа и обработки в символьном виде. Этот процесс схематично представляется состоящим из следующих этапов:

  1. Определение границ предметной области, для чего необходимо иметь достаточно конкретную - хотя бы интуитивную - ее модель.
  2. Формирование базы Т текстовых массивов, достаточно полно эту область покрывающих (в этом докладе мы ограничимся обработкой текстов, хотя при создании Онтологий речь может идти об информации любого типа).
  3. Извлечение из Т максимально полного словника ТС проблемно-ориентированной лексики (слова, словосочетания и конструкции) с расширением каждого компонента С ТС? до полной парадигмы, охватывающей все связанные с ним в данной ПО словоформы.
  4. Разделение ТС на понятийную (терминологическую) лексику ТС1 и прочую, ТС2, связанную с жанровыми, стилистическими и другими особенностями данной ПО.
  5. Формирование на основе ТС1 “инвентарного списка” СП понятий данной ПО, сопоставляемых элементам ТС1.
  6. Классификация элементов СП в соответствии с базовыми семантическими категориями: объект, процесс, событие, свойство, значение и т.п.
  7. Установление между элементами СП отношений из базового набора семантических отношений: часть – целое, частное – общее, объект - свойство и т.п.
  8. К этому этапу мы сформировали основу Онтологии ОН, к которой предстоит добавить компоненты (сущности и отношения), специфические для данной ПО, для того, чтобы Онтология в первом приближении была готова. Эта работа требует подключения экспертов из этой ПО и квалифицированных инженеров знаний.
  9. Теперь каждому элементу словника ТС1 можно сопоставить один или несколько компонентов ОН, что позволяет установить синонимию и другие важные для семантики будущего Тезауруса характеристики и отношения, создав основу ТЕ и выстроив ее взаимосвязь с ОН.
  10. Полнота ТЕ обеспечивается дальнейшей работой лексикографов, расширяющих словник ТС за счет общелингвистического багажа, энциклопедических и профессиональных знаний (терминология, персоналии, топонимы и т.п.) и расширения текстовой базы Т.

Проверка степени достаточности созданного ТЕОН может проводиться на основе различных процессов обработки текстов, связанных с их семантикой в данной предметной области.

Таким образом, рассмотренные этапы конструирования ТЕОН на основе обработки представительного корпуса текстов, могут быть поддержаны достаточным уровнем автоматизации, который очевидным образом убывает с продвижением процесса к его завершению, требующему участия высокопрофессиональных специалистов трех категорий: лингвистов, инженеров знаний и экспертов от предметной области.

Легко видеть, что, начиная с этапа Е, процесс распараллеливается, поскольку работа над ТЕ и ОН может вестись одновременно при определенном опережении ведущей линии ОН.

 

 

  1. Заключение

 

В работе [1] был сделан первый шаг в попытке разделить зоны действия понятий Онтология и Тезаурус, а также, используя их взаимодополнительность, предложить их интеграцию в комплекс ТЕОН. Таким образом, этот шаг состоял из двух фаз: анализ (разделение) и синтез (интеграция).

Естественно, этот тезис вызвал достаточно возражений и дискуссий, сформировавших антитезис, который помог разделить теперь уже Онтологию и МПО. В образовавшейся в результате синтеза триаде Онтология заняла место посредника между Тезаурусом и МПО. При этом МПО остается на территории Искусственного интеллекта, испытывающего немалые трудности даже на хорошо формализуемых предметных областях и уж заведомо не обещающего пока скорый успех в массовом производстве МПО для плохо формализуемых разделов знаний.

Между тем, практика настойчиво требует развития самых различных технологий обработки текста, которым в их продвижении все больше необходима опора на семантику и знания. Словарь заменяется проблемно-ориентированным Тезаурусом, а тому нужна понятийная структура соответствующей области. Ввиду “временной недоступности” МПО, эта потребность будет удовлетворяться в ближайшем будущем доступной формализованной частью знаний, т.е. Онтологией.

Такая схема приемлема теоретически, но для ее практического использования необходима технология, способная обеспечить эффективное “массовое” производство проблемно-ориентированных Онтологий, Тезаурусов и, в конечном счете, ТЕОНов.

Схема подобной технологии, изложенная выше в форме десяти этапов, достаточно очевидна, - вопрос только в том, насколько удачно будут разработаны средства их поддержки. Два проекта, связанные с созданием таких средств, представлены на этом Семинаре в докладах [3] и [4] сотрудниками Российского НИИ искусственного интеллекта. При этом первый посвящен конструированию инструментальной среды работы с текстами, а второй – разработке ассоциативной гиперсети, активно поддерживающей прагматику своих элементов и реагирующей на события в любой своей точке, своего рода нервной системы помещенных в нее знаний, которая может послужить основой будущих Тезаурусов, Онтологий и ТЕОнов.

Я надеюсь, что реализация описанной технологии ТЕОНов, пусть в предварительной пока и упрощенной версии, станет возможной в ближайшем будущем, что позволит создать новое поколение интеллектуальных систем автоматической обработки ЕЯ-текста.

 

 

Литература

 

  1. Нариньяни А.С. Кентавр по имени ТЕОН: Тезаурус + Онтология. В сб. ”Межд. Семинар ДИАЛОГ’2001”, Аксаково, Июнь 2001, Том 1, стр. 199 – 154
  2. Современный словарь иностранных слов. “Дуэт”, С.-Петербург, 1994
  3. Жигалов В. А., Жигалов Д. В., Жуков А. А., Кононенко И.С., Соколова Е. Г. Система Alex как средство для многоцелевой автоматизированной обработки текстов. В сб. ”Межд. Семинар ДИАЛОГ’2002”, Протвино, Июнь 2002,Том 2, стр. 192

4. Пацкин А.И. Гиперсловари на базе системы "Абриаль", Ibid, стр. 407

 

 

TEON-2: from Thesaurus to Ontology and backwards
A.S. Narin’yani

 

Key words:  text processing, Semantics, Pragmatics, Thesaurus, Ontology, Model of the Object domain

 

The report continues the discussion in [1] which has been devoted to establishing place of Ontology in the NLP systems. In [1] we opposed the Ontology and Thesaurus as two constituents of TEON integrated complex but currently in contrast to that an interdependency of the components of the “ Thesaurus – Ontology – Model of subject domain” triangle for a limited application area is considered. In addition to the comparison of these notions and investigation of their interrelations in the report a draft scheme of a technology of formation of that triangle components on the basis of a representative corpus of texts is discussed.

 

[1] Narin’yani A.S. A centaur by name of TEON: Thesaurus + Ontology. In the Proc.of the DIALOG’2001 International Workshop, Aksakovo, June 2001, v. 1 pp. 199 – 154