О МОДЕЛИ ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ ЛИНГВИСТИЧЕСКОГО ТРАНСЛЯТОРА
Г. К. Хахалин
Московский Автомобильно-Дорожный Институт
(Государственный Технический Университет)
khakhalin@got.mmtel.ru
Ключевые слова: модель проблемной области, интегральная интеллектуальная система, лингвистический транслятор, онтология, гиперграфовое представление знаний, концептуальная модель, описание объекта треугольник.
Рассматриваются вопросы построения модели предметной области для интегральной интеллектуальной системы (ИС). Языком представления знания является язык гиперграфов. Этот тип модели может быть общим для любого компонента интегральной ИС. Метод создания концептуальных моделей в системе понимания ЕЯ-текста, использование языка гиперграфов для представления знания, попытка структурной унификации объектов модели и т.п. направлены на построение онтологии.
- Введение
Каждая система искусственного интеллекта имеет модель предметной области или проблемной среды. Это относится и к системам понимания естественного языка (ЕЯ). Часто же системы понимания ЕЯ для одной и той же предметной области, разработанные разными коллективами, имеют разные модели, даже если эти модели написаны на одном и том же языке представления знаний. Различия в моделях предметных областей (МПО) проявляются в терминах, понятиях, фрагментации, структурах представления знаний и т.д. Это вызывает существенные трудности при использовании результатов разработок одних лингвистических систем в других.
Еще с большими трудностями можно столкнуться, если комплексировать систему понимания ЕЯ (или лингвистический транслятор) в интегральную интеллектуальную систему (ИС). Задача комплексирования требует, чтобы модели проблемных сред, которые выступают в качестве интерфейса между компонентами, были доступны и однотипны для всех составляющих интегральной ИС.
- Комплексирование системы понимания ЕЯ-текста с другими ИС
В настоящее время все четче проглядывается тенденция объединения систем обработки ЕЯ-текста с другими ИС. Степень комплексирования определяется как степенью проработки каждой из ИС, так и возможностью их простого и эффективного взаимодействия. Например, в системах типа "ТЕКСТ « РИСУНОК" требуется обработка изображений и обработка ЕЯ-текста. Взаимосвязь между этими подсистемами может эффективно осуществляться только в том случае, если она реализуется через единое представление зрительных образов и ситуаций описываемых ЕЯ-текстом. В системах анализа/синтеза звучащей речи привлечение уровня ЕЯ-текста позволяет проверять гипотезы звуковых образов более целенаправленно и эффективно. В системах доступа к базам данных на ЕЯ более универсальным способом взаимодействия ЕЯ-системы и СУБД является концептуальная система управления, в которой представлен, с одной стороны, концептуальный уровень проблемной среды, а с другой стороны, концептуальная структура баз данных (БД) и распределение информации между БД. К другим комплексным системам можно отнести системы решения задач по ЕЯ-формулировкам, экспертные системы с ЕЯ-входом, OCR-системы с лингвистической надстройкой и др. Даже в системах машинного перевода (которые почти полностью относятся только к обработке ЕЯ-текстов) существенный скачок по качеству перевода может быть достигнут только с привлечением концептуальной модели мира, которая служит "инвариантом" того, что описывается текстами на входном и выходном языках. Например, в случае перевода текстов по компьютерам в модели необходимо заложить описания компонентов компьютера и их взаимосвязей.
Комплексирование системы понимания ЕЯ-текста с другими ИС может осуществляться различными способами. Одним из таких методов комплексирования является передача информации от системы понимания ЕЯ-текста в другую ИС и в обратном направлении через единую концептуальную модель, в которой элементы и фрагменты модели описываются в виде единых понятий, отношений, структур, ситуаций и т.п. Например, если рассматривать систему типа "ТЕКСТ® РИСУНОК", то в качестве результата работы системы понимания ЕЯ-текста выступает описание графической ситуации в виде фрагмента концептуальной модели. На основе этого фрагмента графическая система строит конкретное изображение объектов на экране дисплея. В ИС типа "РИСУНОК ® ТЕКСТ" система распознавания по сканируемому изображению выдает описание сцены в виде фрагмента концептуальной модели. По этому описанию система синтеза ЕЯ-текста выдает описание графической сцены в виде абзаца связанных ЕЯ-предложений при использовании доступных языковых средств (простые и сложные предложения, использование эллипсисов и анафор и т.д.). Здесь важно, чтобы концептуальные фрагменты были "понятны" как для системы обработки ЕЯ-текстов, так и для системы анализа/синтеза изображений. А эта "понятность" может быть только тогда, когда концептуальная модель построена не только по общим принципам, но и унифицирована по номенклатуре понятий, отношений, структур и т.д. или может быть легко трансформирована для нужд составляющих комплекса.
При интегрировании системы обработки ЕЯ-текстов с другими ИС можно сформулировать следующие требования для их "связки" в следующем виде:
- концептуальная модель того, что описывает ЕЯ-текст, должна совпадать с концептуальной моделью другой ИС;
- должна существовать единая номенклатура понятий и отношений, структур и ситуаций;
- интерфейсная модель должна описываться на одном и том же языке представления знаний.
Выполнение подобных требований позволило бы унифицировать построение МПО, использовать модель, разработанную для одной ИС, другой системой и, наконец, создавать библиотеки моделей, из которых можно было бы конструировать то, что нужно конкретной ИС.
- Пример фрагмента модели предметной области
Морфологическая и синтаксическая модели системы понимания ЕЯ определяются разработчиками ЛТ. А согласованная модель проблемной области – уже парой групп разработчиков: разработчиками ЛТ и разработчиками другой интеллектуальной системы.
Для примера модели предметной области используем гиперграфовое представление, которое можно считать объединением семантических сетей и фреймов [1]. Рассмотрим небольшой фрагмент модели предметной области для геометрических фигур.
На рис. 1 представлен фрагмент концептуальной модели описания прямоугольного треугольника, его свойств и взаимосвязей с другими объектами среды "геометрические фигуры" в гиперграфовом представлении. Такое представление может быть единым как для ЛТ, так и для системы анализа изображений геометрических фигур или для системы решения геометрических задач (например, при обучении школьников). Эта модель также достаточна для анализа и синтеза текстов на естественном языке, относящихся к данной области.
Рис. 1. Гиперграф фрагмента геометрической модели
На рисунке приняты следующие обозначения: отношения типа AKO обозначены как “вид”, отношения “вх_в_стр” как “входит в структуру”, “им_площ” – “имеет площадь”, “им_перим” – “имеет периметр”, “соприк_к.т.” – “соприкасается в концевой точке”, “им_длину” – “имеет длину”, “по_формуле” – “вычисляется по формуле”, понятие “прям_тре-к” обозначает “прямоугольный треугольник”, “равнобедр_тре-к” – “равнобедренный треугольник”, “равност_тре-к” – “равносторонний треугольник”, а F1, F2, F3 и F4 суть присоединенные процедуры, которые по соответствующим формулам вычисляют характеристики определенных фигур. Все остальные обозначения очевидны.
Если рассматривать задачу анализа текстов, то примерами этих текстов могут служить следующие группы предложений:
Найти площадь прямоугольного треугольника, высота которого равна 5 см, а катет – 10. | Дан прямоугольный треугольник с гипотенузой 15 см и катетом 7 см. Рассчитать его периметр. | Нарисовать прямоугольный треугольник АВС, сторона ав которого равна 16 см, а перпендикулярная ей сторона вс 33 см.
Список подобных текстов можно легко продолжить.
Заметим, что концептуальная модель содержит только обобщенную информацию об этих геометрических фигурах; конкретизация объектов осуществляется в процессе трансляции конкретных ЕЯ-предложений. Конкретизация может касаться имени треугольника, имен сторон, конкретных значений длин сторон и т.д.
В данном фрагменте заложена вся информация, которая необходима для представления знаний о подобных объектах: иерархия понятий, структуры объектов, взаимосвязи элементов в структуре, функциональные зависимости и т.д. Рисунок можно легко дополнить введением понятий других видов треугольников и структурами дополнительных объектов.
Такая модель достаточна для семантического анализа различных типов ЕЯ-предложений. Это, в частности, относится и к неполным предложениям. Наличие семантической эллиптичности транслируемого ЕЯ-текста определяется по невозможности отождествления "высказывания" в этой модели. Например, для ЕЯ-текста "Найти площадь." трансляция на язык модели даст понятие "площадь ?", которое может быть идентифицировано и с понятием "прям_тре-к", просто "треугольник", "равнобедр_тре-к" и т.д. Такая неопределенность идентификации и говорит о семантической неполноте текста. Для текста же типа "Задан прямоугольный треугольник с высотой 5 см и катетом 10 см. Найти площадь." неполноты для последнего предложения не существует, т.к. первое предложение задает понятие со структурой "прям_тре-к", а второе (рассмотренное в контексте первого) позволяет связать понятие "площадь ?" с понятием "прям_тре-к".
- Заключение
Как можно заметить, построение такого рода концептуальных моделей как для ЛТ, так и для других ИС связано с областью знаний, именуемой термином онтология. В энциклопедическом словаре онтология (от греч. on, род п. ontos – сущее и …логия) определяется как учение о бытии, в котором исследуются общие основы, принципы бытия, его структура и закономерности. Словарь Американского наследия (The American Heritage Dictionary) определяет онтологию как "ветвь метафизики, которая рассматривает природу бытия". Этот термин, недавно принятый сообществом ИИ, относится к множеству понятий или терминов, которые могут быть использованы для описания некоторой области знаний или для построения представления о них. Онтология может быть очень высокого уровня, состоящая из понятий, которые организуют верхние части базы знаний, или она может быть конкретно проблемной, например, онтология персонального компьютера. И хотя на сегодняшний день существует несколько различных определений онтологии применительно к искусственному интеллекту, тем не менее, можно согласиться, что онтология есть базовая структура или костяк, вокруг которой может быть построена база знаний ИС [2-5].
Цель создания онтологий – иметь библиотеки базовых структур моделей мира, из которых впоследствии можно "собирать" базы знаний для конкретной системы. Подход к построению концептуальных моделей в системах понимания ЕЯ-текстов, использование гиперграфового языка представления знаний, попытка унификации структур объектов и т.п. как раз и направлены на создание онтологий.
Литература
- Хахалин Г.К. Использование гиперграфов в лингвистической трансляции // Труды Международного семинара "Диалог'99" по компьютерной лингвистике и ее приложениям. М., 1999. Т. 2. С. 315-320.
- Нариньяни А.С. Кентавр по имени ТЕОН: тезаурус+онтология // Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. Аксаково, 2001. Т. 1. С. 184-188.
- Шаров С.А. О различии между онтологией языка и онтологией предметной области // Труды VI национальной конференции по Искусственному Интеллекту РАН - КИИ-98. Пущино, 1998. Т. 1. С. 41-48.
- Chandrasekaran B. and Josephson J. R. What Are Ontologies, and Why Do We Need Them? // IEEE Intelligent System and their Applications. 1999. Vol. 14, No 1 (Jun/Feb). P. 20-26.
- Swartout W. Ontologies // IEEE Intelligent System and their Applications. 1999. Vol. 14, No 1 (Jun/Feb). P. 18-19.
On the domain model for linguistic translator
Gennady Konstantinovich Khakhalin
Keywords: domain model, integral intelligence system, linguistic translator, ontology, hypergraph knowledge representation, conceptual model, NL-text understanding system
There are considered questions of building of domain model for integral intelligence system (IIS). The knowledge representation language is hypergraph language. This model type is general for any component of the IIS. Approach to the building of conceptual models in the NL-text understanding system, usage of the hypergraph language for the knowledge representation, attempt of the object structure unification etc. are directed on making of the ontology.