Лингвистические оболочки: конструктивный подход к развитию технологии управления знаниями[1]
Козеренко Е.Б.
kozerenko@mail.ru
- Содержание понятия "лингвистическая оболочка".
В данной работе представлен возможный конструктивный подход к построению лингвистического обеспечения прикладных систем управления знаниями.
В процессе построения прикладных систем (концептуально- лингвистических оболочек и систем "под ключ") в конкретных проблемных областях средством реализации послужила инструментальная среда ДИЕС.
При вводе знаний в среде ДИЕС совмещаются этапы построения понятийной модели предметной области (ПО) и ее лингвистического образа. Общая "модель мира" системы служит основой для моделей ПО. Концептуальной основой этой модели является базовый тезаурус понятий (выражаемых именами и именными группами), который формировался в процессе экспериментальных разработок для различных прикладных областей с учетом существующих систем классификаций понятий и семантических падежей [1, 6-8].
На основе этой общей модели конструируются концептуальные модели и словари предметных областей. При этом модель предметной области представляется в виде структуры поддеревьев общей модели. Этот процесс носит характер полуавтоматического "сканирования текста", когда система при считывании очередного предложения метит различным цветом незнакомые слова и слова, вызывающие у нее неоднозначную интерпретацию. В первом случае запрашивается полная лингвистическая информация о слове, которую пользователь (в данном случае лингвист-аналитик) должен ввести в систему. Это информация следующего характера: следует указать неизменяемую часть слова, затем отнести это слово к одному из базовых элементов семантической классификации, далее уточнить, к какому семантическому классу относится это слово (для понятий/имен), либо задать семантико-синтаксические падежи (для слов-отношений и действий), на последнем этапе вводятся словоизменительные флексии для этого слова.
При построении семантической модели слова учитывается его многозначность. Смысл слова рассматривается как множество возможных значений, каждое из которых или совокупность которых реализуется в определенном контексте.
Итак, под лингвистической оболочкой мы будем понимать определенным образом организованную систему понятий, структура которой отражена в иерархически-сетевом идеографическом словаре (тезаурусе) данной предметной области. В такой оболочке реализуются два типа отношений: родо-видовые отношения, что обеспечивает механизм наследования свойств (от общего - к частному) и ассоциативные отношения, которые позволяют зафиксировать просто факт наличия некоторой связи между лексемами (или лексическими группами, выражающими одно понятие), без уточнения типа этой связи.
Существуют несколько конфигураций ДИЕС. Новейшей из них является конфигурация, обеспечивающая чтение сплошного естественно-языкового текста с полным или частичным пониманием. Ограничение рамками определенной предметной области повышает степень достоверности семантической модели и снимает в значительной мере проблему полисемии, поскольку интерпретация высказываний на ограниченном множестве понятий предметной области, как правило, однозначна.
Во внутреннем мире системы лингвистические знания и содержательные (т.е. как бы "собственно смысл высказывания") разграничены и находятся в разных словарях. Смысл является инвариантным по отношению к какому бы то ни было языку и "облекается" в формы естественного языка при генерации ответов.
В последней версии ДИЕС реализованы средства актуализации ассоциативных связей понятий через текст, что дает возможность строить прикладные системы, базирующиеся на текстовых знаниях, доступ к которым возможен по естественно-языковым запросам в произвольной форме.
Опыт, накопленный в результате прикладных разработок на базе ДИЕС, позволяет утверждать, что предлагаемые средства могут быть использованы для ввода на ограниченном естественном языке фактической информации и правил для различных консультационных и диагностических систем, например:
- пресс-релизов по научно-технической политике;
- экспертных знаний в области социально-политического прогнозирования;
- коммерческих знаний (информационное обеспечение деятельности биржи: виды акций и ценных бумаг, правила биржевой игры, и т.д.);
- таможенных правил (разрешенные и запрещенные к вывозу предметы, правила таможенного оформления) и подобной информации.
2. Примеры конкретных разработок проблемно- ориентированных оболочек и прикладных систем.
На базе инструментальной системы ДИЕС разработана экспериментальная база знаний текстовых прогнозов изменений в социальной сфере в рамках фундаментальной темы "Семантический анализ вербальных экспертных оценок для повышения качества экспертизы прогнозирования ожидаемых и желательных изменений в социальной сфере". Ее главной особенностью является ввод и частично вывод текстовой информации на естественном языке (ЕЯ), т.е. ответы ЭВМ в текстовой форме на вопросы, поставленные экспертом или лицом, принимающим решение.
Программная реализация этой базы основывается на семантическом анализе вербальных экспертных оценок и использует проблемный идеографический словарь по социально-политической тематике, составленный на основе анализа реальных текстов экспертных прогнозов. На Рис. 1 приводится фрагмент тезауруса текстового прогноза политического развития России, представленный в БНФ-нотации.
РАЗВИТИЕ ОТНОШЕНИЙ В ПОЛИТИЧЕСКОМ ПРОСТРАНСТВЕ СССР ::=
СЦЕНАРИИ РАЗВИТИЯ РОССИИ ¦ РАЗВИТИЕ
ОТНОШЕНИЙ С БЫВШИМИ СОЮЗНЫМИ РЕСПУБЛИКАМИ
СЦЕНАРИИ РАЗВИТИЯ РОССИИ ::= ДЕЗИНТЕГРАЦИОННЫЙ СЦЕНАРИЙ ¦
ИНТЕГРАЦИОННЫЙ СЦЕНАРИЙ ¦ КРАЙНИЕ
ВАРИАНТЫ РАЗВИТИЯ
ДЕЗИНТЕГРАЦИОННЫЙ СЦЕНАРИЙ ::= ФАКТОРЫ ДЕЗИНТЕГРАЦИИ ¦
ТЕНДЕНЦИИ К ДЕЗИНТЕГРАЦИИ
ФАКТОРЫ ДЕЗИНТЕГРАЦИИ ::= СТЕПЕНЬ ДЕЗИНТЕГРАЦИИ ¦ ФОРМЫ
ОТНОШЕНИЙ
Рис. 1. Фрагмент тезауруса, построенного на основе текста прогноза политического развития России.
Создание экспериментального образца базы текстовых прогнозов на ПЭВМ типа IBM/PC с его настройкой на конкретную предметную область, связанную с прогнозированием социально-экономического и научно-технического развития, обеспечивается в удобных для пользователя формах конструирования ЕЯ-интерфейса. Система обработки знаний организует работу пользователя с документами и обеспечивает:
1) ввод документов в произвольной текстовой форме в базу знаний системы,
2) хранение документов в виде взаимосвязанных файлов базы знаний;
3) поиск содержательной информации и текстовых фрагментов, относящихся к заданному пользователем проблемному вопросу и отображение этой информации на экране;
4) автоматическое занесение ключевых понятий данной проблематики в систему концептуальных "деревьев" (отображаемых на дисплее графов понятий, в нашем случае дерево имеет элементы сетевой модели);
5) навигацию по базе знаний - т.е. по системе концептуальных деревьев с возможностью перехода к различным объектам и фактографической информации, связанным с данным понятием.
Ввод прогнозной информации в базу знаний производится посредством считывания системой различных документов представленных в виде файлов, содержащих естественно-языковые тексты произвольной формы. Процесс чтения происходит в полуавтоматическом режиме: в этот период "первоначального накопления" информации необходимо участие человека - инженера по знаниям (или инженера-лингвиста), который пополняет словарь системы новыми терминами, контролирует правильность понимания системой вводимых текстов, корректирует лингвистические и содержательные знания в случае их неправильного понимания системой.
Процесс формирования тезауруса может происходить как "сверху - вниз", т.е. инженер-лингвист вначале проводит предварительную концептуализацию данного текстового материала, выделяя ключевые понятия устанавливая их строгую иерархию и определяя отношения между этими понятиями, так и динамически - т.е. в процессе чтения системой текста. Второй способ поддерживается удобными системными средствами, позволяющими переносить, копировать и удалять фрагменты базы знаний, представленные в виде концептуальных деревьев. Получаемый тезаурус может подвергаться различным модификациям в процессе дальнейшей работы с текстами данной тематики и это не повлечет за собой никаких глобальных изменений всей базы знаний.
Когда база знаний заполнена текстовой прогнозной информацией - с ней может работать эксперт - непрограммист, пользуясь различными режимами диалога: от навигации по базе знаний и получения сквозных маршрутов по интересующему его аспекту знаний (здесь используются элементы гипертекстовой технологии), до ответа на вопросы.
В основу функционирования обработчика естественно- языковых запросов положен прагматический подход. Отличительная особенность прагматического подхода к анализу естественного языка состоит в следующем: вместо анализа ЕЯ-текста по полной схеме анализировать текст только в той степени, которая необходима, чтобы получить адекватную реакцию системы. Под адекватной реакцией системы понимается способность проинтерпретировать ЕЯ-запрос в терминах представления знаний пользователя и запустить процедуры извлечения информации из базы знаний системы.
Система ДИЕС поддерживает несколько уровней понимания, которые различаются по возможности выявления семантических структур, что определяется введенной лингвистической информацией (знаниями о словах, языке):
- понимание на базе ключевых слов;
- фрагментарное понимание на уровне словосочетаний;
- детальное понимание.
Следует отметить, что ДИЕС обладает существенными ограничениями в плане выявления информации, дающейся по умолчанию (в словосочетаниях, безглагольных формах), восстановления ситуационных и логических связей между предложениями и др. В связи с этим здесь не ставится задача извлечения всей семантической информации из реальных текстов.
Понимание на базе ключевых слов (1-й режим) удобно в тех случаях, когда имеется постоянно возобновляемый массив текстовой информации (например, по банковской, коммерческой, юридической тематике) и в текущий момент пользователю необходимы сведения только об отдельных объектах (клиринговых центрах, региональных банках, корреспондентских счетах,...). Тогда не нужно глубокого понимания всего большого массива текстов по данной тематике. Достаточно указания интересующих пользователя объектов, для чего необходимо ввести в систему соответствующие понятия и включить режим чтения текста. Необходимые ссылки будут строиться автоматически а рамках формируемых структур БЗ.
Фрагментарный уровень понимания (2-й режим) может быть полезным в случае, когда, например, пользователя интересуют некоторые специальные операции (например, банковские), которые выражаются с помощью определенных глагольных форм. Тогда нужно ввести эти формы и включить чтение текста. В результате текст будет введен в БЗ, где в режиме навигации по знаниям можно просматривать знания по нужной тематике, какие операции их связывают, переходить от одного объекта к другому и т.д.
Детальное понимание (3-й режим) необходимо, когда в качестве отправной точки поиска и просмотра может быть любая информация, имеющаяся в текте. Следует только отметить, что для этого требуется кропотливая работа по конструированию языка с его приближением к ЕЯ.
При чтении текста система автоматически строит смысловые связи и позволяет обеспечивать усовершенствованную технологию построения и ведения баз знаний.
Пользователь
Системы |
баз -------> База знаний <------- ЕЯ тексты
данных-------> ДИЕС <------- (статьи,
-------> <------- документы)
Рис. 2. Технологическая схема работы ДИЕС.
Из схемы, приведенной на Рис. 2, видно, что база знаний (БЗ) системы ДИЕС служит своего рода посредником (как, например, в СУБД имеется язык-посредник): из текстового представления информация отображается на объекты базы знаний, и наоборот, - объекты базы знаний (БЗ) могут быть представлены в текстовом виде.
При этом БЗ разделяется на две части: оперативную (в нее подкачиваются те знания, которые небходимы в текущий момент) и долговременную, называемую "словарем" (она находится на винчестере и ее объем определяется только размером винчестера). Вводимая информация накапливается в оперативной части. Но для последующего использования ее необходимо запомнить в словаре.
Чтобы обеспечить подобные возможности, проводились дополнительные исследования (и разработка соответствующих программных блоков) в следующих направлениях:
- средства синтаксического разбора предложений и их семантического анализа при наличии новых слов и конструкций;
- принципы понимания неправильно построенных, но осмысленных предложений;
- средства управления морфологическим, синтаксическим и семантическим анализом, их расширения для обеспечения такого понимания.
- организация различных видов уточняющих диалогов.
В процессе синтактико-семантического анализа осуществляются проверки слов на соответствие глагольным формам - по падежам, семантическим классам и др. С помощью меню производится отключение таких проверок, что позволяет системе уменьшить количество "потерь" (расширить число понимаемых предложений), но увеличивает количество "шумов" (число не правильно понятых предложений, т.е. с ошибками построенных семантических структур в БЗ).
В качестве первого реального двуязычного приложения была разработана прикладная система, где на естественном языке (русском и английском) описывалась структура отделов ИПИРАН и содержательные задачи, которыми занимается каждый отдел.
В этой системе были синхронно (на русском и английском языках) представлены знания, доступ к которым можно было получить по вопросам, задававшимся на одном из этих языков.
В этих примерах использовалось достаточно простое подмножество естественного языка. Для работы с более сложными текстами и извлечения из них концептуальной информации необходимо было развивать модель языка во всех ее аспектах и, прежде всего, в семантическом.
3. Конструктивный подход к развитию технологии управления знаниями в многоязычной среде.
В качестве исходного материала для сопоставительного исследования были использованы три европейских языка: русский, английский, итальянский. Целью анализа было выявление смысловых структур, инвариантных для указанных языков, и систематическое описание средств выражения этого смысла на поверхностном уровне.
Основное внимание было сосредоточено на предложении как основной единице членения речи, являющейся структурной макроединицей смысла и разложимой на составные части. Как глубинная единица смысла предложение разлагается на модальность и пропозицию. Как единица речи - на члены предложения. Для выражения семантико-синтаксических отношений в предложении предлагается новая гибридная модель, использующая элементы реляционной грамматики в сочетании с падежной грамматикой, облегчающая логико-алгоритмический этап моделирования. При этом наше представление релевантно для основных европейских языков, что определяется практическими задачами.
Наличие иноязычных вариантов представления знаний, содержащихся в БЗ и полнотекстовых БД повышает информационные возможности системы: пользователь сможет задавать вопросы и получать ответ на любом из включенных языков. На основании такой многоязычной БЗ может работать информационная система, которая выдает потребителю ответы в виде текстовых фрагментов (фактов) на нужном ему языке.
Именно построение такого рода системы и является в настоящий момент направлением концептуально- лингвистического моделирования в РСС-системах. Разрабатываемая система сочетает в себе все ранее описанные возможности и новые черты, которые можно условно назвать "семантической прошивкой текста". Здесь имеется ввиду предварительная работа в следующих направлениях:
- по составлению многоязычных семантически- ориентированных словарей, имеющих модульную структуру: для каждой проблемной области - свой словарь-тезаурус, все эти словари могут подключаться к общей части (к "базовой модели мира"); такой предметно-ориентированный подход позволит в значительной мере снять проблемы неоднозначности слов;
- каждое понятие (класс или элемент класса концептуального дерева) в автоматизированном режиме связан посредством ссылочных механизмов с текстовыми фактами (в естественно-языковых массивах полнотекстовых БЗ и БД), что обеспечит доступ по запросу с любого из поддерживаемых языков к необходимой информации.
Особое внимание уделяется изучению лексической семантики. "Языки имеют тенденцию структурировать реальный мир, трактуя как существенные одни различия и игнорируя другие" [2]. Язык может рассматриваться как фактор, детерминирующий восприятие действительности [3-5].
Как и в случае других языковых уровней, проводится сопоставительное изучение лексиконов различных языков с предварительным выбором различных семантических областей (или полей) для ограничения объема контрастивного анализа. Лексикон рассматривается как система подсистем [6-8]. Эти подсистемы - лексические поля. Таким образом, принимается полисистемный взгляд на лексику.
Семантическая однородность и максимальная общность семантических компонентов должны обнаруживаться внутри семантических полей (т.е. фреймы, ситуации). Возможность межъязыкового перефразирования гарантирует осуществимость перевода даже в случаях "лексической дыры" в одном из языков.
Еще одним важным фактором, который необходимо учитывать при разработке методов анализа ЕЯ является настоятельная необходимость учитывать не только чисто лингвистические реалии (как это имеет место в большинстве реализованных моделей), но и те познавательные структуры, в которых основным является выделение отношений между элементами реальной действительности [9]. Способность пользоваться знаниями о мире при понимании требует наличия крупных понятийных структур, которые могут в нужный момент поставлять необходимые контекстные знания по нисходящему принципу ("сверху вниз"). Для нас такими понятийными структурами будут служить "текстовые фрагменты", являющиеся своеобразными "единицами знаний", которые позволяют распознавать и однозначно интерпретировать значения слов, актуализируемые в данном контексте. Понимание ЕЯ-текста - это воссоздание реальной ситуации действительности, о которой говорит текст.
4. Заключение
Прикладные системы, разработанные с использованием методики КЛМ, могут быть двух видов:
- лингвистические оболочки, являющиеся открытыми системами;
- закрытые системы, которые поддерживают только информационные функции и не обеспечивают расширения.
Системы обоих видов базируются на иерархически-сетевых идеографических словарях конкретных предметных областей.
На основе инструментальной интеллектуальной среды ДИЕС и языка ДЕКЛ разработана экспериментальная база знаний в области социально-политического прогнозирования. В качестве основы концептуально-лингвистической модели был построен тезаурус текстов политологических прогнозов. В настоящий момент ведутся работы по созданию специализированной многоязычной системы (на основе русского, английского и итальянского языков) управления текстовыми знаниями в области социально-политического прогнозирования и мониторинга.
Разработана двуязычная база знаний по административной организации научного учреждения, а также база знаний на основе текстов пресс-релизов по научно-технической политике.
Подход, основанный на РСС, позволяет отражать произвольный уровень вложенности структур за счет пропозициональных вершин семантической сети, что позволяет реализовать лексикон как систему подсистем.
Развитие средств, обеспечивающих унифицированную обработку текстовой информации на разных языках служит основой технологии управления знаниями в многоязычной среде.
Литература
Haas S.W. , D.P. Metzler. The flexibility of case grammar representations: a porting procedure for natural langu-age interfaces // International Journal of Man-Machine Studies. 1989. Vol.31. N 5. P.535-556.
Leech G. Semantics. Harmondsworth (Middl.): Penguin books, 1974, p. 232.
Кибрик А.Е. Предикатно-аргументные отношения в семантически эргативных языках. Известия ОЛЯ, 1980, No 4.
Апресян Ю.Д. Лексическая семантика. Синонимические средства языка. -М.: Наука, 1974.
Богуславский И.М. Исследования по синтаксической семантике. М., 1985.
Кузнецов И.П. Семантические представления. М. "Наука", 1986 г. - 290с.
Козеренко Е.Б. О подходе к выявлению универсальных семантических категорий и способов их выражения в различных языковых системах (на материале английского русского и итальянского языков). В Сб. "Системы и средства информатики", вып. 5. М.: Наука, 1993, с.53-61.
Козеренко Е.Б. Концептуально - лингвистическое моделирование в среде интеллектуального редактора знаний ИКС. В сб. "Проблемы проектирования и использования баз знаний."
Ин-т кибернетики им. В.М. Глушкова, Киев, 1992, с.73-79.
Talmy, L. Semantic Lexicalization Patterns. In T. Shopen, (ed.). Language Typology and Syntactic Description. Cambridge, UK, 1985.
[1] Работа выполнени при поддержке РФФИ. Грант № 00-06-80069