МОДЕЛИРОВАНИЕ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ ОБЪЕКТНОГО ПОДХОДА
Д. В. Чистов
Московский Государственный Институт стали и сплавов
(Технологический университет)
Н. В. Крапухина
Московский Государственный Институт стали и сплавов
(Технологический университет)
Г. Г. Меньшиков
Московский Государственный Институт стали и сплавов
(Технологический университет)
С. Ю. Кулехин
Московский Государственный Институт стали и сплавов
(Технологический университет)
Ключевые слова: системы обработки естественно-языковых текстов, диалог, реферирование, представление текста в виде объектно-ориентированной семантической сети, фреймы, опорные точки, анализ естественно-языковых текстов, синтез текстовой информации.
В работе представлено описание системы обработки естественно-языковых текстов, ориентированной на диалог и реферирование в основе которой, лежит представление текста в виде объектно-ориентированной семантической сети, генерируемой с использованием фреймов предложений на базе опорных точек
- Введение
Проблема автоматической обработки текста с каждым годом становится все острее из-за постоянно растущего объема текстовой информации. Целью работы является создание системы моделирования естественно-языковых текстов iSemNet, позволяющей осуществлять реферирование по произвольному тексту, а также вести диалог в обучающих системах.
В данной работе предлагается комплексный подход к решению задачи автоматической обработки и представления семантики текста сочетающий объектный подход и методы искусственного интеллекта. Основная идея состоит в опоре на извлечение имплицитной информации из текста. Существующая реализация позволяет работать с ограниченной предметной областью - повествовательным англоязычным текстом.
- Функциональная структура системы
При разработке функциональной схемы iSemNet были выделены следующие составляющие процесса обработки текстовой информации: анализ входящего текста, генерация семантической сети, синтез предложений по сгенерированной сети. В соответствии с этим система iSemNet функционально состоит из трех модулей – анализа, синтеза, представления и поддержки семантической сети. Динамическая подсистема базы знаний iSemNet относится не к какой-либо отдельной модели, а представляет собой интеграцию целого ряда способов представления знаний:
1) на уровне представления сущностей слов использована объектная модель
2) на уровне предложений используются две модели - смешанная модель деревьев синтаксического подчинения и фреймов.
3) на уровне текста - семантическая сеть.
- Объектный подход и многоуровневый анализ текстовой информации
Известными преимуществами ООП в области программирования являются структурированность, модульность и масштабируемость. Это легло в основу идеи реализации ООП применительно к анализу и обработке текстовой информации, позволило существенно упростить анализ, представление и синтез текстовой информации. В данной работе рассматривается особенности реализации ООП применительно к компьютерной лингвистике.
Создаваемая модель текста или объекта содержит не все признаки и свойства представляемого ею предмета (понятия), а только те, которые присутствуют в рассматриваемом тексте. Тем самым модель "беднее", а, следовательно, проще представляемого ею предмета (понятия). Но главное в том, что модель есть формальная конструкция: формальный характер моделей позволяет определить формальные зависимости между ними и формальные операции над ними. Это упрощает как разработку и изучение (анализ) моделей (текстов), так и их реализацию на компьютере. В частности, формальный характер моделей позволяет получить формальную модель рассматриваемого текста как композицию формальных моделей ее компонентов (субъектов, объектов, их отношений и свойств и др.).
Основными методами объектного подхода, использованными при построении системы, являются абстракция, инкапсуляция и полиморфизм.
Абстракция выделяет существенные характеристики некоторого объекта, отличающие его от всех других видов объектов и, таким образом, четко определяет его концептуальные границы с точки зрения наблюдателя. В качестве базового набора абстракций исследуемой предметной области были выбраны следующие элементы: слово, словосочетание, предложение, текст.
Инкапсуляция определяет четкие границы между различными абстракциями. Например, для понимания смысла конкретного текста необязательно знать точно число слов его составляющих, сколько в нем содержится букв и т.д.
В данной модели элементы базового набора абстракций включают в себя как соответствующие лингвистические конструкции, так и способы их анализа. Например, сущность «предложение» представляет собой совокупность следующих элементов:
- исходный текст конкретного предложения;
- методы анализа предложения;
- результаты анализа - набор слов, слово сочетаний, образующих функциональное дерево фразы (подсеть общей семантической сети текста).
Полиморфизм является ключевым свойством данной реализации семантической сети. Семантическая сеть реализует полиморфизм в двух плоскостях ( полиморфный полиморфизм):
- «горизонтальный» полиморфизм – в сети существуют объекты трех типов – «сущности», «связи», «свойства». В то же время все объекты сети равнозначны, например при поиске по сети. Также при необходимости возможна реализация мутации объектов одного типа в другой.
- «вертикальный» полиморфизм – каждый объект сети может содержать в себе подсеть, функционально равнозначную сети верхнего уровня. Принципиальных ограничений ни на глубину вложенности, ни на размеры вложенных сетей нет.
Полиморфность объектов сети позволяет с помощью нее описывать реальные тексты произвольного объема и сложности с неограниченной детализацией объектов.
- Описание модуля анализа текстовой информации
Ядром системы анализа является преставление модели анализируемого текста в виде семантической сети. Этим самым устраняется всякое влияние конкретного естественного языка, его отличительные особенности. Но перед тем как достигнуть уровня семантики текста необходимо осуществить его анализ на предыдущих уровнях – морфологическом, синтаксическом.
Поэтому в модуле анализа обработка текстовой информации осуществляется поэтапно:
- морфологический и синтаксический анализ;
- семантический анализ.
На первом этапе анализа, в каждом предложении происходит поиск и выделение служебных слов.
Например:
The letter was addressed to his wife and had an Australian stamp.
The<article> letter was<verb> addressed to his<pronoun> wife and<conjunction> had< verb> an<article> Australian stamp.
Далее происходит выявление синтаксической функции остальных слов в предложении. Основной задачей синтаксического анализа является отыскание в предложении его главных членов - сказуемого, субъекта и объекта. Собственно анализ начинается с поиска сказуемого, как центрального звена английского предложения, найдя которое можно определить структуру всего предложения в целом. Далее анализируются найденные комплексы субъекта и объекта – определяется их состав и структура связей между элементами. При этом учитываются как одноранговые отношения, так и отношения принадлежности одного элемента другому. Завершается первый этап анализа построением функционального дерева фразы.
Как было отмечено выше, синтаксический анализ идет с опорой на служебные слова и набор правил построения английского предложения. Это позволяет при минимальном наборе служебных слов (порядка ста) анализировать тексты с буквально неограниченной лексикой, ибо неизвестное слово в противоположность многим другим методам не является препятствием данному алгоритму.
Реализованный метод анализа текстовой информации впервые был предложен Л.В.Щербой, З.М.Цветковой, В.И.Ноткиной и развит В.В.Милашевичем, Е.П. Грединой.
Следующий этап анализа – семантический, результаты работы которого представляются в виде семантической сети. Она представляет собой ориентированный граф, вершины которого обозначают сущности (объекты), а ребра – отношения (связи) между ними. Имена вершин и ребер совпадают с именами соответствующих сущностей и отношений, используемыми в естественном языке. Ребро и две связываемые им вершины представляют основную конструкцию – факт наличия связи определенного типа между соответствующими объектами.
- Описание модуля синтеза осмысленной текстовой информации
Описанный выше анализ текстовой информации на базе ООП позволил создать более эффективную основу для синтеза текстовой информации – реферирования произвольных текстов и ведение диалога с компьютером.
Целью модуля синтеза текстовой информации является общение с пользователем на естественном языке по произвольному тексту. Основными применением модуля синтеза является генерация рефератов и ведение диалога с пользователем.
Процесс синтеза состоит из двух этапов:
- локализация объектов в семантической сети на основе анализа, поступившей от пользователя, информации;
- генерация текстовой информации.
Семантическая сеть генерируется модулем анализа, описанным выше.
При составлении реферата пользователь явно указывает объекты семантической сети, по которым он желает получить реферат, пользуясь графическим интерфейсом системы.
При ведении диалога пользователь общается с системой на естественном языке. Поэтому в этом случае модуль синтеза самостоятельно определяет конкретный предмет диалога – объект семантической сети. В этом случае локализация объектов ведется средствами модуля анализа.
Генерация текстовой информации происходит по следующему алгоритму. На основе фрейма поступившего от пользователя предложения определяется фрейм генерируемого предложения. Далее, исходя из структуры найденного фрейма и информации о локализованных (главных) объектах, фиксируются дополнительные объекты семантической сети и их свойства, необходимые для генерации предложения на базе заданного фрейма.
На последнем этапе, после заполнения всех необходимых слотов фрейма, осуществляется морфологический синтез словоформ.
- Практические результаты работы
На базе разработанных методов созданы интеллектуальные модули анализа, представления и синтеза текстовой информации на естественном языке, объединенные в систему iSemNet, которые можно применять для:
- автоматической генерации модели изучаемого текста;
- синтеза текстовой информации по полученной модели (диалог);
- различных видов реферирования текстов;
- автоматизации перевода текстов с одного ЕЯ на другой;