Дёмин В. А.
Приднестровский государственный университет им. Т. Г. Шевченко, г. Тирасполь
Re-Fine: средство интеллектуального анализа текстов
на основе методологии воссоздания объектов
Введение
Задача интеллектуального анализа текстовой информации широко известна и обладает большой актуальностью [1]. Глубокая взаимная связь аспектов определяется внутренней целостностью проблемы. Известные подходы к её решению строятся на основе статистических методов и методов машинного обучения, в том числе искусственных нейронных сетей. В данной статье описывается подход, основанный на новой в искусственном интеллекте парадигме воссоздания объектов [2].
Цель работы – показать применимость методологии воссоздания объектов для решения задачи интеллектуального анализа текстовой информации.
В качестве основы для реализации воссоздания используются однородные нейроподобные сети и метод параллельного обратного возбуждения [3].
Сущность парадигмы воссоздания объектов
Множество видов обработки информации в интеллектуальных системах объединяется в общей парадигме воссоздания объектов. Под воссозданием понимается получение целого объекта по его фрагменту, поступившему на вход системы, на основании ранее приобретённой модели универсума, которому принадлежит данный объект [2,4]. Парадигма воссоздания базируется на фундаментальной концепции универсума, интегрирующей произвольные структурированные объекты, системы и предметные области в целом. Центральной в парадигме воссоздания является возможность интерпретации или порождения нового объекта по общим законам на основании структурной модели, полученной в процессе обучения.
Наиболее простыми являются алгоритмы воссоздания объектов-множеств. С их помощью можно решать широкий класс задач, включающий задачу интеллектуального поиска информации. Для этих целей чрезвычайно удобным инструментом являются однородные нейроподобные сети.
Однородные нейроподобные сети
На рис.1 проиллюстрировано фундаментальное различие в функционировании классических искусственных нейронных сетей (ниже мы будем называть их для краткости ИНС) и однородных нейроподобных сетей (ОНС). Каков бы ни был алгоритм обучения ИНС, в процессе её работы сигналы распространяются только в прямом направлении, что не позволяет задействовать более широкие модельные ресурсы сети (рис.1а). Уже существуют иные модели, в которых для достижения качественно новых результатов используется передача сигналов в обратном направлении. Это так называемые сети ART (adaptive resonance theory) [5]. Лежащие в их основе идеи, по-видимому, чрезвычайно близки к истинным закономерностям обработки информации в естественных интеллектуальных системах. Однако, если основным назначением ART можно считать управление вниманием и избирательным восприятием наличнойинформации, то ОНС служат решению значительно более широкого класса задач и принципиально отличаются от сетей ART в аспекте формирования их топологии.
В работе ОНС имеется выделенный этап обучения. Последнее заключается не в формировании системы весовых коэффициентов при сохранении топологии, а в адаптивном формировании самой структуры сети; в этом (и только в этом) ОНС похожи на нейроподобные растущие сети [6]. С логической точки зрения ОНС осуществляет так называемое взаимное структурирование объектов моделируемого универсума [2]. Дальнейшая работа ОНС совершенно специфична. ОНС выполняют в общем виде универсальную операцию воссоздания объектов и являются как бы “вертикальной” диаграммой данного процесса.
В ОНС возбуждения нейроподобных элементов частично передаются в обратном направлении, благодаря чему в сети возникают слабо возбуждённые структуры, ассоциативно связанные с текущим входным объектом (рис.1б). В ходе работы ОНС область вовлечённых в обработку участков модели постоянно расширяется, но лишь по мере необходимости. Ассоциированные знания, извлечённые из участков модели, сопряжённых с непосредственно возбуждёнными от входного объекта, стимулируют поиск максимально связного результата. Критерий максимальной связности обеспечивает отбор наилучших частичных эталонов, элементы которых могут получить полное возбуждение после активации объединяющего их нейроподобного элемента.
Процесс передачи возбуждения в ОНС имеет сложный характер: с многократным отражением и предварительным привлечением информации с вышележащих структурных уровней. На каждом шаге работы ОНС происходит фильтрация частичных эталонов, выражающаяся в разрешении всех обнаруженных неоднозначностей по критерию максимальной связности результата. Все эти уникальные свойства однородных нейроподобных сетей позволяют применить их к задаче интеллектуального анализа текстовой информации. Ниже описывается реализация данного подхода в программном продукте Re-Fine, не использующем морфологической, синтаксической или эксплицитной семантической моделей, но способном при этом выполнять весьма специфические интеллектуальные функции.
Представление исходной информации
Исходный текст рассматривается как универсум, атомами в котором являются слова, сложными объектами – предложения, структура которых в аспекте совместности слов выявляется в процессе построения модели путём их взаимного структурирования [2].
Используя построенную модель, зафиксированную в структуре ОНС, программа Re-Fine решает следующие задачи:
· поиск наиболее релевантных объектов-предложений в ответ на запрос, дающий лишь частичное совпадение;
· отбор предложений, наиболее связанных друг с другом и основными темами текста— в ответ на краткий запрос, которому удовлетворяет слишком большое число предложений;
· автоматическое составление реферата по основным или избранным пользователем темам текста.
Вспомогательные функции программы, существенно повышающие наглядность и интерактивность взаимодействия с ней, включают:
· отображение иерархического дерева тем текста с указанием весов элементов;
· отображение списка тем, т.е. объектов нижнего уровня модели, – сочетаний слов, имеющих наибольшую корреляцию при условии максимального разнообразия их контекстов;
· адаптацию дерева и списка тем к текущему запросу пользователя с целью отображения скрытых ассоциаций с другими словами и связей с главными темами текста.
Для максимальной эффективности информационного поиска, программа имеет два основных оперативно настраиваемых параметра: охват тем (строгость отбора тем для реферата) иподробности (строгость фильтрации частичных эталонов на каждом структурном уровне модели). Внешний вид окна программы отображает её функциональность и модульное строение (рис.2).
Рис.2. Интерфейс программы Re-Fine |
Предобработка входного текста
Предобработка входного текста в программе Re-Fine состоит в исключении из рассмотрения слов, не привносящих полезной информации в модель и сведении различных форм слова к одному модельному объекту. Указанные операции имеют большое значение для эффективности последующего информационного поиска и носят самостоятельные названия stopwording иstemming соответственно [7].
Отбрасывание слов (stopwording)
Программой Re-Fine используется список игнорируемых слов, в который включены вспомогательные, служебные, вопросительные слова, личные и притяжательные местоимения, союзы, а также некоторые другие слова. Список может произвольно расширяться и модифицироваться пользователем (в том числе интерактивно). Размер исходного списка – около 200 слов для русского языка и около 100 для английского языка.
Усечение слов ("stemming")
Вместо морфологической модели используется сравнение усечённых слов по алгоритму, представленному на рис.3. Эксперименты показали, что предложенный алгоритм позволяет хорошо справляться с отождествлением и различением слов русского и английского языков при своей относительной простоте (в сравнении с полновесной морфологической моделью).
сравнить_слова( s1, s2 ) если Nmin £ 2 или (Nmin £ 3 и Nmax £ 3) то результат := (s1 = s2) иначе если Nmin=3 и Nmax=4 и английское_слово(s1) и английское_слово(s2) то результат := (smax[4] = 's' или smax[4] = 'y'); иначе если Nmin £ 3 то N = округл(Nmax × 75/100) иначе N = округл(Nmax × 70/100) конец если
если N > Nmin то результат := ложь иначе результат := (s1[1..N] = s2[1..N]) конец если конец процедуры
Рис.3. Алгоритм усечения слов, используемый в Re-Fine Nmin – длина более короткого слова, Nmax – длина более длинного слова, |
Обработка запросов к тексту
Запрос представляет собой множество атомов, которое пользователь рассматривает как набор ключевых слов или фраз, отражающих суть интересующей его информации. Благодаря использованию списка игнорируемых слов в Re-Fine допустим ввод запросов в форме фраз или предложений на естественном языке. При этом за счёт удаления игнорируемых слов, из введённого предложения выделяется искомое множество ключевых слов.
Все аспекты поиска информации сосредотачиваются в полученной модели. К исходному тексту обращение происходит лишь при отображении результата поиска. С этой целью каждому объекту верхнего уровня (т.е. модельному эквиваленту предложения) сопоставляется смещение соответствующего ему предложения во входном текстовом файле.
Модель универсума, полученная в ходе взаимного структурирования объектов–множеств слов, представляет собой более сложную структуру, чем одно- или двунаправленный индекс слов и потому допускает решение более сложных задач. В первую очередь, она фиксирует ассоциативные связи между словами и словосочетаниями, а также фактическую комбинаторную семантику составляющих текста, в том числе синонимию слов по их сочетаемости. Это позволяет при использовании соответствующих методов (в данном случае – метода параллельного обратного возбуждения) выполнять поиск наиболее релевантной информации в соответствии с введённым запросом и выявленными закономерностями обрабатываемого текста. Для запросов, которые целиком обнаруживаются во входном тексте, это позволяет извлечь лишь те предложения, которые более всего связаны с основными темами. Для запросов, которые не могут быть найдены полностью, обнаруживаемые частичные совпадения дополняются ассоциированной информацией из модели и отфильтровываются по максимальной взаимной связанности и по связанности с основными темами текста. Всю эту работу берёт на себя ОНС, управляемая методом параллельного обратного возбуждения. Работа с программой Re-Fine носит интерактивный характер: по завершении поиска дерево и список тем адаптируются к последнему запросу пользователя и наглядно отображают структуру той части текста, которая имеет отношение к данному запросу. Это позволяет сузить поиск или продолжить его в другом направлении, постепенно извлекая из текста интересующую информацию.
Автоматическое реферирование текста
В современных компьютерных приложениях под автоматическим реферированием (аннотированием) текста понимается извлечение наиболее значимых предложений, кратко передающих его основное содержание. Поскольку в Re-Fine не используется ни синтаксической, ни семантической модели, перестройка структуры предложений невозможна, и реферат, генерируемый Re-Fine, также состоит из отобранных целых предложений текста.
В отличие от других подходов к задаче реферирования, использование ОНС позволяет отказаться от дополнительных приёмов, заключающихся в оценке весов предложений в контексте модели и последовательной фильтрации предложений по данному критерию. Вся основная сложность обработки информации в Re-Fine сконцентрирована на этапе приобретения модели. Остальная обработка инициируется входным запросом и охватывает только релевантные фрагменты модели (или сети). Для генерации реферата в Re-Fine используется следующая основная идея. Реферат есть множество предложений, извлечённых в ответ на запрос, состоящий из наиболее значимых тем текста. Такая формулировка допускает эффективную реализацию именно потому, что в сети происходит многократная фильтрация всех промежуточных эталонов, и получаемый на выходе набор предложений обладает максимальной внутренней связностью согласно построенной модели. Таким образом, алгоритмы поиска информации остаются прежними, изменяется лишь состав запроса. Для того, чтобы сформировать запрос, обладающий необходимыми свойствами, используется следующий подход.
В качестве тем текста рассматриваются объекты первого уровня модели, т.е. объекты состоящие только из атомов-слов. Они соответствуют конечным, неделимым сочетаниям слов, полученным в ходе взаимного структурирования. Вес каждой из тем оценивается по числу вхождений соответствующего ей объекта модели в вышестоящие объекты. Другими словами, чем больше различных контекстов, в которых встречается данная тема, тем больше её вес. Такой выбор вполне обоснован: значимость темы определяется тем, как много разного о ней сообщается в тексте. Вхождения в одинаковые контексты поглощаются объектами старших уровней и не дают прироста веса.
Для построения реферата осуществляется извлечение всех объектов первого уровня модели, после чего полученное множество объектов X(1) фильтруется согласно критерию:
,
где r – число вхождений объекта, rmax – максимальное число вхождений, – строгость отбора тем для реферата (параметр настраиваемый пользователем).
Включённые в рассмотрение объекты первого уровня образуют множество S. Запрос q формируется из атомов, составляющих данные объекты:
.
Запрос q подаётся на вход основной процедуры поиска информации, и на выходе мы получаем отобранные предложения входного текста, составляющие искомый реферат.
Используя помимо параметра a параметр "строгость фильтрации эталонов" (стандартный параметр в ОНС), пользователь имеет возможность осуществить тонкую настройку тематического охвата и степени детализации реферата.
Программная реализация
Программа Re-Fine, реализующая описанные методы и алгоритмы, выполнена в виде приложения для платформы Win32; она обладает наглядным и простым интерфейсом; позволяет обрабатывать текстовые файлы в стандартном формате Windows, а также текстовые фрагменты, передаваемые через буфер обмена. Работа с программой имеет высокий уровень интерактивности, благодаря чему необходимая информация может быть найдена достаточно быстро.
Испытания программы
Программа Re-Fine испытывалась на разнородном текстовом материале и подтвердила работоспособность лежащих в её основе методов и алгоритмов. Комплексные исследования, в том числе многокритериальный сравнительный анализ, требуют больших ресурсов и участия пользователей-экспертов, без которых использование количественных мер, основанных на сопоставлении результатов работы программы с результатами ручной обработки текстовой информации, весьма проблематично. При наличии возможности постановки указанных экспериментов, их результаты будут опубликованы отдельно.
Заключение
В настоящей работе продемонстрирована применимость методологии воссоздания объектов с помощью однородных нейроподобных сетей и метода параллельного обратного возбуждения к задаче интеллектуального анализа текстовой информации. Описаны вспомогательные приёмы, методы и алгоритмы, позволяющие адаптировать указанную методологию к данной задаче. Перспективным направлением развития описанной методологии является разработка модуля интеллектуальной обработки запросов в системах поиска документов, что особенно актуально для World Wide Web [8]. Применение модуля, основанного на том же функциональном ядре, что и программа Re-Fine, позволит существенно повысить эффективность отбора наиболее релевантной информации, тем самым сокращая время и трудоёмкость поиска во “всемирной паутине”.
Литература
[1] Jurgen Koenemann and Nicholas J. Belkin. A Case for Interaction: A Study of Interactive Information Retrieval Behavior and Effectiveness // Proceedings of ACM CHI 96 Conference on Human Factors in Computing Systems, PAPERS: Interactive Information Retrieval, Vol. 1, pp. 205-212, 1996.
[2] Дёмин В.А. Парадигма воссоздания объектов. // Находится в работе в редакции журнала “Искусственный интеллект”. Планируется к публикации в №2, 2001.
[3] Дёмин В.А. Воссоздание объектов в однородных нейроподобных сетях: практическая модель интуиции. – 2001. // Предполагается к опубликованию в журнале “Искусственный интеллект” после выхода [2].
[4] Дёмин В.А. Концепция универсума в искусственном интеллекте. // Искусственный интеллект. – 2001. – №1. – С. 43–51.
[5] Стефен Гроссберг. Внимательный мозг. // Открытые системы. – 1997. – №4.
[6] Ященко В.А. Искусственный интеллект и нейронные сети. // Искусственный интеллект. – 2000. – №3. – С.379–390.
[7] Jason M. Whaley. An Application of Word Sense Disambiguation to Information Retrieval. – Technical Report, Dartmouth College, Computer Science, Number PCS-TR99-352, June 1999.
[8] Илан Гринберг, Ли Гарбер. Разработка новых технологий информационного поиска. // Открытые системы. – 1999. – №9-10. – C.28–30.