Визуализация смысла сложных для восприятия фрагментов текста
Мальковский М.Г., Осин А.И.
Факультет вычислительной математики и кибернетики МГУ
им. М.В.Ломоносова
Несколько лет назад по заказу ряда коммерческих фирм был начат проект, призванный облегчить ознакомление с унифицированными правилами для документарных аккредитивов, разработанными Международной торговой палатой. Стандарт этот представляет собой набор правил, являющихся обязательными для всех заинтересованных сторон, если в аккредитиве не оговорено иное. Однако вследствие стремления создателей "Унифицированных правил" быть прежде всего предельно точными, данный стандарт труден для восприятия.
После подробного изучения предметной области исходный текст был преобразован к более легкому для восприятия виду с использованием гипертекстовых возможностей, предоставляемых современными технологиями. В результате была создана компьютерная программа, с помощью которой даже неспециалист мог достаточно легко разобраться в самых сложных и запутанных предложениях. При этом преобразовании была соблюдена полная идентичность семантического смысла оригинала и переработанного текста. Самое серьезное внимание уделялось тому, что даже незначительное изменение текста официальных нормативных документов (законодательных актов), на первый взгляд не меняющее их общего смысла, может повлечь за собой серьезные последствия. Именно поэтому все преобразования исходного текста было решено сделать взаимообратными, что, безусловно, уменьшило возможность неправильной интерпретации.
В процессе реализации данного проекта были выработаны определенные приемы и графические примитивы, которые и позволяли преобразовать исходный текст к гипертекстовому виду. Тем не менее, все преобразования и операции над текстом производились вручную (экспертом).
Хорошо известен другой подход к решению проблемы неудобных для восприятия фрагментов текста. Он заключается в непосредственном преобразовании: "плохой текст" – "хороший текст" (Controlled Languages [1]). Такой подход требует глубокого анализа текста, кропотливого отбора более легких для восприятия конструкций и слов или же вынужденного сужения класса обрабатываемых предложений. А именно в нормативных документах процент сложных для восприятия фрагментов текста особенно велик. В то же время преобразования "плохой текст" - "хороший гипертекст" избавлены от многих из указанных недостатков и сложностей. Применение гипертекстовых технологий делает возможным преобразование многих официальных документов к более удобному для восприятия виду.
Анализ и систематизация приемов работы экспертов с текстами нормативных документов позволяют надеяться, что часть текстовых преобразований удастся автоматизировать.
Предлагаемый авторами доклада проект "Автоматического визуализатора смысла сложных для восприятия фрагментов текста" опирается на опыт работы над экспериментальной системой комплексного контроля качества научно- технических (русскоязычных) текстов ЛИНАР [2, 3]. Доступность словарей и исполнительных модулей этой системы, а также ее гибкость позволяют приступить к экспериментам по реализации "Автоматического визуализатора", не задерживаясь на проблемах, непосредственно не связанных с данной задачей.
Основной сценарий использования ЛИНАР предполагал, что пользователем системы является человек, оценивающий с ее помощью грамматическую и содержательную правильность и понятность некоторого текста с позиций лиц, которым этот текст адресован (потенциальных читателей), и вносящий в текст необходимые исправления.
Можно сказать, что пользователь системы ЛИНАР (реализуя схему "плохой текст" - "хороший текст") работал в рамках теории трансформаций и синтеза предложений. Ключевым пунктом этой теории является учение о лексико-грамматических преобразованиях, основанное на лексических и синтаксических правилах перефразирования. Классическая задача трансформации заключается в преобразовании предложений с учетом наложенных правил и условий.
Задача, рассматриваемая нами, расширяет класс преобразований за счет возможности представления результата трансформации предложения не только в текстовом, но и в графическом виде. Использование таких преобразований позволяет получить наиболее наглядное отображение смыслового содержания исходного предложения. При этом применяются различные средства визуализации.
Например:
могут быть отзывными
АККРЕДИТИВЫ
должны ясно указывать являются ли они безотзывными
В противном случае аккредитив будет считаться безотзывным
Вместе с расширением класса преобразований возникает задача представления. Действительно, к одному и тому же текстовому фрагменту, подлежащему преобразованию, могут быть приложены различные приёмы визуализации. В зависимости от сложности текста и характера работы с ним по схеме "плохой текст" - "хороший гипертекст" должны быть реализованы широкий класс средств поддержки визуализации и адекватный интерфейс. Причем пользователь "Автоматического визуализатора" должен по необходимости определять и контролировать применение конкретных приёмов (выбор графических примитивов, шрифта, цвета и др.).
Разумеется, пользователь (как и в случае системы ЛИНАР) должен предварительно принять решение о том, над какими фрагментами текста должны быть реально проведены преобразования.
В ряде случаев принятие такого решения требует детального анализа контекста и даже знания предметной области. Так, предложения с омонимией сложны для восприятия, ибо допускают несколько интерпретаций, разрешить которые возможно либо прибегая к контексту рассматриваемого фрагмента, либо исходя из внешних причин (личного опыта человека).
Рассмотрим здесь приемы визуализации, применимые для трех типов омонимии: разметочной, стрелочной и конституентной [4].
Разметочная омонимия возникает за счет неоднозначности меток при синтаксических группах и/или при дугах, изображающих отношение подчинения в ССГ. В общем случае более наглядное отображение омонимии может достигаться только за счет непосредственного указания дополнительной информации при метках. Например, в омонимии с падежной и падежно-числовой омонимии без "омонимии типов стрелок":
Негоциации банк-эммитент при рембуксировании не использовал.
При стрелочной омонимии возможно более широкое применение средств визуализации. В общем случае такая омонимия может быть представлена с помощью вывода подчиненной синтаксической группы из предложения в отдельную строку. Например:
Исходное предложение:
"Простые проверки документов без оплаты их стоимости не означают негоциацию".
Варианты представления:
1) Простые проверки документов не означают негоциацию.
без оплаты их стоимости
2) Простые проверки документов не означают негоциацию.
без оплаты их стоимости
Замечание. В случаях стрелочной омонимии, когда нет перемены направления отношения подчинения возможно более компактное отображение омонимии:
тщательно
Представители сторон проверяют подготовленную документацию.
Пример представления предложения при конституентной омонимии:
Исходное предложение:
" Банк-эмитент обязуется произвести платёж в 50 млн. долларов Первому и Второму бенефициарам”.
Предлагаемые варианты:
1 вариант)
Банк-эмитент обязуется произвести платёж в 50 млн. долларов
Первому бенефициару
Второму бенефициару
2 вариант)
Банк-эмитент обязуется произвести платёж
в 50 млн. долларов Первому бенефициару
в 50 млн. долларов Второму бенефициару
Рассматриваемая нами система извлечения и визуализации смысла текста должна содержать два тесно связанных между собой блока. Первый – это блок анализа структуры предложения. Он выделяет смысловые группы в предложении и анализирует связи между ними. После чего на основе полученных результатов строит граф подчинения для каждого предложения анализируемого текста. Второй – блок анализа структуры текста. Целью его работы является создание графа связей предложений текста. При этом используется построенные первым блоком системы графы подчинения. Для визуализации смысла предложения может быть недостаточно информации, заключенной в графе связей предложения. В этом случае может оказаться полезной информация, заключенная в графе связей предложений текста. Поэтому средства визуализации смысла предложения должны также отображать соответствующим образом связь его фрагментов (или всего предложения) с текстом в целом.
Итак, для получения наглядного отображения смыслового содержания исходного текста необходимы:
1) средства синтаксического и семантического разбора;
2) средства фиксирования омонимии и поиска сложных для восприятия фрагментов предложений;
3) средства визуализации трактовок, преобразующие предложения к удобному для восприятия виду с использованием графических примитивов при помощи языка визуализации трактовок.
Заметим, что зачастую мы можем предсказать сложность того или иного предложения текста уже на этапе поверхностного анализа. Например, предложения, в которых наблюдается обилие запятых или большое количество слов, могут считаться трудными для восприятия. Потому этап предварительного поиска потенциально сложных для восприятия фрагментов может предшествовать детальному синтактико-семантическому анализу.
На первых этапах синтаксического анализа предложения выделяются связные группы слов (лексем), выполняющих ту или иную единую синтаксическую функцию. Само понятие "единой синтаксической функции", а, следовательно, и понятие связной группы слов носят интуитивный характер. Некоторые группы слов можно выделить в связные группы всегда. Другие можно выделить в связные группы только при выполнении определенных контекстных условий. Определение критериев и корректное выделение таких смысловых групп в предложении является необходимым условием для дальнейших преобразований текста. После этого системой строится граф подчинения предложения, заданный во множестве связных групп слов предложения. При создании такого графа особое внимание уделяется анализу характера синтаксических связей между выделенными смысловыми группами слов в предложении. Так как характер связей лексем в этих группах не имеет какого-либо большого значения для дальнейшего анализа, то его детальное исследование не проводится.
Для извлечения смысла предложения и последующего его корректного преобразования рассматривается синтаксис глубинных зависимостей, которые находятся в отношении многозначного соответствия с категориями поверхностного синтаксиса. При переходе от более поверхностных уровней представления предложения к более глубинным происходит два процесса: отвлечение от конкретной формы выражения данного значения и различие смыслов, соответствующих одной и той же форме. Таким образом "Автоматический визуализатор" использует несколько уровней анализа, начиная с поверхностного синтаксического на одном полюсе до использования модели предметной области на другом.
Если на последующих этапах анализа текста будут выявлены важные дополнительные связи какого-либо предложения с другими, то они будут дополнительно отражены и в графе подчинения предложения. Тогда можно считать, что после этого граф подчинения содержит всю необходимую для дальнейшего анализа информацию.
Именно на основе информации графа подчинения решается, какие из имеющихся в наличии средств визуализации будут применены для трансформации предложения. В формальном представлении эта задача может быть описана следующим образом:
Пусть П – конечное линейно упорядоченное множество связных групп предложения. Граф подчинения предложения: ( X; ® ) , где X – некоторое множество непустых подмножеств П. Пусть Z – множество графических примитивов.
f : X1 Ä…Ä Xn ® Y, - функционал преобразования, приводящий фрагменты x1 Î X, … , xn Î X к виду y Î Y без потери совокупности выражаемых фрагментами смыслов. Где Y – множество элементов (x’1 Î X, … , x’k Î X, z’1 Î Z, … , z’m Î Z) всех наиболее наглядных отображений смыслового содержания, хранящегося в X. и x1, …, xk, x’1, …, x’k ¹ 0, x’1 Î X, … , x’k Î X. Пусть F – конечное линейно упорядоченное множество функционалов преобразования.
Таким образом, задача визуализации смыслового содержания текста сводится к двум подзадачам:
1) определение множества F;
2) поиск критериев нахождения для каждого (x1, …, xk) соответствующего ему функционала f Î F.
Заметим, что одной глубинной зависимости могут соответствовать различные синтаксические категории поверхностного синтаксиса и обратно. Очевидно, решение можно искать на пути толкования семантически сложных конструкций, то есть конструкций со сложной и неявной связью между формой и смыслом, через более простые. А именно, смысл синтаксических конструкций должен описываться правилами их толкования. Правилами, которые позволят элиминировать из текста данную конструкцию, заменив ее другой, с более эксплицитной связью между формой и смыслом, то есть ее толкованием.
С формальной точки зрения эти требования означают, что модель должна представлять собою граф, узлами которого являются какие-то подмножества множества X, а ребрами какие-то подмножества (®). Причем некоторым ребрам и вершинам их соединяющим будут поставлены в соответствие элементы множества Z.
Но не всякий такой граф может служить моделью структуры предложения. На топологию графа и на взаимное расположение его дуг и узлов должны быть наложены некоторые разумные ограничения. Иначе модель мало что скажет нам об устройстве предложения. Выбор таких ограничений и есть главная, наиболее трудная задача при построении формального аппарата для описания строения предложения.
Определим основные аксиомы:
1) Пусть E1, E2 Î X. Если E1 ® E2, то существует E Î X: E1 Í E, E2 Í E и не существует E3 такой, что E1 Í E3 Í E или E2 Í E3 Í E.
2) Пусть E Î X. Тогда E ® E невозможно.
3) Пусть E1, E2, E3 Î X. Если E1 ® E3, E2 ® E3, то E1 = E2.
4) Если E1, E2 Î X то, либо E1 Ç E2 = 0, либо E1 Í E2, либо E2 Í E1.
5) Пусть E1, E2, E3 Î X, и для E1 ® E2 и E3 ® E4 существует f1, f2 Î F такие, что f1: (E1, E2) ® y1, а f2: (E3, E4) ® y2, где y1, y2 Î Y. Тогда E1 Ç E3 = 0,
E2 Ç E4 = 0.
6) Пусть E1, E2 Î X. E1 ® E3. Тогда для любого E3 Î X верно, что E3 Ç E1 = 0, E3 Ç E2 = 0.
Можно сделать вывод, что помимо общих требований к синтактико- семантическому анализатору выдвигается новое. Для каждого приема, используемого при визуализации, должен быть определен список требований по семантике и синтаксису преобразуемых фрагментов текста. В первую очередь это связано с тем, насколько сильны синтаксические связи между различными связными группами слов. Действительно, само применение графических примитивов часто подразумевает увеличение акцента над одними семантическими связями в ущерб другим. Этим достигается наиболее явное выделение фрагментов предложения, несущих основную смысловую нагрузку. Именно поэтому четкое определение характера связи между связными группами слов приобретает особую важность. Ими в первую очередь и диктуется выбор тех или иных приемов визуализации.
Особый интерес вызывают задачи нахождения кванторных отношений и преобразования предложений, содержащих кванторные связи. Визуализация квантифицированных предложений очень важна при отображении смысла текста.
Вместе с использованием для трансформации предложений приемов, характерных для синтаксической и несинтаксической синонимии, мы проводим общий анализ структуры текста. Такой анализ дает дополнительную информацию, которая в дальнейшем может быть использована для преобразования предложений. Такая информация, разумеется, позволяет определить связи между предложениями и отдельными словами или словосочетаниями, принадлежащими различным предложениям.
Трансформационный анализ местоимений также очень важен для отображения структуры предложений. Местоимения в общем случае можно разделить на два типа. У местоимений первого типа в состав значения входит отсылка к акту речи, а у местоимений второго типа (анафорических) - отсылка к тексту. При этом значение анафорических местоимений может быть полностью описано правилами их употребления, то есть с помощью трансформаций.
Заметим, что на сложность восприятия человеком текста может влиять не только и не столько запутанность отдельных фрагментов, сколько его большой (необозримый) объем. Тем самым, одним из методов повышения наглядности и удобочитаемости текста является построение реферата этого текста, выполняемое либо вручную, либо в автоматическом или автоматизированном режиме.
Действительно, задача (как и некоторые методы ее решения) выделения из предложения словосочетаний и семантических связей, несущих повышенную смысловую нагрузку, близка по форме к задаче выделения из текста предложений, передающих его основной смысл.
В связи с вышесказанным на этапе извлечения смыслового содержания возможно построение реферата исходного текста. Такой реферат можно взять за основу при визуализации текста. При этом каждое предложение текста должно быть соответствующим образом соотнесено с некоторым предложением реферата. Иными словами, на этапе семантического анализа синтаксиса текста мы получаем граф связей предложений. На его основе строится реферат текста, который и отображается. Впоследствии на основе этого реферата, используя специальные средства, предоставляемые системой визуализации, мы можем получить развернутый результат работы системы извлечения смыслового содержания текста. Так, после получения предварительного реферата текста, можно выбрать фрагменты предложения, тематика которых кажется нам недостаточно раскрытой. После этого предложения, непосредственно связанные с данным в графе связей предложений, добавляются в реферат. Также возможно и удаление предложений. При этом для получения наиболее наглядного отображения смысла текста большое значение имеет ясная визуализация связей между его предложениями.
Существующая модельная реализация "Автоматического визуализатора" корректно строит гипертекстовые представления для небольшого тестового набора фрагментов текста. Основная их часть взята из нормативных документов, над которыми проводилась работа в проекте, описанном в начале статьи. Параллельно ведется работа по формированию библиотеки графических примитивов. Объектом специального внимания является задача автоматизации реферирования.
Литература
- Church K.W., Rau L.F. Commercial Appllications of Natural Language Processing // Communication of the ACM, November 1995 / Vol.38, No 11.
- Мальковский М.Г., Большакова Е.И. и др. Эксперименты с системой ЛИНАР // Труды Маш. фонда русского языка - М., 1991, т. 1, С. 51 - 71.
- Мальковский М.Г., Грацианова Т.Ю., Полякова И.Н. Прикладное программное обеспечение: системы автоматической обработки текстов. - Учебное пособие - М.: МГУ, 2000. - 52 с.
- Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения - М.: Наука, 1985. - 144 с.