ДИНАМИКА ЕДИНИЦ В СЕМАНТИЧЕСКИХ СТРУКТУРАХ
Н. Н. Леонтьева
Научно-исследовательский вычислительный центр
Московского Государственного Университета им. М.В. Ломоносова
leont.n@g23.relcom.ru
Ключевые слова: автоматическое понимание текста, уровни структурных представлений текста, семантический анализ, качественный скачок, метаязык, критерии информативности единиц, содержательное сжатие
Главная трудность процесса автоматического понимания текста состоит в том, что единицы понимания очень подвижны: переход к следующему уровню лингвистического анализа происходит «скачком», сопряжен со сменой метаязыка, с изменением объема и содержания самих единиц. Самый крутой скачок ведет от лингвистических структур к структурам представления знаний, так как сопровождается сжатием содержания. На небольшом примере иллюстрируется разница трех промежуточных представлений текста – СинП, СемП и СитП; последнее (Ситуативное) представление формирует те Объекты и Ситуации, которые могут быть уже готовыми блоками для внесения в Базы знаний каких-то предметных областей и для последующего создания информационных структур, настраивающихся на пользователя.
- Задачи семантического анализа текста
Основное назначение семантического анализа естественных текстов мы видим в тех преобразованиях, которые претерпевает исходный текст, проходя через множество фаз и состояний строящегося семантического представления (СемП): чисто лингвистическая информация из словарей и грамматик постепенно переводит его в представление собственно смысловой, содержательной, понятийной, экстралингвистической информации, в представление текстовых знаний. В континууме структур важно выбрать, сформировать, построить такие единицы, структуры или их части, которые могут быть "полномочными представителями" данного текста во внешней информационной среде. Такие структуры, если они могут быть построены для анализируемого текста, явятся материалом для (полу)автоматически формируемых баз данных и знаний; наиболее важными структурами текст "защищает себя" от ответов на вопросы, не имеющие к нему отношения или имеющие слабую связь с его содержанием.
Семантический анализ в прикладных системах не является ни самоцелью, ни концом обработки текста. Он лишь создает промежуточные структуры (общее название СемП), в которых «проявлены» и выражены эксплицитно по возможности все свойства связного текста: смысловая неполнота в СемП каждого предложения, повторы и другие явления избыточности по всему пространству текста. Это необходимо для того, чтобы можно было привести содержание текста к виду, готовому для его восприятия другими внешними интеллектуальными системами. Главная операция, которая позволяет снизить избыточность и восстановить смысловые опущения – операция сжатия первичного семантического пространства текста. Она позволяет также отбрасывать лишние сведения и ненужные подробности.
- О способах сжатия текста
Ясно, что в окончательных записях останется далеко не весь лексический материал анализируемого текста. Но как его оценивать и сортировать? Каков механизм минимизации чистой избыточности, а также отфильтровывания лишних сведений и ненужных подробностей?
Есть разные способы сжатия материала текста. Например, создание такого лексического представления (ЛексП) текста, из которого исключены все повторяющиеся слова (вернее, леммы), все местоименные и вспомогательные слова, а также те полупустые единицы, которые удовлетворяют определенному частотно-распределительному критерию. Это механическое сжатие, в результате которого мы получим достаточно информативный список слов, по которому иногда можно догадаться о теме текста.
Есть способ экстрагирования, когда из текста вынимаются целые предложения (например, заголовок плюс два первых и два последних предложения), совокупность которых как бы передает основное содержание документа и может быть названа квазирефератом.
Более сложный вид квазиреферирования – извлечение предложений или их частей, следующих за так называемыми «опорными» словами-операторами (типа Действительно, На самом деле, Поэтому, Итак, и др.), которые заданы заранее списком.
Более распространен в информационных системах метод, который я называю методом «встречного текста». Он состоит в том, что задается список (Тезаурус) слов, словосочетаний и\или терминов, заведомо представляющих интерес для пользователей системы, эти же единицы используются для формулировки запроса. Из текста выбираются слова и словосочетания, совпадающие с единицами запроса или находящиеся в определенных отношениях с ними. Так же может быть задан встречный текст в прямом смысле или вопрос на естественном языке (ЕЯ); наибольшее совпадение с лексикой исходного текста даст тот фрагмент, в который сжалось содержание анализируемого текста «навстречу» информационной потребности, выраженной словами ЕЯ.
Естественно, что в развитых информационных системах используется сочетание разных методик выявления наиболее информативных частей текста.
Нас интересует развитие таких методов сжатия содержания текста, которые как минимум учитывают синтагматические смысловые связи между единицами текста, т.е. методы сжатия, опирающиеся на структуры всех уровней, с особым вниманием к структурам семантических уровней.
- Межуровневые переходы
Дело в том, что переход от одного лингвистического уровня к следующему – это качественный скачок, когда меняется количество и состав единиц, их иерархия, их имена, переопределяются связи между ними и т.д. (Противоположный этому процесс – непрерывное безуровневое преобразование, как в системах машинного перевода первого поколения, когда слова исходного языка постепенно заменялись словами выходного либо оставались без перевода, и все это проходило как бы в пределах того же текста. Проследим некоторые проявления такого скачка.
Графематика вносит первую организацию в текстовый поток, объявляя все цепочки знаков от пробела до пробела первичными текстовыми единицами и дифференцируя их (на лексемы, цифры, знаки препинания и т.д.). Морфология вычленяет на этом множестве «свои» единицы (словоформы), которые придают структуре текста глубину: ведь за многими узнанными словоформами стоит несколько лемм и несколько интерпретаций. Тем самым усложняется простое отношение следования единиц первичной структуры. Если в системе выделен (промежуточный) уровень словосочетаний (фиксированных, задаваемых списком, или полусвободных, вычленяемых с применением правил), то меняется и состав единиц, и характер связей: появляется деление на внутренние (внутри словосочетания) и внешние связи. Усиливается неоднородность единиц (слово/словосочетание, узнанное/неузнанное, однозначная единица/ многозначная). Синтаксис вносит новое членение в последовательность единиц текста – делит текст на предложения – и вводит иерархию связей в пределах предложений.
На каждом уровне меняется метаязык представления структуры, то же относится к переходу от синтаксических представлений (СинП) к семантическим. Может быть, на этом участке происходит не самое кардинальное изменение структуры (самый крутой скачок ведет от лингвистических структур к записи в Представлении знаний), но оно заслуживает внимания потому, что существует иллюзия, будто СемП или даже концептуальная структура могут быть получены путем простого переназывания связей синтаксической структуры.
Вот некоторые наблюдения над характером изменений при переходе от синтаксической структуры к семантической.
СемП предложения (а тем более СемП всего текста) в общем случае не изоморфно СинП предложения. Это выражается в том, что:
- семантически главенствующим может оказаться не синтаксически главное слово группы, а подчиненное (ср. начало работ, работы по восстановлению, край леса, стакан воды и др. – в зависимости от установки анализа семантическую характеристику группы может определять синтаксически зависимое слово),
- не все узлы СинП становятся узлами СемП, - некоторые переходят в смысловые отношения (так, слова быть, являться, равно, значение и многие другие «невещественные» слова становятся именами связей между узлами, это требует определенных трансформаций дерева),
- граница между внутренними (в составе семантического узла) и внешними (с другими узлами) связями в СемП не обязательно совпадает с границей между сильными и слабыми связями в СинП,
- вместо неоднозначности морфолого-синтаксической появляется семантическая – и она часто проходит по другим участкам.
Эти и подобные частные несоответствия дополняются двумя глобальными расхождениями: 1) Сферой действия и окончательной структурой синтаксического уровня является СинП предложения, сфера действия и окончательная структура семантического уровня – это СемП целого текста. Поэтому 2) СинП предложения всегда замкнуто, полно, а СемП отдельного предложения «выходит в текст», оно всегда неполно, незамкнуто (это и есть форма проявления содержательной связности текста). Семантика преодолевает деление материала текста на предложения, стремясь к построению целостной ситуации, – на этом пути возникают новые единицы, например, СФЕ (сверхфразовые единства).
Дальнейшие переходы ко все «более концептуальным» структурам также происходят скачком, преодолением структур предыдущего уровня, при этом изменения перечисленных типов (другое деление на единицы, изменение направления связей и т.п.) дополняются механизмом сжатия и сброса информации.
Покажем, с некоторыми упрощениями, разницу в структурах со связями, начиная с СинП, на неоднократно приводившемся нами примере (первое предложение текста рецепта по использованию лечебной травы).
- Три представления фразы
в информационно-лингвистической модели
СинП:
Ложку травы залить двумя стаканами кипящей воды
СемП:
- КОЛИЧЕСТВО (1 ложка, трава)
- КОНЕЧН-ТОЧКА (1., заливать)
- КОЛИЧЕСТВО (два, стакан)
- КОЛИЧЕСТВО (3., вода)
- ПРИЗНАК (кипящий, вода)
- МОДАЛЬНОСТЬ (НЕОБХ., заливать)
- ОБЪЕКТ (3., заливать)
- АГЕНТ (?, заливать)
Здесь 1. и 3. – ссылки на целые формулы с соответствующими номерами. Модальность НЕОБХодимо появилась как интерпретация инфинитивной формы главного предиката. Знак «?» появляется на месте незаполненной семантической валентности. (Вторая и третья структуры упрощены).
СитП:
СИТуация1 = заливать траву водой
- МОДАЛЬНОСТЬ (НЕОБХ, СИТ1)
- АДРЕСАТ ( ?, 9.)
- ЦЕЛЬ ( ? , 9.).
Узлом типа СИТ объявляется главный узел СемП с ситуативными актантами, взятыми в семантически сильной позиции. Для формул типа КОЛИЧЕСТВО (А, В) семантически сильной считается позиция второго члена (В), поэтому в СитП остаются единицы “трава” и “вода”, а не “ложка” и “стакан”. Неполные формулы 10. и 11. появляются как незаполнившиеся валентности формул типа 9., провоцирующие вопрос «Кому и зачем необходимо сделать что-то?»
Естественным способом сжатия структуры будем считать вытеснение зависимых членов, тогда остающиеся в целевом представлении главные части структуры будут выразителями главного содержания анализируемого отрезка текста. Если это правило применить к синтаксической структуре, то составленный по СинП реферат будет звучать так: "Ложку залить стаканами". Начиная с первичного СемП, реферат изменится на "Траву залить водой", поскольку ложка и стакан будут интерпретированы по словарю как "единицы измерения" для вещества. Концептуальная же структура потребует как минимум уточнения контекста или предметной области, к которой относятся упомянутые объекты (трава и вода), необходимо обратиться к жанру документа (рецепт) и его заголовку. Из этих сведений уточнится разновидность травы как родового понятия («Шалфей»), а также семантика действия (лить – заливать – смешивать – смесь) и ЦЕЛЬ всей ситуации (лечение). Что касается восстановления АГЕНТа действия, то для документа типа «рецепт» он совпадает с АДРесатом текста.
Подобные выводы должны привести к построению определенной записи в какой-то базе данных. Они относятся к уровню прагматики, который пока плохо обеспечен алгоритмами и другими механизмами автоматической обработки. Именно лингвистика может поднять решение задачи накопления текстовых знаний на качественно новый уровень.
Названные трансформации и механизмы информационного сжатия опираются на грамматику принятого нами семантического метаязыка и описание семантики единиц в словаре РУСЛАН-1 (Русский словарь анализа), работы по которому поддерживаются Центром информационных исследований (ЦИИ) и грантом Российского гуманитарного научного фонда (РГНФ, № 01-04-16252а). Основные лексикографы – С.Ю. Семенова, А.С. Панина, Е.В.Горелик.
The dynamics of semantic units in the course of text understanding
N. N. Leontyeva
Clue words: Automatic analysis, text representation levels, semantic analysis, criteria of meaningfulness of entities, qualitative leap, metalanguage, semantic compression.
I see the main problem of any text understanding process in inconstancy of text units: they change from level to level. The first level of analysis – a graphematical one – computes its unit as a sequence of signs between two zeros. Applying some corrections we receive a chain of so called textual “words” including wordforms, numbers, isolated punctuation marks, fixed collocations, etc. Morphological analysis of wordforms reduces lexical material to standard form lemmas. Some wordforms have multiple interpretations (have several lemmas “behind them”), the fact causes “depth” of a simple textual units chain. Syntactic level provides a new division of this complicated chain – a division on sentences. New units – relations – bind wordforms into a coherent syntactic structure. The “depth” of a text increases due to the fact that any sentence may have more than one syntactic interpretation. The role of semantic component is very important taking into account the task of knowledge acquisition: it is to build new nodes and new relations between them. Those new units (more meaningful than syntactic ones) represent the content of a text under analysis for any “outer world”: they have to be comparable with units of another texts, with units of an arbitrary domain, with elements of any list of “things” etc. To build such units we face the problem of translating one metalanguage (syntactic one) into another (semantic one). This transition entails sometimes changing of hierarchy of units, sometimes node-relation exchange and so on. It means a quantitative leap more cardinal than transitions between preceding levels because it is accompanied by semantic compression. The next transition (from textual semantic net to a chunk of information extracted or to knowledge representation) reduces the content of semantic net once more. Such linguistic reasons encourage us to look for new ways and methods of automatic linguistic analysis.