Proceedings 2001

Select proceedings

Back to articles

Лингвистический процессор для автоматического выявления

из текстов значимой информации с ее компоновкой

в рамках указанных шаблонов.

Кузнецов И.П., Мацкевич А.Г. (ИПИ РАН)

Рассматриваются семантико-ориентированный лингвистический

процессор (ЛП), предназначенный для обработки текстов

естественного языка: сообщений средств массовой информации, сводок

происшествий и др. ЛП автоматически анализирует введенный в

компьютер текст, выделяет из него семантически значимую информацию

(это лица, организации, адреса, направленность действий и др.) и

выдает ее в требуемой форме, например, в виде таблицы для

пополнения БД или же в виде структуры для использования в базе

знаний. Такое выделение определяется шаблонами, которые задаются

пользователем. Каждый шаблон соответствует своему значимому

объекту и состоит из связанных позиций, которые сопоставляются

компонентам данного объекта - словам, составляющим его описание.

Каждый шаблон связан с лингвистическими знаниями, определяющими

привязку его полей к компонентам естественного языка.

Введение

Одним из важных направлений является создание

информационно-аналитических центров на базе компьютеров. Их

главная задача - обработка больших потоков текстов с выделением

значимой (интересующей пользователя) информации с ее последующим

использованием: для аналитических решений в рамках компьютера,

заполнением таблиц в БД или и просто выдачей в удобном для

пользователя виде. Трудности такой обработки определяются

особенностями естественного (русского) языка: наличием большого

количества словоформ, синтаксических конструкций,

неоднозначностей, умолчаний и др. В связи с этим, уровень

формализации текстов в существующих системах и качество их работы

невысоки.

В докладе рассматривается важная компонента

информационно-аналитической системы - ее лингвистический процессор

(ЛП), ориентированный на выделение из текстов семантически

значимой информацию: объектов с их количественными и качественными

характеристиками. Например, это могут быть

производства с указанием их месторасположения, состава выпускаемой

продукции, их количества, качества и т.д. Другие примеры:

забастовки, вид забастовки, количество участников, их действия,

время, место; вид преступления, количество преступлений, время,

место и др.

Выделяемые ЛП объекты и их характеристики определяются

шаблонами, которые задаются пользователем. Каждый шаблон

соответствует своему значимому объекту и состоит из связанных

позиций (полей), которые сопоставляются компонентам данного объекта.

Каждый шаблон связан с лингвистическими знаниями, определяющими

привязку его полей к компонентам естественного языка. Роль шаблона

может играть таблица или схема базы данных (БД).

ЛП осуществляет анализ данных ей текстов с заполнением полей

введенных в нее шаблонов. Если роль шаблонов играют таблицы БД,

тогда задача системы будет сводиться к автоматическому заполнению

этих таблиц на основе данной ей текстовой информации.

ЛП учитывает тот факт, что различных пользователей может

интересовать различная информация. Интересы пользователя со

временем могут изменяться. Настройка системы на пользователя и

интересующие его объекты осуществляется путем ввода в нее нового

шаблона с привязкой его позиций к компонентам естественного языка,

или же путем изменения существующих шаблонов и соответствующих

лингвистических знаний.

Подобного сорта системы начинают развиваться на Западе в

рамках перспективных направлений: Text mining, Knowledge

discovery, которые считаются наиболее приоритетными. Примеры - это

системы FASTUS, CIRCUS и др. [3]. Перспективность направления

определяется громадными объемами текстов, извлекаемых через

ИНТЕРНЕТ, невозможностью для пользователя их прочитать или даже

просмотреть в приемлемое время, чтобы найти интересующую его

информацию.

Особенности ЛП

ЛП основан на структурных методах обработки. Все виды анализа

осуществляются на уровне специального вида семантических сетей [4]

в рамках инструментального комплекса - языка ДЕКЛ. Это дает

значительные преимущества - позволяет разрабатывать и

реализовывать структурные грамматики, ориентированные на реальные

приложения. Такие грамматики состоят из правил, у которых в левой

и правой части - семантические сети. С помощью левой части

осуществляется анализ различных признаков слов, их взаимного

расположения, степени согласованности, отсутствие недопустимых

слов и т.д. Правая часть определяет результат работы правила.

Здесь может быть указано на необходимость объединения слов в

словосочетания или же в структуры (сети), представляющие связи, в

том числе семантические.

Применение правил сводится к выявлению значимых компонент

(информационных слов) с учетом контекста (вспомогательных слов).

Информационные слова определяют объекты. Здесь важную роль играют

слова-классификаторы, наличие которых указывает на присутствие

соответствующей информации. Например, слова типа ОТДЕЛ,

ПРОГРАММИСТ говорят о том, что речь будет идти о работе, а слово

МОСКВА - о географическом положении.

Вспомогательные слова - те, без которых значимые компоненты

не теряют своего существования. К ним относятся предлоги, знаки

пунктуации и так называемые шаблонные слова (ФАМИЛИЯ, РАБОТАЕТ,

ПРОЖИВАТЬ, УЛ и т.д.).

Значимые компоненты с точки зрения их выявления условно

делятся на жесткие и мягкие. Жесткие состоят из фиксированного

числа позиций или слов. К таким относятся: ФИО, дата, телефон. У

мягких компонент количество позиций переменное: приметы, работа.

Адрес может рассматриваться и как жесткая, и как мягкая компоненты

- в зависимости от используемого способа его выделения.

Обработка текста включает в себя:

- морфологический анализ;

- контекстный анализ;

- синтактико-семантический анализ;

- логико-аналитическую обработку.

Морфологический анализ имеет целью - приведение слов в

каноническую форму. ЛП использует блок морфологического анализа,

который основан на обобщенных окончаниях слов. В этот блок введено

лишь несколько десятков тысяч слов, из которых специальной

программой выделены типовые окончания слов различных

грамматических категорий. Благодаря ним обеспечивается

морфологический анализ неизвестных слов, что осуществляется с

достаточно высокой надежностью.

Результатом работы блока морфологического анализа является

семантическая сеть, представляющая пространственную структуру

текста. В ней представлен порядок расположения слов с их

характеристиками. Последующая обработка сводится к преобразованию

сетей на основе заданных правил.

Контекстный анализ необходим для выделения адресов, номеров

машин, организаций и др. Как правило, это наборы слов, которые

грамматически никак не согласованы. Их выделение может

осуществляться по чисто формальным принципам. Например, адрес

может рассматриваться как набор буквосочетаний Г., УЛ., Д.,..,

слов с большой буквы и чисел. Каждый такой набор может иметь свои

границы и недопустимые компоненты. Например, в адресах не может

быть ФИО, глаголов и т.д. Выделение таких наборов слов (описаний

объектов) основано на использовании слов-классификаторов. По ним

система распознает наличие объекта или его компонент. Контекст

определяет начало и конец описания объекта, а также знаки и слова,

которые могут быть в соответствующих текстах описания. Более

подробно методика контекстного анализа рассмотрена в работе [2].

Синтактико-семантический анализ необходим для выделения

грамматическм связанных групп слов, составляющих описание объекта.

Например, это может быть описание каких-либо лиц (примет,

особенностей одежды и др.), производств или вида выпускаемой

продукции. В таких описаниях слова согласованы между собой. Для их

выделения используются специальные грамматики, состоящие из правил

следующего вида. В левой части каждого правила указаны позиции и

что может стоять на каждой позиции. Это может быть перечисление

конкретных слов или предлогов. Могут быть также указаны

грамматические категории слов или же какие либо другие признаки. В

правой части правила указывается, какие действия необходимо

выполнить. Например, свернуть выделенный набор слов, представив

его как одно слово с определенными грамматическими

характеристиками или другими признаками. Связать выделенные слова

в какую-либо структуру, построив соответствующую семантическую

сеть.

Логико-аналитическая обработка осуществляется на основе

семантических фильтров [1]. Семантические фильтры решают несколько

задач. Во-первых они обеспечивают выявление семантически связанных

слов, представляющих описание объекта, например, по схеме

ЦВЕТ-МАТЕРИАЛ-ОДЕЖДА или КОЛИЧЕСТВО-ТОВАР. Для конкретизации таких

схем используются родовидовые деревья и специальным образом

организованные терминологические словари, задающие семантические

пространства терминов. Во-вторых, на основе таких фильтров

словосочетания или другие компоненты текста соотносятся с

определенными пунктами классификации, например, какого сорта

несчастный случай или какой характер повреждений описывается в

тексте. Здесь также используются родовидовые деревья и

терминологические словари. В-третьих, с помощью таких фильтров

словесное описание численных показателей преобразуется в само

число, а также выявляется, что это число значит (это может быть

дата, расстояние, возраст, относительное изменение, количество

денег, процентов и др.).

Ввод шаблонов, форма их записи.

Семантически значимая информация (объекты), выделяемая

системой из текстов, группируется в семантические категории.

Последние могут быть связаны и образовывать шаблоны. Примеры

семантических категорий: ОРГАНИЗАЦИЯ, ТЕЛЕФОН, АДРЕС, КОЛИЧЕСТВО,

ВРЕМЯ, "несчастный случай" и др. Категории могут делиться на

подкатегории. Например, "несчастный случай" - это может быть

"несчастный случай от пожаров", АВАРИЯ, ТРАВМАТИЗМ. Подкатегории

могут иметь свои подкатегории. Например, для категории ТРАВМАТИЗМ

может быть задан вид травматизма и т.д. В результате образуется

родо-видовое дерево семантических категорий (иерархическая

структура).

Родо-видовое дерево категорий строится и вводится в систему

пользователем, который дает список категорий и для каждой из них

указавает подкатегории. Последние могут быть взяты из типовых

классификаторов (если таковые имеются).

Связь между категориями или подкатегориями также задается

пользователем в виде пар ОРГАНИЗАЦИЯ-АДРЕС, ОРГАНИЗАЦИЯ-ТЕЛЕФОН,

"несчастный случай"-КОЛИЧЕСТВО и т.д. Такие пары могут

комбинироваться в тройки, ... n-ки и образовывать таблицы.

Например, это может быть таблица со столбцами

ОРГАНИЗАЦИЯ-АДРЕС-ТЕЛЕФОН.

Такие пары вводятся и корректироваться пользователем по мере

необходимости. При наличии таких пар система (помимо выделения из

текстов соответствующей информации) должна решать задачу связывания

выделенных объектов. Например, если в предложении (или нескольких

рядом стоящих предложениях) упоминаются конкретная организация и

адрес, то система должна выявить их соотнесенность. В результате

формируются пары, которые могут быть использованы для заполнения

пустых клеток соответствующей таблицы или полей базы данных.

Ввод в систему родо-видового дерева категорий и упомянутых

пар осуществляется путем их преобразования в предикатную форму

записи (т.е. в виде семантических сетей) в специальный настроечный

файл, который читается системой.

Примеры

В настоящее время система ориентирована на работу с текстами

следующего вида: сообщениями средств массовой информации, а также

сводками происшествий, записными книжками и др. Учитывается тот

факт, что в текстах естественного языка могут иметь место

многочисленные сокращения (ТЕЛ, ГР-КА...), различные способы

выражения одного и того же.

При работе со средствами массовой информации в качестве

значимых объектов были взяты: организации, коммерческие банки,

упоминающиеся лица с указанием ФИО или без указания, их адреса,

место работы, телефоны и т.д.. Такая информация выражается

грамматически правильно записанной последовательностью слов и

символов.

Результатом работы ЛП является семантическая сеть, которая

может быть преобразована в любую форму, определяемую приложениями.

Приведем примеры одной из форм.

Пример 1.

Выделение по шаблону следующего вида: АКЦИИ (забастовки,

демонстрации,..) - КОЛИЧЕСТВО УЧАСТНИКОВ - ВРЕМЯ - МЕСТО.

За прошедшие сутки в Российской Федерации

общественно-политическая обстановка существенно не изменялась.

В г. Шуе Ивановской области 100 медицинских работников провели

несанкционированный митинг и блокирование дороги Шуя-Палех,

требуя погашения задолженности по заработной плате. С

аналогичным требованием провели предупредительные забастовки -

рабочие шахты "Юршор" (12 человек) в г. Воркуте Республики

Коми; учителя школы (67 человек) в Суземском районе Брянской

области; начали забастовки - учителя 43 школ (4000 человек) в

26 районах Республики Бурятия; работники семи школ (351

человек) в г. Заречном Белоярского района Свердловской области.

С аналогичным требованием продолжают: блокирование - проходной

завода "Востсибэлемент" рабочие предприятия (20 человек) в г.

Свирске Черемховского района Иркутской области.

Результат обработки:

Участник: МЕДИЦИНСКИЙ РАБОТНИК

Колич. участников: 100 МЕДИЦИНСКИЙ РАБОТНИК

Вид забастовки: НЕСАНКЦИОНИРОВАННЫЙ МИТИНГ И БЛОКИРОВАНИЕ

ДОРОГА ШУЯ - ПАЛЕХ

Действие: ПРОВЕСТИ: 100 МЕДИЦИНСКИЙ РАБОТНИК НЕСАНКЦИОНИРОВАННЫЙ

МИТИНГ И БЛОКИРОВАНИЕ ДОРОГА ШУЯ - ПАЛЕХ

Где: ГОРОД ШУЕ ИВАНОВСКИЙ ОБЛ.

Действие: ТРЕБОВАТЬ: ПОГАШЕНИЕ ЗАДОЛЖЕННОСТЬ ЗАРАБОТНЫЙ ПЛАТА

--.--

Вид забастовки: ПРЕДУПРЕДИТЕЛЬНЫЙ ЗАБАСТОВКА

Участник: РАБОЧИЙ ШАХТА ЮРШОРЫ

Действие: ПРОВЕСТИ: АНАЛОГИЧНЫЙ ТРЕБОВАНИЕ ПРЕДУПРЕДИТЕЛЬНЫЙ

ЗАБАСТОВКА РАБОЧИЙ ШАХТА ЮРШОРЫ

Место: ГОРОД ВОРКУТА РЕСП. КОМИ

--;--

Участник: УЧИТЕЛЬ ШКОЛА

Место: СУЗЕМСКИЙ РАЙОН БРЯНСКИЙ ОБЛ.

--;--

Вид забастовки: ЗАБАСТОВКА

Участник: УЧИТЕЛЬ 43 ШКОЛА

Действие: НАЧАТЬ: ЗАБАСТОВКА УЧИТЕЛЬ 43 ШКОЛА

Место: 26 РАЙОН РЕСП. БУРЯТИЯ

--;--

Участник: РАБОТНИК 7 ШКОЛА

Место: ГОРОД ЗАРЕЧНЫЙ БЕЛОЯРСКИЙ РАЙОН СВЕРДЛОВСКИЙ ОБЛ.

--.--

Вид забастовки: БЛОКИРОВАНИЕ ПРОХОДНОЙ ЗАВОД ВОСТСИБЭЛЕМЕНТ

Участник: РАБОЧИЙ ПРЕДПРИЯТИЕ

Действие: ПРОДОЛЖАТЬ: АНАЛОГИЧНЫЙ ТРЕБОВАНИЕ БЛОКИРОВАНИЕ

ПРОХОДНОЙ ЗАВОД ВОСТСИБЭЛЕМЕНТ РАБОЧИЙ ПРЕДПРИЯТИЕ

Место: ГОРОД СВИРСКЕ ЧЕРЕМХОВСКИЙ РАЙОН ИРКУТСКИЙ ОБЛ.

--.--

Пример 2

Выделение по шаблону следующего вида:

ВИД ПРЕСТУПЛЕНИЯ - КОЛИЧЕСТВО - ДЕЙСТВИЕ - ВРЕМЯ - МЕСТО

За 12 месяцев 1999 года выявлено 86 преступлений

экономической направленности против 75 за аналогичный период

1998 года (рост составил 14,7%), в том числе выявлено тяжких и

особо тяжких преступлений 49 (или на 11,4% больше). При этом с

4 до 7 увеличилось количество нераскрытых преступлений и, как

следствие этого снизилась на 2,5% раскрываемость экономических

преступлений и составила 91,9%. Выявлены 3 факта взяточничества.

В течение 1999 года отделом проводилась работа по

противодействию незаконному обороту наркотиков. За 12 месяцев

1999 года выявлено 159 преступлений, связанных с незаконным

оборотом наркотиков (в 1998 году - 120, рост составил 32,5%).

Из незаконного оборота изъято в 1998 году 1241 грамм марихуаны.

В 1999 году работа по пресечению незаконного оборота

наркотических средств активизировалась и сотрудниками милиции

было изъято 4457 грамма марихуаны...

Результат обработки:

Вид преступления: ПРЕСТУПЛЕНИЕ ЭКОНОМИЧЕСКИЙ НАПРАВЛЕННОСТЬ

Колич. преступлений: 86 ПРЕСТУПЛЕНИЕ ЭКОНОМИЧЕСКИЙ НАПРАВЛЕННОСТЬ

Действие: ВЫЯВИТЬ: 86 ПРЕСТУПЛЕНИЕ ЭКОНОМИЧЕСКИЙ НАПРАВЛЕННОСТЬ

Когда: 12 МЕСЯЦ 1999 ГОД

Действие: СОСТАВИТЬ: РОСТ 14.7%

Вид преступления: ТЯЖКИЙ И ОСОБО ТЯЖКИЙ ПРЕСТУПЛЕНИЕ

Колич. преступлений: 49 ТЯЖКИЙ И ОСОБО ТЯЖКИЙ ПРЕСТУПЛЕНИЕ

Действие: ВЫЯВИТЬ: ЧИСЛО 49 ТЯЖКИЙ И ОСОБО ТЯЖКИЙ ПРЕСТУПЛЕНИЕ

--.--

Вид преступления: КОЛИЧЕСТВО НЕРАСКРЫТЫЙ ПРЕСТУПЛЕНИЕ

Действие: УВЕЛИЧИТЬСЯ: КОЛИЧЕСТВО НЕРАСКРЫТЫЙ ПРЕСТУПЛЕНИЕ

Вид преступления: РАСКРЫВАЕМОСТЬ ЭКОНОМИЧЕСКИЙ ПРЕСТУПЛЕНИЕ

Действие: СНИЗИТЬСЯ: 2.5 % РАСКРЫВАЕМОСТЬ ЭКОНОМИЧЕСКИЙ ПРЕСТУПЛЕНИЕ

Действие: СОСТАВИТЬ: 91.9 %

--.--

Вид преступления: ФАКТ ВЗЯТОЧНИЧЕСТВО

Колич. преступлений: 3 ФАКТ ВЗЯТОЧНИЧЕСТВО

Действие: ВЫЯВИТЬ: 3 ФАКТ ВЗЯТОЧНИЧЕСТВО

--.--

Вид преступления: НЕЗАКОННЫЙ оборот наркотиков

Действие: ОТДЕЛОМ ПРОВОДИТЬСЯ: ТЕЧЕНИЕ РАБОТА ПРОТИВОДЕЙСТВИЕ

НЕЗАКОННЫЙ оборот наркотиков

Когда: 1999 ГОД

--.--

Вид преступления: ПРЕСТУПЛЕНИЕ

Колич. преступлений: 159 ПРЕСТУПЛЕНИЕ

Действие: ВЫЯВИТЬ: 159 ПРЕСТУПЛЕНИЕ

Когда: 12 МЕСЯЦ 1999 ГОД

Вид преступления: НЕЗАКОННЫЙ оборот наркотиков

Действие: СВЯЗАТЬ: НЕЗАКОННЫЙ оборот наркотиков

Действие: СОСТАВИТЬ: РОСТ 32.5%

--.--

Вид преступления: НЕЗАКОННЫЙ ОБОРОТ

Действие: ИЗЪЯТЬ: НЕЗАКОННЫЙ ОБОРОТ 1241 ГР. МАРИХУАНА

Когда: 1998 ГОД

Вид преступления: НЕЗАКОННЫЙ ПОСЕВ ДРУГОЙ НАРКОТИКОСОДЕРЖАЩИЙ

РАСТЕНИЕ

--.--

Вид преступления: ПРЕСЕЧЕНИЕ НЕЗАКОННЫЙ ОБОРОТ НАРКОТИЧЕСКИЙ

СРЕДСТВА

Действие: АКТИВИЗИРОВАТЬСЯ: ПРЕСЕЧЕНИЕ НЕЗАКОННЫЙ ОБОРОТ

НАРКОТИЧЕСКИЙ СРЕДСТВА

Действие: БЫТЬ ИЗЪЯТЬ: СОТРУДНИК МИЛИЦИЯ 4457 ГР. МАРИХУАНА...

В настоящее время ЛП имеет несколько режимов работы. В

другом режиме формируются семантические сети для системы Криминал.

При этом анализ текстов остается тем же самым. Меняется только

форма выдачи.

Литература

Кузнецов И.П. Методы обработки сводок с выделением

особенностей фигурантов и происшествий. Труды международного

семинара Диалог-1999 по компьютерной лингвистики и ее приложениям.

Том 2. Тарусса 1999.

Кузнецов И.П., Кузнецов В.П., Мацкевич А.Г. Система

выявления из документов значимой информации на основе

лингвистических знаний в форме семантических сетей.

Труды международного семинара Диалог-2000 по компьютерной

лингвистики и ее приложениям. Том 2. Протвино 2000.

FASTUS:a Cascaded Finite-State Trasducerfor Extracting

Information from Natural-Language Text. AIC, SRI International.

Menlo Park. California, 1996.

Кузнецов И.П. Семантические представления. М. Наука.

1986г. 290 с.

Proceedings 2001

Contents

Collection of proceedings