ОБРАБОТКА ДЕЛОВОГО ПИСЬМА В СИСТЕМЕ
ДОКУМЕНТООБОРОТА
И. С. Кононенко
Российский НИИ Искусственного интеллекта
irina@mail.nsk.ru
Е. А. Сидорова
Российский НИИ Искусственного интеллекта
lena@iis.nsk.su
Ключевые слова: документооборот, деловое письмо, классификация документов, предметная область, ключевое понятие, факт, жанровая структура, шаблон, семантический анализ, тема.
В системе документооборота предприятия существенную часть входящего потока документов составляют деловые письма. Задача системы InDocC состоит в классификации деловых писем – определении фактического адресата письма в соответствии с его тематикой. Предлагается подход к обработке деловых писем, который базируется на жанровой структуре документа и на знаниях о предметной области предприятия. Множество ключевых слов представляется в виде системы шаблонов, которые идентифицируются в тексте на этапе предварительного анализа. В процессе семантического анализа из множества ключевых понятий строятся факты, семантические связи которых позволяют определить тематическую структуру письма. В зависимости от функциональных связей темы с подразделениями и сотрудниками, осуществляется собственно классификация.
- Введение
Автоматизация документооборота предприятия предполагает решение ряда задач, одной из которых является классификация (рассылка) входящих документов. По содержанию документа необходимо определить, в какие подразделения и кому из сотрудников предприятия должен быть передан для рассмотрения анализируемый документ, в соответствии с функциональной ролью сотрудника в структуре предприятия. Существенную часть корреспонденции, получаемой предприятием от деловых партнеров, составляют документы, написанные в жанре делового письма (ДП). В статье описывается работа системы InDocC, предназначенной для анализа содержания и классификации входящих ДП.
Большинство документов поступает на предприятие в виде твердой копии, в связи с чем требуется его первичная обработка – сканирование и распознавание для получения электронной версии документа. При хорошем качестве исходного документа результат его распознавания содержит достаточно информации для решения поставленной задачи.
Предлагаемый подход к обработке ДП базируется на жанровой структуре документа и на знаниях о предметной области (ПО) предприятия. Методы объектно-ориентированного анализа позволяют представить систему понятий ПО, над которыми строятся факты, отражающие тематику письма.
Выходной информацией для системы является формальное представление основного содержания письма в виде совокупности обсуждаемых в нем тем и множество заинтересованных в тематике письма получателей.
Обработка ДП включает выполнение следующих процедур:
- Предварительный анализ
- сегментация документа
- лексический анализ (выделение ключевых понятий)
- Семантический анализ
- сборка фактов
- тематический анализ
- Классификация
Объектно-ориентированный словарь представляет множество ключевых слов и словосочетаний в виде системы предметных и жанровых шаблонов. В качестве средства формирования словаря и реализации лексического анализа использована инструментальная система Alex [1] .
На этапе семантического анализа из множества ключевых понятий, найденных словарем, строятся факты, а проверка семантических отношений между фактами позволяет сформировать тематическую структуру письма в виде множества тематических фактов. Далее, в зависимости от функциональных связей тем с подразделениями и сотрудниками, осуществляется собственно классификация ДП. Основной анализ реализован средствами интегрированной программной среды SEMP [2].
1. Жанровые особенности и структура делового письма
В нашем распоряжении имеется обучающий корпус ДП, который можно считать достаточно репрезентативным для выявления структурных и семантических особенностей текстов этого жанра. Исх.№449от22.11.2000 На исх. № 05/3705 от 21.11.2000 г. Генеральному директору ЗАО "Ямалгазинвест" господину Чугунову Л.С. Уважаемый Леонид Семенович! В соответствии с Вашей просьбой Фирмой "Трубокомплект" организована оперативная замена реквизитов для отгрузки в ноябре 2000 г. труб в объеме 3126т на газопровод "Заполярное - Уренгой". Однако, для замены документов на уже приготовленные к отправке маршрутные составы с трубами и их повторного оформления в таможенных органах Украины потребовалось дополнительное время, поэтому отгрузка указанных составов в район строительства была приостановлена ориентировочно на 3-4 суток. Для обеспечения бесперебойной доставки труб на газопровод "Заполярное - Уренгой" просим Вашего указания о направлении в наш адрес измененных отгрузочных реквизитов не позднее, чем за 15 дней до планируемой даты отгрузки. С наилучшими пожеланиями и уверенностью в дальнейшем долгосрочном сотрудничестве, Исполнительный директор О.Б.Бугаев ОАО .ГАЗПРОМ" 117884, ГСП, Москва, В-420, ул. Наметана, 1. Газовый телефон: 9-7438. Факс: (095) 719-8333. Телекс: (064) 4) 1467 GAZ RU. Телетайп: 111012. Ш823 СИНТОН
Рис. 1. Жанровая структура делового письма
2.1. При решении задачи классификации документов рассматриваются только те ДП, которые имеют статус входящих (адресованных сотрудникам данного предприятия). Под Отправителем подразумевается организация, явным образом указанная в этом качестве в тексте – обычно в шапке документа. Что касается статуса Адресата, то следует различать номинального адресата(ов) (далее – Адресат), указанного в адресатной части документа, и фактического адресата(ов) (далее – Получатель). Задача системы – определить Получателя, т.е. сотрудника, к компетенции которого относятся поставленные в ДП вопросы. На рис.1 приводится пример и общая структура ДП (звездочкой помечены факультативные составляющие).
2.2. Ниже приведено формальное описание жанровой структуры ДП в рамках контекстно-свободной грамматики (КСГ). В правой части правил отражен состав и порядок следования компонент структуры. Используются следующие обозначения:
А+В |
Смежные компоненты в заданном порядке |
(А)^, (А+B)^ |
Последовательность однотипных компонент |
А V В, (А V В) + С |
Альтернативные варианты структуры |
А*, (А+В)* |
Факультативная компонента |
1.Деловое_Письмо = Вводный_Раздел + Основной_Раздел + Заключит_Раздел.
- Вводный_Раздел = Коммуниканты_разд +Резюме* + Обращение*
- Коммуниканты_разд = (Отправитель_Разд + Адресат_Разд) V
(Адресат_Разд + Отправитель_Разд)
- Адресат_Разд = Адресат^ + Копия_Адресат_Разд*
- Копия_Адресат_Разд = (Заголовок_Копия + Адресат)^.
6.1. Отправитель_Разд = Отправитель* + Регистрация_Отправителя*
6.2. Регистрация_Отправителя = Исходящий_Отправителя + Р_Исходящий_Получателя*
7.1. Основной_Раздел = Текст_письма + Примечания* + Приложения*
7.2. Приложения = Заголовок _Приложений +
( Реестр_Вложений V Вложение).
7.3. Реестр_Вложений = (Номер_в_Реестре + Вложение)^
8.1. Заключит_Раздел = Подпись_разд +
Исполнитель* + Регистрация_Получателя* + Бланкодержатель*
8.2. Подпись_разд = Заключительная_Реплика* + Подписант
В Деловом Письме выделяется три основных раздела (1). Вводный раздел содержит подраздел Коммуникантов, состоящий из подразделов Отправителя и Адресата. Помимо Коммуникантов, Вводный раздел включает Резюме и Обращение (2). Подраздел Коммуникантов обычно находится в абсолютном начале письма, Отправитель, как правило, – в препозиции. В подразделе Адресата указываются наименование, почтовый адрес или факс организации-адресата, должность и ФИО сотрудника организации, которому непосредственно адресовано письмо. Адресат может быть единичным или множественным (4); некоторым адресатам ДП направляется в статусе копии (5). В подразделе Отправителя с различной степенью полноты представлена информация об организации-адресанте письма – наименование, подразделение, постоянные реквизиты (почтовый и электронный адреса, телефон, факс, банковские реквизиты). Неполнота информации в нескольких письмах (только наименование, только реквизиты), как и ее отсутствие в приведенном на рис.1 примере, обусловлены качеством распознавания шапки документа. В подразделе Отправителя возможна составляющая Регистрация_Отправителя, которая содержит выходные данные письма, зафиксированные адресантом при отправке (6).
Резюме отражает обсуждаемую в письме тему: Об оплате выполненных работ; Касательно термоусаживающихся манжет фирмы “Кануса”. Резюме имеется только в половине рассматриваемых писем, а его содержание далеко не всегда достаточно полно отражает тематику письма, в связи с чем было принято решение при классификации опираться на содержание Основного раздела.
При единичном Адресате весьма вероятно наличие во Вводном разделе Обращения (Уважаемый…!), при множественном наличие Обращения возможно, но маловероятно (Уважаемые господа!).
Основной раздел содержит Текст письма, за которым могут следовать факультативные Примечания и Приложения (7).
За Основным разделом следует Заключительный раздел, обязательной составляющей которого является Подпись. Факультативны в составе Заключительного раздела следующий за Подписью элемент Исполнитель, подраздел Регистрация_Получателя и Бланкодержатель (8.1).
Подраздел Подпись структурируется как факультативная Заключительная_Реплика (С уважением,…, С наилучшими пожеланиями…) и собственно Подписант, где с разной степенью полноты представлена информация о сотруднике, подписавшем данное письмо (должность, организация, ФИО) – 8.2.
В Заключительном Разделе ДП имеется факультативный подраздел Регистрация_Получателя, – эта информация фиксируется либо от руки, либо с помощью печати предприятия и в этом случае (как и другие штампы) часто в письмах распознана плохо.
2.3. Компоненты структуры документа отражают разбиение текста документа на информационные блоки различной функциональности. Можно говорить об основных и вспомогательных компонентах структуры ДП. Так, Обращение и Подпись служат для выделения блока Основной текст; кроме того, Обращение является показателем жанра. К числу основных компонент, необходимых для решения задачи адресации ДП, отнесены Отправитель, Адресаты, Основной текст. Процедура анализа использует границы раздела Отправитель для определения (непосредственно или с помощью Реквизитов) наименования организации-отправителя ДП, что позволяет применить знания о функциях этой организации. В границах Основного текста ищутся ключевые понятия, на основе которых анализируется пропозициональное содержание ДП.
- Структура предметной области
Знания о ПО извлекались методом концептуального анализа из исходного корпуса деловых писем и из имеющихся материалов о деятельности и структуре предприятия. Настраиваемая информация о сущностях ПО и отношениях между ними, а также о предпочтениях адресации хранится в базе знаний системы. Именованные сущности ПО – это Понятия, которые с помощью объектно-ориентированного анализа выстраиваются в иерархии классов понятий.
3.1. Иерархия классов
Рассматриваются следующие базовые классы:
- Работы
- Объекты работы
- Организации
- Участки работы
3.1.1. Иерархия Работ отражает структуру деятельности предприятия и его партнеров. Основные классы представляют производственную и финансовую деятельность, а также работу с документами (создание документов и документооборот). На рис.2 изображен фрагмент иерархии Работ.
- Подготовка производства
- Подготовка территории строительства (очистка от взрывоопасных предметов, размещение),
- Природопользование (перевод в нелесные земли, вырубка, рекультивация),
- Проектно-изыскательские работы (проектировать, авторский надзор),
- Экспертиза (экологическая экспертиза, метрологическая экспертиза);
- Строительство – специальные и основные строительные работы (шефмонтаж, укладка, внутритрубная дефектоскопия, пусконаладка, ввод в эксплуатацию, трассовые испытания);
§ Поставки – работы по изготовлению оборудования (производство, заводские испытания) и работы, связанные с хранением и перевозкой МТРесурсов (отгрузка, таможенное оформление, ответственное хранение).
Рис. 2. Иерархия работ
3.1.2. Иерархия Объектов, используемых или создаваемых в процессе работы, включает
- Ресурсы, в том числе
- природные ресурсы (лесные земли, животный мир),
- материально-технические ресурсы – Материалы и Оборудование, включая Трубопроводную арматуру, Технологическое оборудование, КИПиА, Транспорт и Электрооборудование (трубопроводная арматура, аппарат 2АВГ-75, САУ, транспортное средство, трансформаторная подстанция);
- Строящиеся Объекты
- объекты основных строительных работ, к которым относятся объекты магистральных газопроводов МГ (трубопровод, подводный переход, плеть, кожух, лупинг), объекты компрессорных станций КС (компрессорный цех), Наземные объекты (ВЖК, автодорога),
- объекты специальных работ – Объекты Электроснабжения и Автоматизации (электроустановка, пункт теленаблюдения), Объекты Связи (радиорелейная станция) и Газоизмерительные станции (ГИС);
- Информационные Объекты, к которым отнесены различные типы Документов, в том числе проектная, проектно-сметная, техническая документация.
3.1.3. Иерархия Организаций содержит классы Инвестор, Заказчик и Партнер. Ввиду особой роли Организации-Заказчика, для нее введены подклассы Подразделения (представляют структуру организации – множество ее управлений, отделов и подотделов) и Руководство. Партнеры – множество организаций, взаимодействующих с Заказчиком по различным аспектам строительства, – в соответствии с их функциями объединены в подклассы: Проектировщики, Поставщики, включая Заводы-изготовители, которые далее классифицируются в зависимости от вида поставляемого оборудования, и Строители, которые подразделяются в зависимости от функций в организации процесса производства (Субзаказчики, Подрядчики) и класса строящихся объектов.
3.1.4. Иерархия Участков строительства формируется с учетом типов участков, на которых ведется строительство (магистральный газопровод, участок газопровода, компрессорная станция) и географического расположения конкретных строек в европейской и азиатской частях РФ. Иерархия содержит такие основные классы участков, как ЕвУчМГ (газопровод Ямал-Европа), АзУчКС (КС Пуртазовская).
Построенная иерархия ПО-классов позволяет представить структуру высказывания из предметной области в виде Факта, множество которых составляет пропозициональное содержание ДП. Каждый Факт несет информацию о том,
- кто (какая Организация)
- какую Функцию
- где (для какого / на каком Участке строительства)
выполняет.
Ядром высказывания из ПО является Функция – семантическая связь Работа – Объект работы (передача оборудования, подготовка документации, отправка блок-контейнеров ДЭС 1х16 кВт, строительство радиомачты).
Факт – это связка вида {Функция + Организация + Участок}, например:
ОАО "Сварочно-монтажный трест" гарантирует выполнение 80% объемов работ по вдольтрассовому проезду I пускового комплекса газопровода "СРТО - Торжок" км 1296.1-1307.55.
Факт {
Функция: (Работа: работа
Объект: вдольтрассовый проезд)
Участок: газопровод СРТО – Торжок
Организация: Сварочно-монтажный трест }
Формальное семантическое представление текста ДП в виде множества Фактов должно быть получено в процессе семантического анализа.
В системе InDocC используется словарь шаблонов технологии Alex, совмещающий в себе функции хранилища словарных статей, тезауруса и предварительного лингвистического процессора. Информация о словах и словосочетаниях, используемых системой, хранится в словаре в виде библиотеки настроенных на предметную область и жанр документов именованных шаблонов.
4.1. Строение и типы шаблонов.
Шаблон в словаре Alex – это множество фрагментов текста произвольной сложности (в общем случае, разрывных), представляющее собой список альтернатив, связываемых с определенной строковой конструкцией. Помимо условий на структуру и сборку шаблона, словарная статья содержит информацию о типе и значениях атрибутов объекта, который создается в процессе работы программы с входным текстом, когда в нем обнаруживается соответствующий фрагмент.
Шаблон представляет:
- множество словоформ одного слова; например, шаблон земля определен как [земл…V земел…], где многоточие представляет флексию произвольной длины, в том числе, и нулевую, знак V разделяет альтернативные варианты;
- устойчивое (терминологическое) словосочетание, представленное цепочкой шаблонов и/или словоформ; например, шаблон лесные земли определен как [лесн…_[земля]], где в определении шаблона используется ссылка на уже имеющийся в словаре шаблон;
- множество эквивалентных (синонимичных) шаблонов; например, шаблон лесные ресурсы определен как [[лес] V ([земля])_лесн…_фонд… V [лесные земли]] V лесн…_[ресурс]], где круглые скобки означают факультативность данного элемента в соответствующей строке текста.
Словарь Alex, используемый в системе InDocC, содержит следующие группы шаблонов:
- системные шаблоны (знак, буква, целое, слово);
- предметно-зависимые шаблоны (ПО-шаблоны), которые охватывают множество слов и словосочетаний, необходимых для представления ключевых понятий ПО;
- жанровые шаблоны, используемые для декомпозиции документа во множество типичных для жанра делового письма информационных блоков (обращение, заключительная реплика);
- служебные шаблоны, которые не соответствуют ключевым понятиям ПО, но регулярно используются а) при конструировании шаблонов основных типов (ЗАО, УКСиР, система) или б) в качестве вспомогательных элементов в процессе основного анализа документа.
3.3. ПО-шаблоны
Наиболее многочисленную группу в словаре составляют шаблоны, привязанные к предметной области. Имя шаблона соответствует нормализованному виду слова или словосочетания, представляющего данное понятие. Иерархия классов ПО-шаблонов соответствует иерархии классов ПО и покрывает все слова и словосочетания, которые выражают необходимые при анализе документа ключевые понятия. Атрибут СемТип словарной статьи ПО-шаблона представляет потенциальную семантическую роль понятия в структуре Факта, что соответствует одному из четырех базовых классов. Атрибут Класс словарной статьи ПО-шаблона указывает конкретный класс, к которому отнесено данное понятие. Примеры ПО-шаблонов (жирная точка в определении – знак дистантного контекста – означает произвольный текстовый фрагмент до следующего заданного фрагмента или до конца абзаца):
Имя |
Определение шаблона |
СемТип |
Класс |
таможенное оформление |
таможенн…_оформлени… V оформ… . в таможенн… орган…
|
Работа |
Хранение Перевозка |
трубы |
труб V трубы V труба… V трубы V трубе V трубой V трубу |
Объект |
ТрубАр-матура
|
газопровод Заполярное-Уренгой |
([газопровод]_) ([знак])(_)заполярное(_гнкм)(_)-(_)(н.)(_) уренгой(_)([знак])
|
Участок |
АзУчМГ |
Трубо-комплект |
([ЗАО]_)([знак])(_)трубокомплект(_)([знак]) V ([фирма]_) трубокомплект
|
Органи-зация |
ТрубоЗа-вод |
Словарная статья ПО-шаблона, помимо СемТип и Класс, содержит еще два атрибута, которые отражают особенности лексико-семантической сочетаемости шаблонов-предикатов (шаблонов, отнесенных к иерархии Работ) и в большей степени ориентированы на процедуру семантического анализа. Атрибут ТипИС отражает тип индивидуальной лексической сочетаемости шаблона-предиката с различными классами аргументов. Атрибут Арг показывает, имеет ли данная Работа семантическую валентность на Объект и силу этой валентности. Более детально значения и роль этих атрибутов обсуждаются в разделе 5.
Наличие ПО-шаблонов, объединяющих в себе множество синонимических выражений одного понятия, с одной стороны, и объектная ориентированность словаря, с другой, позволяют словарю выполнять функции тезауруса. Иерархия классов ПО-шаблонов передает ряд смысловых отношений между понятиями:
- родо-видовые отношения
Упомянутый шаблон лесные ресурсы отнесен к классу ПрирРесурсы наряду с шаблонами водные ресурсы, а класс ПрирРесурсы является, в свою очередь, подклассом Ресурсы.
- отношения часть-целое.
Магистральным газопроводам (газопровод СРТО-Торжок, газопровод Заполярное-Уренгой) соответствует класс УчМГ, которому наследует класс ЧастьМГ, включающий ряд шаблонов, соответствующих различным способам номинации линейных отрезков газопроводов:
[([участок]_)[число](_)км (_)-(_) [число](_)км],
[[участок]_[топоним](_)-(_)[топоним]].
- отношения структурного включения в широком смысле
Этот тип смысловых связей характеризует отношения Работ и составляющих их подработ. Так, классу Поставка наследуют классы Изготовление (производство, заводские испытания) и ХранениеПеревозка (таможенное оформление, доставка, ответственное хранение).
3.4. Жанровые шаблоны
Вторая по численности и значимости группа шаблонов связана с жанром документа и реализацией его особенностей в структуре и лексике документа. Различные варианты текстовой реализации терминальных компонент структуры ДП (раздел 2) описываются в формате шаблонов и помещаются в словарь в папку жанровых шаблонов. Ниже дано несколько примеров. Условие на сборку шаблона (помета А) означает, что соответствующий шаблон реализуется в рамках самостоятельного абзаца.
Резюме = [по_поводу . V касательно. V о. V об. V по_вопросу . V тема .] А
Обращение = [уважаем… . !] А
Заключительная Реплика =[с_уважением(,) . V c_ наилучшими пожеланиями(,) . ] А
Примечания= [Примечани… . ] А
Заголовок_Приложений= [приложени… . V прилага…. ]А
Орг_Получатель=[Ямалгазинвест] А
Подписант = [[Должность] (_[Партнер]). ]
Адресат = [[Должность]_[Организация](_[Господину]). ([Адрес] ) V
Куда(:)_[Организация]_кому(:)_ [Должность]. V
[Организация] _[Должность] . [Адрес] ]
Господину = [г(_)-(_)ну V господину V г(_)-(_)же V госпоже]
Отправитель=[Организация]_[Реквизиты]
- Анализ делового письма
5.1. Предварительный анализ текста ДП, поступающего на вход системы, реализуется с помощью системы Alex, которая осуществляет основные операции по выделению в тексте документа жанровых разделов и ключевых понятий в границах Основного текста:
- идентифицируются и собираются текстовые фрагменты по заданным в словаре определениям шаблонов;
- выделенные текстовые фрагменты выдаются как множество именованных объектов, снабженных атрибутами, значения которых характеризуют позиции начала и конца объекта в тексте;
- все объекты снабжаются значениями атрибутов словарной статьи, т.о. ПО-объекты получают необходимые на этапе основного анализа характеристики СемТип, Класс, ТипИС и Арг.
В задачи предварительного анализа входит определение границ Основного раздела и организации-отправителя или группы коммуникантов. Для определения границ Основного текста используются жанровые шаблоны Обращение и Подпись. Если жанровый шаблон Отправитель не идентифицирован (как в приведенном в разделе 2 примере, где организация-отправитель в шапке письма не распознана), то определяется группа Коммуникантов. Если шаблонов Обращение и Подпись не найдено или организации в шапке письма не распознаны, то в качестве коммуникантов рассматриваются все упомянутые в письме организации-Партнеры. Результат предварительного анализа приведенного в разделе 2 примера:
Документ.Коммуниканты :
Класс: ТрубоЗавод [Трубокомплект]
Документ.Основной_текст:
Класс: ХранениеПеревозка [доставка], [таможенное оформление]
Класс: Работа [замена], [изменение]
Класс: Работа [отправка]
Класс: АзУчМГ [газопровод Заполярное-Уренгой]
Класс: Поставка [отгрузка]
Класс: Поставка [отгрузочные реквизиты]
Класс: ТрубАрматура [трубы]
Класс: Лок [район строительства]
Класс: Заказчик [Ямалгазинвест]
5.2. Целью семантического анализа является сборка множества Фактов на основе выделенных в границах Основного текста ключевых понятий. В качестве базовой информации рассматривается способность понятия представлять ту или иную составляющую Факта в рамках связного текстового фрагмента.
5.2.1. Предикатное ключевое слово (СемТип =Работа), в зависимости от того, какой конкретный класс Работ оно представляет, имеет потенциальные семантические связи с лексическими единицами, которые могут претендовать на семантическую роль объекта работы (СемТип=Объект) в структуре Факта. Такие потенциальные семантические связи фиксируются с помощью таблиц сочетаемости. Отношение Comb1 описывает характерные для каждого класса работ связи с объектами. Примером стандартного сочетания являются комбинации работ класса “Строительство” с объектом класса “СтрОбъект” (ввод ГИС1.1 в эксплуатацию):
Comb1 (Раб: "Строительство", Об: "СтрОбъект", УтРаб: "Строительство").
Предикаты более общей семантики, как правило, имеют более широкую сочетаемость с различными классами объектов, при этом класс работы уточняется в соответствии с семантикой объекта (работы по вдольтрассовому проезду => строительство вдольтрассового проезда):
Comb1 (Раб: "Работа", Об: "ПрирРесурс", УтРаб: "Природопользование"),
Comb1 (Раб: "Работа", Об: "МТРесурс", УтРаб: "Поставка"),
Comb1 (Раб: " Работа ", Об: " Проект ", УтРаб: "ПИР"),
Comb1 (Раб: " Работа ", Об: "СтрОбъект", УтРаб: "Строительство").
К базовому классу Работа отнесены универсальные предикаты с нестандартной сочетаемостью, тип которой представлен в словаре значением атрибута ТипИС: разработка, доработка, согласование, замена, заказ, подготовка, отправка, использование. Идивидуальная сочетаемость предиката или группы предикатов проявляется как в классе объекта-аргумента, так и в семантике самого предиката в данном употреблении (уточненная работа):
Comb1 (Раб: "Отправка", Об: " МТРесурс ", УтРаб: " Поставка ");
Comb1 (Раб: " Отправка", Об: " Документация ", УтРаб: " Документооборот ");
Comb1 (Раб:" Замена ", Об: " МТРесурс ", УтРаб: " Строительство ");
Comb1 (Раб: " Замена ", Об: " ТрубАрматура ", УтРаб: " СтроительствоМГ ");
Comb1 (Раб: " Замена ", Об: " Проект ", УтРаб: " ПИР ").
При сборке Функции учитывается наличие/отсутствие у конкретного предиката валентности на объект и сила этой валентности (значения поля Арг словарной статьи). В семантике таких терминов, каклесопользование, землеустроительные работы, внутритрубная дефектоскопия, противопожарные услуги. Работа и Объект работы представлены синкретически: лесопользование vs. использование древесины.В этом случае Арг=1, Функцию формирует только Работа. Значение Арг=2 характеризует предикаты со слабой валентностью на Объект – возможна редукция Объекта, что не исключает формирования Функции, но семантика ее остается более общей (Работа не уточняется Объектом): монтажные работы (Арг=2, Работа – Производство) vs. монтаж оборудования (Арг=3, уточненная работа – Изготовление).
Процесс сборки Фактов опирается не только на лексико-семантическую сочетаемость ключевых слов, но и на имеющуюся информацию об их линейном порядке. Так, при сборке Функций из всех возможных семантических связей “Работа – Объект работы” выбираются только проективные.
5.2.2. Таблица сочетаемости Comb2 представляет знания об Организациях различных классов как субъектах деятельности. Например, Трубозавод в роли Организации-исполнителя работы выполняет все виды работ (включая подклассы) по поставкам трубопроводной арматуры, но не занимается заказом соответствующего оборудования:
Comb2 (Орг: "ТрубоЗавод", УтРаб: "Поставка", УтОб: "ТрубАрматура");
Comb2 (Орг: "ТрубоЗавод", УтРаб!="Заказ", УтОб:"ТрубАрматура").
При сборке Функций с Организациями учитывается следующая особенность жанра ДП: по умолчанию (при отсутствии информации в соответствующем сегменте текста) организацией-исполнителем соответствующей работы является Партнер –Отправитель ДП, заказчиком – Заказчик.
Для сборки полных фактов используются также знания о том, с каким участком строительства связана деятельность того или иного Партнера:
Comb3 (Ор: "Трубокомплект", Уч: "газопровод Заполярное-Уренгой");
Comb3 (Орг: "Турбомоторный завод", Уч: "КС Пуртазовская");
Comb3 (Орг: "Сварочно-монтажный трест", Уч: "газопровод СРТО-Торжок").
5.3. Тематический анализ ДП состоит в проверке семантических отношений между составляющими собранных Фактов. Близкие по семантике Факты собираются в Тематические Факты, совокупность которых представляет Тему письма. В основе тематического анализа лежат тезаурусные связи Понятий, как они представлены в иерархии классов. Понятия с одинаковыми семантическими признаками собираются в гиперпонятие, в единое понятие собираются и уточняются на основе иерархии классов семантически совместимые участки, однотипные Функции объединяются. Результирующими являются все Факты, которые не являются частью других Фактов, not(Факт1.Состав < Факт2.Состав). Тема документа формируется как объединение Тематических Фактов. Для нашего примера сформирован один Тематический Факт:
Документ.Тема:
Факт1 {
Функции:
[доставка], [таможенное оформление] – [трубы]
[отправка] – [трубы]
[отгрузка] – [трубы]
[отгрузочные реквизиты] – [трубы]
Участки работ :
Класс: АзУчМГ , Вид:[газопровод Заполярное-Уренгой]
Организации:
Класс: ТрубоЗавод , Вид: [Трубокомплект]
Класс: Заказчик, Вид: [Ямалгазинвест]
}
5.4. Возможны различные подходы к классификации ДП, исходя из описанного формального представления его Темы. В данной версии системы реализован подход, основанный на методе прагматических ориентаций.
Прагматическая ориентация выражает предпочтение адресации, это множество потенциальных получателей, которым может быть направлено письмо, содержащее данное Понятие (или Понятие данного класса). Классы понятий размечаются разработчиком или экспертом индексами, каждый из которых кодирует некоторую функциональную роль и связан с ФИО соответствующего сотрудника, например, начальник Управления материально-технического снабжения и комплектации (Бекташев Ю.С):
ОрЭл (Эл: "Строительство", Ор: УпрСтр + УпрСпР );
ОрЭл (Эл: "Поставщик", Ор: УпрМТОиК);
Базовые предпочтения документа задаются ориентацией группы коммуникантов. Формируемые на основе Понятий Функции и Факты получают прагматические ориентации за счет пересечения ориентаций составляющих понятий таким образом, что пересечение ориентаций всех Понятий и базовой ориентации документа не пусто.
Для уточнения ориентации Тематических Фактов используются следующие эвристики: 1) если ориентация Факта указывает на все подотделы некоторого подразделения, то адресатом является только начальник этого подразделения; 2) если ориентация указывает на некоторый подотдел, то в адресацию включается и непосредственно вышестоящее подразделение – начальник.
Тестирование работы системы на имеющемся корпусе писем показало 73,6% удовлетворительной адресации. Результат классификации для нашего примера:
Факт1 {
Ориентация: {47, 53} count:2
}
Документ.Получатели:
УМТОиК: Бекташев
Отдел трубопроводной арматуры: Николаева
- Развитие системы InDocC
Основное направление развития системы InDocC связано с улучшением функций настройки и контроля исполнения со стороны пользователя. Наиболее перспективным с этой точки зрения является подход к классификации деловых писем на основе так называемого метода фильтрации, ввиду большей гибкости и удобства при настройке системы экспертом.
Фильтры задаются экспертом как множество Тем, представляющих Факты и/или Понятия, которые должны присутствовать или, напротив, отсутствовать в тексте письма для того, чтобы оно соответствовало некоторому предпочтению адресации. Фильтр специфицируется как конъюнкция положительных и отрицательных простых фильтров, если простой фильтр определен как Факт, у которого известна (заполнена) хотя бы одна структурная составляющая. Предпочтение адресации определяется как совокупность функциональных ролей и/или сотрудников, которые подписываются на письма, удовлетворяющие некоторой, в общем случае альтернативной, спецификации фильтра. Спецификация задается экспертом или самим заинтересованным сотрудником. При использовании метода фильтров рассылка письма определяется предпочтениями всех фильтров, которым удовлетворяет данное письмо.
В настоящее время метод фильтрации в применении к задаче классификации ДП находится в стадии разработки и эксперимента.
Литература
- Жигалов Д., Жуков А., Кононенко И., Соколова Е., Толдова С. Система Алекс как средство для автоматизированной обработки текстов экспертом и перспективы ее развития // Настоящий сборник.
- Загорулько Ю.А., Попов И.Г. Описание сложных предметных областей на основе интеграции средств представления знаний // Труды международного семинара Диалог’97 по компьютерной лингвистике и ее приложениям. – Москва, 1997. – с.110-115.
Business letter processing as a part of documents circulation system
Irina S. Kononenko, Elena A. Sidorova
Keywords: documents circulation, business letter, classification, genre structure, domain, key notion, fact, template, semantic analysis, topic.
Within a documents circulation system of the enterprise there is an incoming flow of documents that come from the outside and are to be classified and directed properly to the employees according to the document content. A considerable proportion of incoming mail are business letters remarkable for their specific genre structure. An approach to processing business letters is proposed that involves both genre structure and domain knowledge considerations. An original method of templates is applied to describe genre and domain key words and phrases. The instrumental system Alex proved to be useful to build the template vocabulary and perform lexical analysis of the input letter. The detected key notions are used to assemble facts at the stage of semantic analysis. Examination of semantic relations between facts is applied to obtain topical structure. The functional relations of topic facts to the enterprise departments and employees determine real addressees for the input letter. The semantic analysis and the classification proper are realized by means of the SEMP programming environment.