Proceedings 2002

Contents

ОБРАБОТКА ДЕЛОВОГО ПИСЬМА В СИСТЕМЕ

ДОКУМЕНТООБОРОТА

 

 

И. С. Кононенко

Российский НИИ Искусственного интеллекта

irina@mail.nsk.ru

 

Е. А. Сидорова

Российский НИИ Искусственного интеллекта

lena@iis.nsk.su

 

 

Ключевые слова: документооборот, деловое письмо, классификация документов,  предметная область, ключевое понятие, факт,  жанровая структура,  шаблон, семантический анализ, тема.

 

В системе документооборота предприятия существенную часть входящего потока документов составляют деловые письма. Задача системы InDocC состоит в классификации деловых писем – определении фактического адресата письма в соответствии с его тематикой. Предлагается подход к обработке деловых писем, который базируется на жанровой структуре документа и на знаниях о предметной области предприятия. Множество ключевых слов представляется в виде системы шаблонов, которые идентифицируются в тексте на этапе предварительного анализа. В процессе семантического анализа из множества ключевых понятий  строятся факты, семантические связи которых позволяют определить тематическую структуру письма. В зависимости от функциональных связей темы с подразделениями и сотрудниками, осуществляется собственно классификация.

 

 

  1. Введение

 

Автоматизация документооборота предприятия предполагает решение  ряда задач, одной из которых является классификация (рассылка) входящих документов. По со­держанию документа необходимо определить, в какие подразделения и кому из со­трудников предприятия должен быть передан для рассмотрения анализируемый доку­мент, в соответствии с функциональной ролью сотрудника в структуре предприятия. Существенную часть корреспонденции, получаемой предприятием от деловых партне­ров, составляют документы, написанные в жанре делового письма (ДП). В статье опи­сывается работа системы  InDocC, предназначенной для анализа содержания и  клас­сификации входящих ДП.

Большинство  документов поступает на предприятие в виде твердой копии, в связи с чем требуется его первичная обработка – сканирование и распознавание для получе­ния электронной версии документа. При хорошем качестве исходного документа ре­зультат его распознавания  содержит достаточно информации  для решения поставлен­ной задачи.

Предлагаемый подход к обработке ДП базируется на жанровой структуре доку­мента и на знаниях о предметной области (ПО) предприятия. Методы объектно-ориентированного анализа позволяют представить систему понятий ПО,  над которыми строятся факты, отражающие тематику письма.

Выходной информацией для системы является формальное представление основ­ного содержания  письма в виде совокупности обсуждаемых в нем тем и множество заинтересованных в тематике письма получателей.

Обработка ДП включает выполнение следующих процедур:

  • Предварительный анализ

-        сегментация документа

-        лексический анализ (выделение ключевых понятий)

  • Семантический анализ

-        сборка  фактов

-        тематический анализ

  • Классификация

Объектно-ориентированный словарь представляет множество ключевых слов и словосочетаний в виде системы предметных и жанровых шаблонов. В качестве сред­ства формирования словаря и реализации лексического анализа использована инстру­ментальная система Alex   [1] .

На этапе семантического анализа из множества ключевых понятий, найденных словарем, строятся факты, а проверка семантических отношений между фактами по­зволяет сформировать тематическую структуру письма в виде множества тематических фактов. Далее, в зависимости от функциональных связей тем с подразделениями и со­трудниками, осуществляется собственно классификация ДП. Основной анализ реали­зован средствами интегрированной программной среды SEMP  [2].

 

 

1.              Жанровые особенности и структура  делового письма

 

В нашем распоряжении  имеется  обучающий корпус ДП, который можно считать достаточно репрезентативным для выявления структурных и семантических особенно­стей текстов этого  жанра. Исх.№449от22.11.2000 На исх. № 05/3705 от 21.11.2000 г. Генеральному директору ЗАО "Ямалгазинвест" госпо­дину Чугунову Л.С. Уважаемый Леонид Семенович! В соответствии с Вашей просьбой Фирмой "Трубоком­плект" организована оперативная замена реквизитов для отгрузки в ноябре 2000 г. труб в объеме 3126т на газо­провод "Заполярное - Уренгой". Однако, для замены до­кументов на уже приготовленные к отправке маршрутные составы с трубами и их повторного оформления в тамо­женных органах Украины потребовалось дополнительное время, поэтому отгрузка указанных составов в район строительства была приостановлена ориентировочно на 3-4 суток. Для обеспечения бесперебойной доставки труб на газопровод "Заполярное - Уренгой" просим Вашего указания о направлении в наш адрес измененных отгру­зочных реквизитов не позднее, чем за 15 дней до плани­руемой даты отгрузки. С наилучшими пожеланиями и уверенностью в дальнейшем долгосрочном сотрудниче­стве, Исполнительный директор О.Б.Бугаев ОАО .ГАЗПРОМ" 117884, ГСП, Москва, В-420, ул. Наметана, 1.  Газовый телефон: 9-7438. Факс: (095) 719-8333. Те­лекс: (064) 4) 1467 GAZ RU. Телетайп: 111012. Ш823 СИНТОН

   

 

      Рис. 1. Жанровая структура  делового письма

 

 

2.1. При решении задачи классификации документов рассматриваются только те ДП, которые имеют статус входящих  (адресованных  сотрудникам данного предпри­ятия). Под  Отправителем подразумевается организация, явным образом указанная в этом качестве в тексте – обычно в шапке документа. Что касается статуса Адресата, то следует различать номинального адресата(ов) (далее – Адресат), указанного в адресат­ной части документа, и фактического адресата(ов)  (далее – Получатель). Задача системы – определить Получателя, т.е. сотрудника, к компетен­ции которого относятся поставленные в ДП вопросы. На рис.1 приводится  пример   и общая структура ДП (звездочкой помечены факультативные составляющие).

2.2. Ниже приведено формальное описание жанровой структуры ДП в рамках кон­текстно-свободной грамматики (КСГ).  В правой части правил отражен состав и поря­док следования компонент структуры.  Используются следующие обозначения:

 

А+В                                   

Смежные компоненты в  заданном порядке                                         

(А)^, (А+B)^      

Последовательность однотипных компонент

А V В, (А V В) + С           

Альтернативные варианты структуры

А*,  (А+В)*                     

Факультативная компонента

 

1.Деловое_Письмо =  Вводный_Раздел +  Основной_Раздел + Заключит_Раздел.

  1. Вводный_Раздел = Коммуниканты_разд +Резюме* + Обращение*
  2. Коммуниканты_разд = (Отправитель_Разд + Адресат_Разд) V

                 (Адресат_Разд +  Отправитель_Разд)

  1. Адресат_Разд = Адресат^ + Копия_Адресат_Разд*
  2. Копия_Адресат_Разд = (Заголовок_Копия + Адресат)^.

6.1. Отправитель_Разд = Отправитель* +  Регистрация_Отправителя*

6.2. Регистрация_Отправителя =  Исходящий_Отправителя + Р_Исходящий_Получателя*

7.1. Основной_Раздел = Текст_письма + Примечания* + Приложения*      

7.2.  Приложения   =   Заголовок _Приложений +   

                                     ( Реестр_Вложений V Вложение).

7.3. Реестр_Вложений    =  (Номер_в_Реестре + Вложение)^  

8.1. Заключит_Раздел  = Подпись_разд +

                    Исполнитель* + Регистрация_Получателя* + Бланкодержатель*

8.2. Подпись_разд = Заключительная_Реплика* + Подписант

 

В Деловом Письме выделяется три основных раздела (1). Вводный раздел содержит подраздел Коммуникантов, состоящий из подразделов Отправителя  и Адресата. По­мимо Коммуникантов, Вводный раздел включает  Резюме и Обращение (2). Подраздел  Коммуникантов  обычно находится в абсолютном начале письма, Отправитель, как правило, – в препозиции. В подразделе Адресата  указываются  наименование, почтовый адрес или факс организации-адресата, должность и ФИО сотрудника организации, кото­рому непосредственно адресовано письмо.   Адресат  может быть единичным  или множе­ственным (4); некоторым адресатам ДП направляется в статусе копии (5). В подразделе Отправителя с различной степенью полноты представлена информация об организа­ции-адресанте письма – наименование, подразделение, постоянные реквизиты (почто­вый и электронный адреса, телефон, факс, банковские реквизиты). Неполнота инфор­мации в нескольких письмах (только наименование, только реквизиты), как и ее отсут­ствие в приведенном на рис.1 примере, обусловлены качеством распознавания шапки документа. В подразделе Отправителя  возможна составляющая Регистра­ция_Отправителя, которая  содержит выходные данные письма,  зафиксированные ад­ресантом  при отправке (6).

Резюме  отражает обсуждаемую в письме тему: Об оплате выполненных работ; Ка­сательно термоусаживающихся   манжет фирмы “Кануса”. Резюме имеется только в  половине рассматриваемых писем, а его содержание далеко не всегда достаточно полно отражает тематику письма, в связи с чем было принято решение   при классификации опи­раться на содержание Основного раздела.

При единичном Адресате весьма вероятно наличие во Вводном разделе Обращения (Уважаемый…!),  при множественном наличие  Обращения  возможно, но маловероятно (Уважаемые господа!).

Основной раздел содержит Текст письма, за которым могут следовать факульта­тивные Примечания   и Приложения (7).

За Основным разделом следует Заключительный раздел, обязательной составляющей которого является Подпись. Факультативны в составе Заключительного раздела  следую­щий за Подписью  элемент Исполнитель, подраздел Регистрация_Получателя и Бланко­держатель (8.1).

Подраздел Подпись структурируется как факультативная Заключительная_Реплика (С уважением,…, С наилучшими пожеланиями…) и собственно Подписант, где с разной сте­пенью полноты представлена информация о сотруднике, подписавшем данное письмо (должность, организация, ФИО) – 8.2.

В Заключительном Разделе ДП имеется факультативный подраздел Регистра­ция_Получателя,  – эта информация фиксируется либо от руки, либо с помощью печати предприятия  и в этом случае (как и другие штампы) часто в  письмах распознана плохо.

2.3. Компоненты структуры документа  отражают разбиение текста документа на информационные блоки различной функциональности. Можно говорить об основных и вспомогательных компонентах структуры ДП. Так, Обращение и Подпись служат для  выделения блока Основной текст; кроме того,  Обращение является показателем жанра.  К числу основных компонент, необходимых для решения задачи адресации ДП,  отне­сены  Отправитель, Адресаты,   Основной текст. Процедура анализа использует гра­ницы раздела Отправитель  для определения (непосредственно или с помощью Рекви­зитов) наименования организации-отправителя ДП,  что позволяет применить знания о функциях этой организации. В границах Основного текста ищутся ключевые понятия, на основе которых анализируется пропозициональное содержание ДП.

 

 

  1. Структура предметной области

 

Знания о ПО извлекались методом концептуального анализа  из исходного корпуса деловых писем и  из имеющихся материалов о деятельности и структуре предприятия. Настраиваемая информация о сущностях ПО и отношениях между ними, а также о предпочтениях адресации хранится в базе знаний системы. Именованные сущности ПО – это  Понятия, которые с помощью объектно-ориентированного анализа выстраива­ются в иерархии классов понятий.

 

3.1. Иерархия классов

 

Рассматриваются следующие базовые классы:

  • Работы
  • Объекты работы
  • Организации  
  • Участки работы

3.1.1. Иерархия Работ отражает структуру деятельности предприятия и его партне­ров. Основные классы представляют производственную и финансовую деятельность, а также работу с документами (создание документов и документооборот). На рис.2 изо­бражен фрагмент иерархии Работ.

  • Подготовка производства

-        Подготовка территории строительства  (очистка от взрывоопасных пред­метов, размещение),

-        Природопользование (перевод в нелесные земли, вырубка, рекультива­ция),

-        Проектно-изыскательские работы (проектировать, авторский надзор),

-        Экспертиза (экологическая  экспертиза, метрологическая экспертиза);

  • Строительство – специальные и основные строительные работы (шефмонтаж, укладка, внутритрубная дефектоскопия, пусконаладка, ввод в эксплуатацию, трассовые испытания);

§        Поставки – работы по изготовлению оборудования (производство, заводские испыт­ания) и работы, связанные с хранением и перевозкой МТРесурсов (от­грузка, таможенное оформление, ответственное хранение).

 


 

Рис. 2. Иерархия работ

 

3.1.2. Иерархия Объектов, используемых или создаваемых в процессе работы, включает

  • Ресурсы, в том числе

-        природные ресурсы (лесные земли, животный мир),

-        материально-технические ресурсы  – Материалы  и Оборудование, вклю­чая Трубопроводную арматуру, Технологическое оборудование, КИПиА, Транспорт и Электрооборудование (трубопроводная арма­тура, аппарат 2АВГ-75, САУ, транспортное средство, трансформа­торная подстанция);          

  • Строящиеся Объекты

-        объекты основных строительных работ, к которым относятся объекты магист­ральных газопроводов МГ (трубопровод, подводный переход, плеть, кожух, лупинг), объекты компрессорных станций КС (компрессорный цех), Наземные объекты (ВЖК, автодорога),

-        объекты специальных работ – Объекты Электроснабжения и Автоматиза­ции (электроустановка, пункт теленаблюдения), Объекты Связи (радиоре­лейная станция) и Газоизмерительные станции (ГИС);

  • Информационные Объекты, к которым отнесены различные типы Документов, в том числе проектная, проектно-сметная, техническая документация.

3.1.3. Иерархия Организаций содержит классы Инвестор, Заказчик   и Партнер.  Ввиду особой роли Организации-Заказчика, для  нее введены подклассы Подразделе­ния  (представляют структуру организации  – множество ее управлений, отделов и подотделов) и Руководство. Партнеры – множество организаций, взаимодействующих с Заказчиком по различным аспектам строительства,    в соответствии с их функциями объединены в подклассы: Проектировщики, Поставщики, включая Заводы-изготови­тели, которые далее классифицируются в зависимости от вида поставляемого оборудо­вания,  и  Строители, которые  подразделяются в зависимости от функций в организа­ции процесса  производства (Субзаказчики, Подрядчики) и класса строящихся объек­тов.

3.1.4. Иерархия Участков строительства формируется с учетом типов участков, на которых ведется строительство (магистральный газопровод, участок газопровода, компрессорная станция) и  географического расположения конкретных строек в евро­пейской и азиатской частях  РФ. Иерархия содержит такие основные классы участков, как ЕвУчМГ (газопровод Ямал-Европа), АзУчКС  (КС Пуртазовская).

 

3.2. Структура Факта

 

Построенная иерархия ПО-классов позволяет представить структуру высказыва­ния из предметной области в виде Факта, множество которых составляет пропозицио­нальное содержание ДП. Каждый Факт несет информацию о том,

-        кто (какая Организация)

-        какую Функцию  

-        где (для какого / на каком Участке строительства)

выполняет.

Ядром высказывания из ПО является Функция – семантическая связь  Работа  – Объект работы  (передача оборудования, подготовка документации, отправка блок-контейнеров ДЭС 1х16 кВт, строительство радиомачты).

Факт – это связка вида {Функция + Организация + Участок}, например:

ОАО "Сварочно-монтажный трест" гарантирует выполнение 80% объемов ра­бот по вдольтрассовому проезду I пускового комплекса газопровода "СРТО - Торжок" км 1296.1-1307.55.

Факт {

   Функция: (Работа: работа

                      Объект: вдольтрассовый проезд)

    Участок:  газопровод СРТО – Торжок

    Организация: Сварочно-монтажный трест }

Формальное семантическое представление текста ДП в виде множества Фактов должно быть получено в процессе семантического анализа.

 

 

  1. Типология шаблонов словаря Alex в системе InDocC

 

В системе InDocC   используется словарь  шаблонов технологии Alex, совмещаю­щий в себе  функции хранилища словарных статей, тезауруса и  предварительного лин­гвистического процессора. Информация о словах и словосочетаниях, используемых системой, хранится в словаре в виде библиотеки настроенных на предметную область и жанр документов именованных шаблонов.

 

4.1. Строение и типы шаблонов.

 

Шаблон в словаре Alex – это множество фрагментов текста произвольной сложности (в общем случае, разрывных), представляющее собой список альтернатив, связываемых с определенной строковой конструкцией. Помимо условий на структуру и сборку шаблона, словарная статья содержит информацию о типе и значениях атрибутов объекта, который  создается в процессе работы программы с входным текстом, когда в нем обнаруживается соответствующий фрагмент.

Шаблон  представляет:

  • множество словоформ одного слова; например, шаблон земля определен как [земл…V земел…],  где многоточие представляет флексию произвольной длины, в том числе, и нулевую, знак V разделяет альтернативные варианты;
  • устойчивое (терминологическое) словосочетание, представленное цепочкой шабло­нов и/или словоформ; например, шаблон лесные земли определен как [лесн…_[земля]], где в определении шаблона используется ссылка на уже имею­щийся в словаре шаблон;
  • множество эквивалентных (синонимичных) шаблонов; например, шаблон лесные ресурсы определен как [[лес] V ([земля])_лесн…_фонд…  V [лесные земли]] V  лесн…_[ресурс]], где круглые скобки означают факультативность данного  эле­мента в соответствующей строке текста.

Словарь Alex, используемый в системе InDocC, содержит следующие группы шаблонов:

  • системные шаблоны (знак, буква, целое, слово);
  • предметно-зависимые шаблоны (ПО-шаблоны), которые охватывают множе­ство слов и словосочетаний, необходимых для представления ключевых поня­тий ПО;
  • жанровые шаблоны, используемые для декомпозиции документа во множество типичных  для жанра делового письма информационных блоков (обращение, заключительная реплика);
  • служебные шаблоны, которые не соответствуют ключевым понятиям ПО, но ре­гулярно используются а) при конструировании шаблонов основных типов (ЗАО, УКСиР, система) или б) в качестве вспомогательных элементов в  процессе основного анализа документа.

 

3.3.          ПО-шаблоны

 

Наиболее многочисленную группу в словаре составляют  шаблоны, привязанные к предметной области. Имя шаблона соответствует нормализованному виду слова или словосочетания, представляющего данное понятие. Иерархия классов ПО-шаблонов  соответствует иерархии классов ПО и покрывает все слова и словосочетания, которые выражают  необходимые при анализе документа ключевые понятия.  Атрибут СемТип  словарной статьи ПО-шаблона представляет потенциальную семантическую роль по­нятия в структуре Факта, что соответствует одному из четырех базовых классов. Атри­бут Класс словарной статьи ПО-шаблона указывает конкретный класс,  к которому отнесено данное понятие. Примеры ПО-шаблонов (жирная точка в определении – знак дистантного контекста – означает произвольный текстовый фрагмент до следующего заданного фрагмента или до конца абзаца):

 

Имя

Определение шаблона
СемТип
Класс

 

таможенное оформление

 

таможенн…_оформлени…

V

оформ… . в таможенн… орган…

 

 

Работа

 

Хранение

Перевозка

 

трубы

 

труб V трубы V труба… V  трубы  V 

трубе V   трубой  V  трубу

 

Объект

 

ТрубАр-матура

 

 

 

газопровод Заполярное-Уренгой

 

([газопровод]_) ([знак])(_)заполярное(_гнкм)(_)-(_)(н.)(_) уренгой(_)([знак])   

 

 

 

Участок

 

 

АзУчМГ

 

Трубо-комплект

 

([ЗАО]_)([знак])(_)трубокомплект(_)([знак])

V

 ([фирма]_) трубокомплект

 

 

Органи-зация

 

ТрубоЗа-вод

 

Словарная статья  ПО-шаблона, помимо СемТип и Класс, содержит еще два атри­бута, которые  отражают особенности лексико-семантической сочетаемости шаблонов-предикатов (шаблонов, отнесенных к иерархии Работ) и в большей степени ориентиро­ваны на процедуру семантического анализа. Атрибут ТипИС отражает тип индивиду­альной лексической сочетаемости шаблона-предиката с различными классами аргу­ментов. Атрибут Арг показывает, имеет ли  данная Работа семантическую валентность на Объект и силу этой валентности. Более детально  значения и роль этих атрибутов обсуждаются в разделе 5.   

Наличие ПО-шаблонов, объединяющих в себе множество синонимических выра­жений одного понятия, с одной стороны, и объектная ориентированность словаря, с другой, позволяют словарю выполнять функции  тезауруса. Иерархия классов ПО-шаблонов передает ряд смысловых отношений между понятиями:

-        родо-видовые отношения

Упомянутый шаблон лесные ресурсы отнесен к классу ПрирРесурсы наряду с шабло­нами водные ресурсы, а класс ПрирРесурсы является, в свою очередь, подклассом Ресурсы. 

-        отношения часть-целое.

Магистральным газопроводам (газопровод СРТО-Торжок, газопровод Заполярное-Уренгой) соответствует класс УчМГ, которому наследует класс ЧастьМГ, включаю­щий ряд шаблонов, соответствующих различным способам номинации линейных от­резков газопроводов:

[([участок]_)[число](_)км (_)-(_) [число](_)км],

[[участок]_[топоним](_)-(_)[топоним]].

-        отношения структурного включения в широком смысле

Этот тип смысловых связей характеризует отношения  Работ и составляющих их под­работ. Так, классу Поставка наследуют классы Изготовление (производство, заво­дские испытания) и ХранениеПеревозка (таможенное оформление, доставка, ответ­ственное хранение).

 

3.4. Жанровые шаблоны

 

Вторая по численности и значимости группа шаблонов связана с жанром доку­мента и реализацией  его особенностей  в структуре и лексике документа. Различные варианты текстовой реализации терминальных компонент структуры ДП (раздел 2) описываются  в формате шаблонов и помещаются в словарь в папку жанровых шабло­нов. Ниже дано несколько примеров. Условие на сборку шаблона (помета А)  озна­чает, что соответствующий шаблон реализуется в рамках самостоятельного абзаца.

Резюме = [по_поводу . V  касательно. V о. V об.  V по_вопросу . V тема .] А

Обращение = [уважаем… . !] А

Заключительная Реплика  =[с_уважением(,) . V c_ наилучшими  пожеланиями(,) . ] А

Примечания=   [Примечани… . ] А

Заголовок_Приложений=  [приложени… . V прилага….

Орг_Получатель=[Ямалгазинвест] А

Подписант =  [[Должность] (_[Партнер]). ]

 Адресат = [[Должность]_[Организация](_[Господину]). ([Адрес] ) V

                   Куда(:)_[Организация]_кому(:)_ [Должность].  V

                   [Организация] _[Должность] . [Адрес] ]

Господину = [г(_)-(_)ну V господину V г(_)-(_)же V госпоже]                                    

Отправитель=[Организация]_[Реквизиты]

 

 

  1. Анализ делового письма

 

5.1. Предварительный анализ текста ДП, поступающего на вход системы, реализу­ется с помощью системы  Alex, которая осуществляет основные операции по выделе­нию в тексте документа жанровых разделов и ключевых понятий в границах Основ­ного текста: 

-        идентифицируются и собираются текстовые фрагменты   по заданным в сло­варе определениям шаблонов;

-        выделенные  текстовые фрагменты выдаются как множество именованных объек­тов, снабженных атрибутами, значения которых характеризуют позиции начала и конца объекта в тексте;

-        все объекты снабжаются значениями атрибутов словарной статьи, т.о.  ПО-объ­екты получают необходимые на этапе основного анализа характеристики Сем­Тип, Класс, ТипИС и Арг.

В задачи предварительного анализа входит определение границ Основного раздела и организации-отправителя или группы коммуникантов. Для определения границ Основного текста используются жанровые шаблоны Обращение и Подпись.  Если жанровый шаблон Отправитель не идентифицирован (как в приведенном в разделе 2 примере, где организация-отправитель в шапке письма не распознана), то определяется группа Коммуникантов.  Если  шаблонов Обращение и Подпись не найдено или организации в шапке письма не распознаны, то в качестве коммуникантов рассматриваются все упомянутые в письме организации-Партнеры. Результат предварительного анализа приведенного в разделе 2  примера:

       Документ.Коммуниканты :

        Класс: ТрубоЗавод            [Трубокомплект]

      Документ.Основной_текст: 

        Класс: ХранениеПеревозка   [доставка], [таможенное оформление]

        Класс: Работа   [замена], [изменение]

        Класс: Работа    [отправка]

        Класс: АзУчМГ   [газопровод Заполярное-Уренгой]

        Класс: Поставка   [отгрузка]

        Класс: Поставка   [отгрузочные реквизиты]

        Класс: ТрубАрматура   [трубы]

        Класс: Лок   [район строительства]

        Класс: Заказчик   [Ямалгазинвест]

5.2. Целью семантического анализа является  сборка множества Фактов на основе выделенных в границах Основного текста ключевых понятий. В качестве базовой ин­формации рассматривается способность понятия представлять ту или иную состав­ляющую Факта в рамках связного текстового фрагмента.

5.2.1. Предикатное ключевое слово (СемТип =Работа), в зависимости от того, ка­кой конкретный класс Работ оно представляет, имеет потенциальные семантические связи с лексическими единицами, которые могут претендовать на семантическую роль объекта работы (СемТип=Объект) в структуре Факта. Такие потенциальные семанти­ческие связи  фиксируются с помощью  таблиц сочетаемости. Отношение Comb1 опи­сывает характерные для каждого класса работ связи с объектами. Примером  стандарт­ного сочетания являются комбинации работ класса “Строительство” с объектом класса “СтрОбъект” (ввод ГИС1.1 в эксплуатацию):

Comb1 (Раб: "Строительство", Об: "СтрОбъект", УтРаб: "Строительство").

Предикаты более общей семантики, как правило, имеют более широкую сочетае­мость с различными классами объектов, при этом  класс работы уточняется  в соответ­ствии с семантикой объекта (работы по вдольтрассовому проезду => строительство вдольтрассового проезда):

Comb1 (Раб: "Работа", Об: "ПрирРесурс", УтРаб: "Природопользование"),

Comb1 (Раб: "Работа", Об: "МТРесурс", УтРаб: "Поставка"),

Comb1 (Раб: " Работа ", Об: " Проект ", УтРаб: "ПИР"),

Comb1 (Раб: " Работа ", Об: "СтрОбъект", УтРаб: "Строительство").

К базовому классу Работа отнесены универсальные предикаты с нестандартной сочетаемостью, тип которой представлен в словаре значением  атрибута ТипИС: раз­работка, доработка, согласование, замена, заказ, подготовка, отправка, использова­ние.  Идивидуальная сочетаемость предиката или группы предикатов проявляется как в классе объекта-аргумента, так и в семантике самого предиката в данном употреблении  (уточненная работа):

Comb1 (Раб: "Отправка", Об: " МТРесурс ", УтРаб: " Поставка ");

Comb1 (Раб: " Отправка", Об: " Документация ", УтРаб: " Документооборот ");

Comb1 (Раб:" Замена ", Об: " МТРесурс ", УтРаб: " Строительство ");

Comb1 (Раб: " Замена ", Об: " ТрубАрматура ", УтРаб: " СтроительствоМГ ");

Comb1 (Раб: " Замена ", Об: " Проект ", УтРаб: " ПИР ").

При сборке Функции учитывается наличие/отсутствие у конкретного предиката валентности на объект и сила этой валентности (значения поля Арг словарной статьи). В семантике таких терминов, каклесопользование,  землеустроительные работы, внутритрубная дефектоскопия, противопожарные услуги. Работа и Объект работы представлены синкретически: лесопользование vs. использование древесины.В этом случае Арг=1, Функцию формирует только   Работа. Значение Арг=2 характеризует предикаты со слабой  валентностью на Объект – возможна редукция Объекта, что не исключает формирования Функции, но семантика ее остается более общей (Работа не уточняется Объектом):  монтажные работы (Арг=2, Работа – Производство) vs. монтаж оборудования (Арг=3, уточненная работа – Изготовление).

Процесс сборки Фактов опирается не только на лексико-семантическую  сочетаемость ключевых слов, но  и на имеющуюся информацию об их линейном порядке. Так,  при сборке Функций из всех возможных семантических связей “Работа – Объект работы” выбираются только проективные.

5.2.2. Таблица сочетаемости Comb2 представляет знания об Организациях различ­ных классов как субъектах деятельности. Например,  Трубозавод в роли Организации-исполнителя работы выполняет все виды работ (включая подклассы) по поставкам трубопроводной арматуры, но не занимается заказом соответствующего оборудования:

Comb2 (Орг: "ТрубоЗавод", УтРаб: "Поставка", УтОб: "ТрубАрматура");

Comb2 (Орг: "ТрубоЗавод", УтРаб!="Заказ", УтОб:"ТрубАрматура").

При сборке Функций  с Организациями учитывается следующая особенность жанра  ДП: по умолчанию (при отсутствии информации в соответствующем сегменте текста) организацией-исполнителем соответствующей работы является Партнер –Отправитель ДП, заказчиком – Заказчик.

Для сборки полных фактов используются также знания о том, с каким  участком строительства связана деятельность того или иного Партнера:

Comb3 (Ор: "Трубокомплект", Уч: "газопровод Заполярное-Уренгой");

Comb3 (Орг: "Турбомоторный завод", Уч: "КС Пуртазовская");

Comb3 (Орг: "Сварочно-монтажный трест", Уч: "газопровод СРТО-Торжок").

5.3. Тематический анализ ДП состоит в проверке семантических отношений между составляющими собранных Фактов. Близкие по семантике Факты собираются в Тема­тические Факты, совокупность которых представляет Тему письма.  В основе темати­ческого анализа лежат тезаурусные связи Понятий, как они представлены в иерархии классов. Понятия с одинаковыми семантическими признаками собираются в гиперпо­нятие, в единое понятие собираются и уточняются на основе иерархии классов семан­тически совместимые участки,  однотипные Функции объединяются. Результирую­щими являются все Факты, которые не являются частью других Фактов,  not(Факт1.Состав < Факт2.Состав). Тема документа формируется как объединение Те­матических Фактов. Для нашего примера сформирован один Тематический Факт:

Документ.Тема: 

    Факт1  {

      Функции:

        [доставка], [таможенное оформление] – [трубы]

        [отправка] – [трубы]

        [отгрузка] – [трубы]

        [отгрузочные реквизиты] – [трубы]

      Участки работ :

        Класс: АзУчМГ , Вид:[газопровод Заполярное-Уренгой]

      Организации:

        Класс: ТрубоЗавод , Вид: [Трубокомплект]

        Класс: Заказчик, Вид: [Ямалгазинвест]

                     }

5.4. Возможны различные подходы к классификации ДП, исходя из описанного  формального представления его Темы. В данной версии системы реализован подход,  основанный на  методе прагматических ориентаций.

Прагматическая ориентация выражает предпочтение адресации, это множество потенциальных получателей, которым может быть направлено письмо, содержащее данное Понятие (или Понятие данного класса). Классы понятий размечаются разработ­чиком или экспертом индексами, каждый из которых кодирует некоторую функцио­нальную роль и связан с ФИО соответствующего сотрудника, например, начальник Управления материально-технического снабжения и комплектации (Бекташев Ю.С):

ОрЭл (Эл: "Строительство", Ор: УпрСтр + УпрСпР );

ОрЭл (Эл: "Поставщик", Ор: УпрМТОиК);

Базовые предпочтения документа задаются ориентацией группы коммуникантов. Формируемые на  основе Понятий Функции и Факты получают прагматические ориентации за счет пересечения ориентаций составляющих понятий таким образом, что пересечение ориентаций всех Понятий и базовой ориентации документа не пусто.

Для уточнения ориентации Тематических Фактов используются следующие эвристики: 1) если ориентация Факта указывает на все подотделы некоторого подразделения, то адресатом является только начальник этого подразделения; 2) если ориентация указывает на некоторый подотдел, то в адресацию включается и непосредственно вышестоящее подразделение – начальник.

Тестирование работы системы на имеющемся корпусе писем показало 73,6% удовлетворительной адресации.  Результат классификации для нашего примера:

Факт1  {

      Ориентация: {47, 53} count:2

              }

Документ.Получатели:

        УМТОиК:  Бекташев

        Отдел трубопроводной арматуры:  Николаева 

 

 

  1. Развитие системы InDocC

 

Основное направление развития системы InDocC связано с улучшением функций настройки и контроля исполнения со стороны пользователя. Наиболее перспективным с этой точки зрения является подход к классификации деловых писем на основе так называемого метода фильтрации, ввиду большей гибкости и удобства при настройке системы экспертом.

 Фильтры задаются экспертом как множество Тем, представляющих  Факты и/или Понятия, которые должны присутствовать или, напротив, отсутствовать в тексте письма для того, чтобы оно соответствовало некоторому предпочтению адресации. Фильтр специфицируется как конъюнкция положительных и отрицательных простых фильтров, если простой фильтр определен как  Факт, у которого известна (заполнена) хотя бы одна структурная составляющая. Предпочтение адресации определяется как совокупность функциональных ролей и/или сотрудников, которые подписываются на письма, удовлетворяющие некоторой, в общем случае альтернативной, спецификации фильтра. Спецификация задается экспертом или самим заинтересованным сотрудни­ком. При использовании метода фильтров рассылка письма определяется предпочте­ниями всех фильтров, которым удовлетворяет данное письмо. 

В настоящее время  метод фильтрации в применении к задаче классификации ДП находится в стадии разработки и эксперимента.

 

 

Литература

 

  1. Жигалов Д., Жуков А., Кононенко И., Соколова Е., Толдова С. Система Алекс как средство для автоматизированной обработки текстов экспертом и перспективы ее развития // Настоящий сборник.
  2. Загорулько Ю.А., Попов И.Г. Описание сложных предметных областей на основе интеграции средств представления знаний // Труды международного семинара Диалог’97 по компьютерной лингвистике и ее приложениям. – Москва, 1997. – с.110-115.

 

 

Business letter processing as a part of documents circulation system

Irina S. Kononenko, Elena A. Sidorova

 

Keywords: documents circulation, business letter, classification, genre structure, domain, key notion, fact, template, semantic analysis, topic.

 

Within a documents circulation system of the enterprise there is an incoming flow of documents that come from the outside and are to be classified and directed properly to the employees according to the document content. A considerable proportion of incoming mail are business letters remarkable for their specific genre structure.  An approach to processing business letters is proposed that involves both genre structure and domain knowledge considerations. An original method of templates is applied to describe genre and domain key words and phrases. The instrumental system Alex proved to be useful to build the template vocabulary and perform lexical analysis of the input letter. The detected key notions are used to assemble facts at the stage of semantic analysis. Examination of semantic relations between facts is applied to obtain topical structure. The functional relations of topic facts to the enterprise departments and employees determine real addressees for the input letter. The semantic analysis and the classification proper are realized by means of the SEMP programming environment.