ПРОБЛЕМЫ СОЗДАНИЯ БАЗ ЗНАНИЙ ПОЛНОТЕКСТОВЫХ БАЗ ДАННЫХ
Ю. Р. Валькман, Р. Ю. Валькман, И. А. Золотаревский,
В. Г. Квачев, Ю. Н. Книга, В. В. Лозовский, Л. П. Яковенко
Международный научно-учебный Центр ЮНЕСКО/МПИ информационных технологий и систем Национальной академии наук и Министерства образования Украины
E-mail: yur@valkman.kiev.ua
Аннотация
Рассматриваются проблемы создания баз знаний полнотекстовых баз данных. Вводятся и обосновываются понятия «интраструктуры» и «инфраструктуры» специальных (в отличие художественных) текстов. Приводятся принципы автоматического и автоматизированного синтезов локальных и глобальных гипертекстов баз данных данного класса. Производится попытка разработки логики контекстов для создания баз знаний текстов.
Введение
Рассмотрим проблему структуризации знаний, представленных в полнотекстовых базах данных (БД). Заметим, что речь идет о и специализированных (или,специальных) текстах. В [1] эта проблема была обозначена.
С ее решением мы сталкивались четырежды.
- При создании системы ИМПЕРАТОР (ИМПЕРАТивный совет ОПЕРАТОРу) [3]. Система ИМПЕРАТОР была предназначена оператору ядерного реактора ледокола. Выполнялась она в форме экспертной системы (ЭС) реального времени [4]. Основные функции ИМПЕРАТОРА заключались в обеспечении помощи оператору при срабатывании сигнала «аварийной защиты». Система также должна была использоваться в режиме обучения на тренажерном стенде в Государственной Морской Академии им. адм. Макарова (г. Санкт-Петербург). Помимо поддержки «технологических цепочек» обработки результатов измерений с целью выявления, диагностики и ликвидации последствий аномалий в минимальное время и с минимальными потерями в ИМПЕРАТОРЕ разрабатывалась подсистема объяснений, как и в любой ЭС. Соответствующая база знаний (БЗ) содержала более 1000 различных взаимосвязанных инструкций, описаний технологий, учебных и методических материалов. Таким образом, создавалась большая текстовая база данных, информация которой должна была максимально структурирована.
- При создании системы GALS (“Goal – Action – Law – Situation” или “Цель – действие – закон – ситуация») [5]. Метафора системы GALS – «целедостижение с учетом законов и ситуаций». Назначение системы заключалось в обеспечении юридических консультаций в области налогообложения. Система включает три взаимосвязанных базы данных:
– нормативные акты (НА), регламентирующие деятельность фирм, предприятий и процессы их налогообложения (1);
– комментарии квалифицированных юристов и экономистов, касающиеся НА, специфики их использования на практике (2);
– вопросы, с которыми обращаются в юридические конторы, с ответами консультантов и их мотиваций посредством фрагментов НА и их комментариев (3).
Первая БД содержит более 2000 НА, вторая – более 500 статей (из различных изданий), третья – около 1000 вопросов – ответов.
- Создание Украинского информационного центра гидрографии и навигации привело к разработке базы данных, содержащей около 20 тыс. документов: инструкций, методик, морских навигационных карт различных акваторий, описаний навигационного оборудования, характеристик судов, нормативного обеспечения судовождения и т.д.
Почти все эти документы представлены в текстовом формате и взаимосвязаны по различным признакам и критериям.
- При разработке Системы информационного обеспечения процессов налогообложения в Украине. Документооборот этой системы включает более 200000 текстовых материалов. С одной стороны, необходимо было создавать систему распределенной обработки текстовой информации в вычислительной сети (18 областей Украины и соответствующие районные центры), с другой – с целью обеспечения гибкого поиска - максимально возможную структуризацию, как отдельных документов, так и отношений (связей) между ними.
- НЕКОТОРЫЕ БАЗОВЫЕ ОПРЕДЕЛЕНИЯ И КОНЦЕПЦИЯ СОЗДАНИЯ БАЗ ЗНАНИЙ ПОЛНОТЕКСТОВЫХ ДАННЫХ
Введем ряд рабочих определений.
Под полнотекстовой базой данных будем понимать систему текстов, документов (статей, монографий инструкций и других типов информационных макрообъектов) некоторой предметной области хранимой в вычислительной среде в актуальном состоянии и используемую специалистами для решения своих проблем.
Далее мы рассмотрим понятие информационного макрообъекта, в большей мере неформально.
Базой знаний полнотекстовой БД будем называть систематизированную информацию о составе и структуре документов, хранимых в БД.
Как понятно из введения, речь идет о специальных текстах. Рассмотрим некоторые характеристики текстов этого класса.
Во-первых, в «хороших» специальных текстах в начале (первом разделе или первой главе), обычно, хотя бы, на вербальном (описательном) уровне определяют проблему, которую обсуждают в соответствующем тексте и/или предлагают необходимые принципы, методы, методики, разрабатывают адекватные решению проблемы средства. Там же вводятся базовые определения.
Во-вторых, законы «жанра специальных текстов» заставляют, часто, их создателей, с одной стороны, обращаться к графическим образам для трактовки и интерпретации своих подходов и выводов. С другой стороны, для проверки корректности своих построений, мотивации утверждений, получения новых результатов использовать формальные языки. Заметим, при этом, и формулы, и табличные данные и графические образы всегда сопровождаются текстовыми комментариями.
С другой стороны в текстах можно выделить два класса: художественные и специальные.
К художественным текстам будет относить все наше литературное наследие.
Под специальными текстами понимаются, условно, прочие тексты. Определить специальные тексты трудно. Можно считать, что это тексты, ориентированные на специалистов в различных областях. Однако, это не совсем верно, т.к. студентов трудно назвать специалистами, или нормативно-правовую информацию используют не только юристы и т.д. Можно считать отличительным признаком специальных текстов наличие ссылок на цитируемую литературу. Другим свойством специальных текстов является наличие предметного указателя. Но такие указатели есть не у всех текстов данного класса, например, их нет в статьях. Список используемой литературы отсутствует в нормативных актах. Для специальных текстов, часто, характерна детальная структуризация печатного материала (разбиение на главы, параграфы, подразделы и т.п.).
Обратимся к примерам. К специальным текстам относятся различные: учебники, методические материалы, статьи, монографии, инструкции и т.п. В [15] такие тексты названы носителями профессиональных знаний. Там же рассматриваются текстологические методы – методы извлечения знаний из таких текстов. При этом, Т.А. Гаврилова акцентирует внимание на том, что для адекватного прочтения этих текстов требуется некоторая подготовка: «тексты пишутся для посвященных».
Термин «специальные тексты» подчеркивает их профессиональную ориентацию. Поэтому на втором уровне классификации выделяются области знаний, к которым относятся соответствующие тексты. И здесь нам может помочь УДК – универсальный десятичный код, который широко использовался в бывшем Советском Союзе.
Далее специальные тексты делятся по типу издания: учебник, методика, статья в журнале, монография (учебное пособие, научное издание и т.д.), тезисы доклада на конференции, отчет, диссертация, техническая документация и т.п.
Можно также рассматривать классификации специальных текстов по годам издания, странам, ведомствам, институтам, издательствам, журналам, конференциям, авторам и т.д.
В настоящее время специально для облегчения поиска публикаций в компьютерной среде их «снабжают» ключевыми словами. Это также можно рассматривать как средство классификации (см. на эту тему [6]). В этом отношении представляют интерес различные аннотации и рефераты специальных текстов (см. принципиально новый взгляд на эту проблему в [16]).
Заметим, что художественные тексты также можно классифицировать по некоторым критериям, например, жанрам, авторам.
Далее мы будем уточнять понятие специальных текстов. И, видимо, определение этой категории будет носить дескриптивный характер, т.е. мы будем определять это понятие через соответствующие свойства.
Обычно, на первом этапе построения полнотекстовых БД в вычислительную среду вводятся специальные тексты. И, часто, эти операции выполняются без участия будущих пользователей (специалистов конкретных предметных и проблемных областей знаний) БД. После того как пользователи получают в свое распоряжение компьютерные копии текстовых материалов, они приступают к их систематизации.
Предлагается создание «внутренних» структур текстов и выделения тематических классов публикаций («внешних» структур).
Под «внутренней» структурой мы понимаем разнообразные отношения между различными фрагментами одного (определенного текста), а под «внешними» - отношения между разными текстами.
При этом, с одной стороны, компьютерная система анализирует все компоненты текстов (аннотации, ключевые слова, списки цитируемых источников и т.п. - см. [5]) и автоматически строит различные (гипертекстовые) структуры, с другой – пользователю предоставляется специальный программно-информационный комплекс, обеспечивающий его гибким инструментом синтеза и редакции структур текста с отображением его точки зрения на исследуемый текстовой материал.
Таким образом, БЗ представляет собой множество гипертекстов и семантических сетей, в которых отражаются смысловые структуры текста.
Рассмотрим проблему построения БЗ полнотекстовых БД с трех сторон:
– создание и использование «внутренней» структуры текста;
– создание структур из нескольких, тематически связанных текстов;
– разработка логики текстов и контекстов.
Введем еще несколько рабочих определений, необходимых для исследования рассматриваемой проблемы.
Под текстом (от лат textum – ткань, связь, построение) обычно понимается последовательность предложений, передаваемая при дискурсе [7] или всякая записанная речь [10].
Обратим внимание, что при таком определении текстом может быть и некоторый абзац, или раздел, или глава и т. д. Все они обладают свойствами целостности, связанности, «непрерывности» (последовательности), законченности. Здесь эти свойства текста анализировать не будем. Но, неявно, они далее используются.
Понятие статьи, монографии и т.п. не вводится. Однако, будем рассматривать некие информационные макрообъекты («целостности»), являющиеся, по сути, информационными «элементами», которые, обычно, вводятся в компьютерную среду «непрерывно» (за один сеанс работы), Иначе, можно считать таким макрообъектом (статьей, монографий и т.п.) некоторый текст, автор которого считает его законченным в некотором отношении, таким, что он уже подлежит отчуждению, т. е. его можно отдавать на обсуждение читателям.
Контекстом (от лат. сontextum – тесная связь, соединение) – законченный в смысловом отношении письма или устной речи (текста), в пределах которого можно точно установить значение отдельного, входящего в него слова, понятия или фразы [7,8].
Обычно в лингвистике рассматривают явный и неявный контекст, глобальный и локальный, текстовой и ситуационный, микро- и макроконтекст. С контекстом тесно связаны категории «умолчания», «анафористической ссылки», «фокуса внимания». Здесь эти понятия определять не будем. Их трактовку можно найти, например, в [7, 8]. Заметим только, они не являются независимыми. Так, например, локальный контекст в некоторых изданиях называют микроконтекстом, а глобальный – макроконтекстом. Часто считают, что ситуативный и неявный контексты – одно и то же.
Остальные определения будут вводиться по мере изложения материала.
Заметим, что многие инструментальные средства создания баз данных (СУБД) предназначены для отображения и поддержки в вычислительной среде более формальных структур. Данные в них, обычно, представлены в форме таблиц. Поэтому, для реализации соответствующих средств был разработан специальный аппарат реляционной алгебры. Эти системы, с нашей точки зрения, не адекватны предметной области структуризации текстов. Для поддержки их структур в вычислительной среде используются менее формальные методы и средства: гипертекстовые системы, семантические сети и т.п. (см. [9]). Отсутствие необходимой формальной базы реализации систем этого класса приводит как к сложности процессов создания соответствующих БД и БЗ, так и к сложности их использования.
- АНАЛИЗ И ПОСТРОЕНИЕ «ВНУТРЕННИХ» СТРУКТУР ТЕКСТА
Введем понятие интраструктуры информационного макрообъекта.
Под «интраструктурой» (внутренней структурой) макрообъекта будем понимать формализованное описание его состава.
Категория «интраструктуры», в некоторой степени, аналогична понятию «гипертекста».
Впервые система автоматического формирования интраструктуры текстов была нами реализована в рамках проекта GALS [5]. Тексты всех нормативных актов (законов, указов, инструкций и т.п.) «обрабатывались» соответствующим программно-информационным комплексом, который синтезировал их структуру. Идентифицировались все главы, разделы, подразделы, отдельные («меченные», например, а), б) ... или 1.1, 1.2,...) фрагменты исходного текста, определялись отношения между ними и синтезировалась структура соответствующего документа. Эта структура в системе GALS позволяла обращаться к различным фрагментам нормативных актов, читать текст выборочно, по различным траекториям и, главное, при аргументации ответа на какой-либо вопрос, «распечатывать» только адекватную мотивации информацию (а не весь нормативный акт объемом, например, 20 страниц).
Аналогичный подход к формированию «внутренней» структуры информационного макрообъекта предлагается и в данном проекте.
Заметим, в Санкт-Петербурге в рамках проекта «ГИПЕРМЕТОД» разработан [10] программно-информационный комплекс, осуществляющий синтез таких структур для текстовых данных. В его составе даже есть специальный язык описания структурных особенностей исходных документов. Кроме этого, другие средства ГИПЕРМЕТОДА строят графические образы (ГО) интраструктур и обеспечивают доступ к необходимым фрагментам информационного макрообъекта путем навигации этих ГО.
Вторым средством, предлагаемым к реализации, является формирование гипертекстов на основе фрагментов, в которые входят ключевые слова или понятия (которые могут «вычисляться» на основе статистики «повторяемости»).
Третьим средством синтеза интраструктур мы считаем их построение на основе глоссария основных используемых понятий.
Четвертым – реализацию интраструктур посредством использования ссылок, приведенных в предметном указателе.
Заметим, в списке ключевых слов обычно приводится значительно меньше понятий, чем в глоссарии и/или предметном указателе. Поэтому последние компоненты обеспечивают построение более детальных интраструктур. В интраструктурах, которые строятся с использованием последних трех средств, может использоваться не вся информация исходного текста, а только те фрагменты, в которых «встречаются» найденные понятия или слова.
В любом случае такие структуры мы называем «авторскими», т.к. они синтезируются на основе анализа исходного текста автоматически. Однако, в процессе интерпретации текстовых данных пользователь, как правило, формирует свою точку зрения на анализируемый материал. Поэтому ему необходимо предоставить средства структуризации текстовой информации по своему усмотрению. Это будут «личные гипертексты».
В этих интраструктурах также может использоваться не вся информация анализируемого текста, т.к. пользователь выбирает только семантически значимые (в его понимании) фрагменты. Он может их также «снабжать» своими комментариями. Естественно, работает он с исходным текстом в интерактивном режиме. И формировать «собственные» структуры он может не только посредством анализа исходного текста, но и редактируя структуры, построенные автоматически.
Таким образом, каждый информационный макрообъект в базе знаний отражается в форме нескольких структур (гипертекстов).
Мы считаем, что предлагаемые средства относятся, частично, к решению проблемы «ТЕКСТ – СМЫСЛ», т.к. во всех этих структурах в некоторой мере отражается семантика текстовых данных. Весьма показательна в этом отношении работа [6].
- АНАЛИЗ И ПОСТРОЕНИЕ “ВНЕШНИХ” СТРУКТУР ТЕКСТОВЫХ ДАННЫХ
Общеизвестно, как трудно искать посредством сети INTERNET информацию, адекватную той или иной тематике. Это обусловлено тем, что контекст поиска мы можем определять только посредством «ключевых слов».
Здесь предлагается несколько иной подход к формированию семантических структур специальных текстов.
Введем понятие инфраструктур текстовых данных.
Под инфраструктурой («внешней» структурой) будем понимать объединение информационных макрообъектов в различные классы, группы, семейства множества, соответствующие различным категориям.
С нашей точки зрения, отношения любого информационного макрообъекта с внешним миром отражаются в следующих компонентах специального текста (не все они могут быть в наличии):
– списке использованной литературы (цитируемых источников) (1);
– глоссарии основных понятий (2);
– предметном указателе (3);
– ключевых словах (4);
– аннотации (5);
– реферате (6);
– названии статьи, монографии и т.п. (7);
– имен авторов (8);
– места их работы (9);
– универсальном десятичном коде (УДК) (10);
– названии сборника докладов, научных трудов и т.д. (в которых напечатана данная работа) (11).
Инфраструктуры, которые строятся на основе этой информации, будем называть также, как в предыдущем разделе, «авторскими», т.к. они синтезируются (автоматически) только на основе атрибутов конкретных специальных текстов. В их построении читатель (пользователь текста) не принимает участия.
Заметим, функциональные возможности первых четырех классов атрибутов (1–4) отличаются от остальных (5–10).
Атрибуты (1–4) обеспечивают построение инфраструктур не только на уровне формирования некоторых тематических классов информационных макрообъектов, но ина уровне их интраструктур. Иными словами, системе предоставляется возможность строить отношения между отдельными фрагментами (выделенными интраструктурой) конкретных исходных текстов.
Обратим внимание, что при этом, «возможности» списка литературы слабее компонентов (2-4), т.к. список литературы связывает фрагменты интраструктуры данного текста с другими текстами в целом. Если бы авторы ссылались на конкретные страницы соответствующих публикаций, тогда бы обеспечивалась возможность связывания нескольких текстов на уровне их фрагментов.
Список литературы, также, обладает направленностью отношений. С его помощью мы строим ориентированный граф отношений между фрагментами исходного текста и цитируемого. Здесь же необходимо заметить, что ссылки на литературу, по сути, многоаспектны. Так, автор текста может цитировать «чужие тексты» для:
- согласования точек зрения;
- обоснования своих рассуждений и выводов;
- противопоставления своего и другого мнения и т.д.
Часто автор ссылается «на самого себя», чтобы продолжить изложение результатов какого-либо исследования.
Особый интерес представляют в этом отношении аналитические материалы.
Атрибуты (5–10) специальных тестов, в отличие от предыдущего, позволяют строить только тематические классы информационных макрообъектов, т.е. объектом, входящим в какое-либо отношение, здесь является статья, монография и т.п. как неделимый элемент. Заметим, что атрибуты (1-4) также параллельно с фрагментарными отношениями формируют тематические классы.
Под тематическим классом будем понимать множество информационных макрообъектов, ограниченное определенными свойствами.
В качестве критериев формирования этих свойств могут выступать отдельные понятия, ключевые слова и т.п. Не всегда такой тематический класс можноидентифицировать отдельным предложением. Часто эти множества определяются перечислением ключевых слов, понятий. Между тематическими классами могут быть отношения входимости, по сути, родовидовые или агрегатные отношения [9]. И тогда множества “более высоких уровней” могут именоваться одним предложением.
Одни и те же макрообъекты могут входить в различные множества, образованные по разным критериям-свойствам. Поэтому, тематические классы могут «пересекаться». Можно в этих множествах ввести и частичную упорядоченность, например, по рейтингу авторов, по годам издания, по индексу цитируемости.
Помимо средств автоматической генерации инфраструктур пользователю необходимо предоставить инструментальные средства построения «собственных»тематических классов и отношений между фрагментами исходных текстов.
Так же, как и при работе с интраструктурами пользователь может в интерактивном режиме самостоятельно формировать адекватные анализируемым проблемам множества текстов или редактировать тематические классы, построенные автоматически.
Заметим, что емкости памяти машины ограничены и нет смысла хранить в личном архиве полные копии редко используемых «больших» (например, объемом более 300 страниц) текстов. Поэтому построенная БЗ будет иметь «виртуальный», лучше распределенный, характер. Пользователь у себя на компьютере формирует аннотацию или реферат (или использует «готовый») и ссылку с полной идентификацией «источника» для того, чтобы можно было получить потребовавшийся текст в любой момент.
Нам представляется, что информационные системы с предлагаемыми средствами формирования и использования интра- и инфраструктур, мы имеем полное право называть базами знаний. Заметим, что такие БЗ могут быть и собственностью различных лабораторий, институтов, фирм, организаций, ассоциаций, отраслей и даже, страны.
- ПРИНЦИПЫ ПОСТРОЕНИЯ ЛОГИКИ ТЕКСТОВ И КОНТЕКСТОВ
Теперь посмотрим на проблему создания БЗ полнотекстовых БД несколько с другой, быть может неожиданной, более формальной точки зрения.
Вероятно, Э.В. Попов впервые обратил внимание [7], что в контекстах отображаются фиксированные аспекты дискурса. Действительно, при написании любой работы (статьи, монографии, отчета о НИР и т.д.) мы в первом разделе пытаемся «обозначить» исследуемую проблему. Обычно, это делается посредством определения тех аспектов, к которым относится данная проблема, рассматриваемых и не рассматриваемых (т.е. фиксированных, в рамках данного исследования) сторон проблемы. При этом зафиксировать все контексты невозможно, да в этом и нет смысла. Заметим, что когда мы доказываем какую-либо теорему, мы ведь не «протягиваем дедуктивную цепочку» до уровня аксиом, а останавливаемся на общеизвестных теоремах.
Таким образом, возникают неявные (или ситуационные) контексты. Когда мы читаем какую-нибудь статью и встречаем слово «ядро», мы сразу трактуем его как, например, ядро атома, а не ядро, как снаряд, ядро ореха или метафору – ядро системы.
Нам контекст представляется в форме некой оболочки, в которую заключен текст. Эта метафора адекватна проблеме не только из-за того, что оболочка обладает некоторой твердостью и замкнутостью, но еще и потому, что ее можно рассматривать как мембрану, через которую «проникают» различные «ссылки», например, на цитируемую литературу, причем «туда» и «обратно». Кроме этого, оболочка может быть многослойной и различные фрагменты текстов, «живущие в своих оболочках», можно заключать в новые оболочки. И тогда можно графически интерпретировать микро- и макроконтексты, локальный и глобальный контексты. Обычно, под ними понимаются контексты отдельных фраз, разделов, параграфов, глав и т.д. некоторого информационного макрообъекта. В [11] приведен графический образ иерархической структуры вложенности контекстов.
Обратим внимание, что такой подход несколько противоречит интерпретации текстов и контекстов, принятому в герменевтике [12]. В этой науке тексты и контексты считают равноправными компонентами трактуемых информационных целостностей: для понимания текста необходимо привлекать контекст, а для интерпретации контекста анализировать текст. Собственно, в рамках предлагаемой метафоры мы тоже должны «преодолеть все контекстуальные оболочки», чтобы «добраться» до текста. И переход от одних разделов к другим требует «пересечения» оболочек, но уже локальных.
Впервые мы использовали категории текста и контекста при структуризации знаний конструкторов и исследователей сложных объектов (кораблей, самолетов и т.п.). И там предлагаемый подход [13,14] оказался весьма эффективным. Рассмотрим его суть, кратко.
Под текстом модели (определенной в аналитической форме) понимается любое отношение между параметрами. Контекстом модели являются области допустимых значений параметров, при которых модель адекватна исследуемым процессам. Под методикой понимается система взаимосвязанных моделей, предназначенная для определения значений некоторых интегральных характеристик сложных изделий. Обычно в методику входит до 100 моделей, которые строятся на 50 – 80 параметрах.
Далее в [13] строится алгебра и логика текстов и контекстов моделей. И согласование (объединение и пересечение) контекстов является основанием правомерности построения суперпозиции соответствующих моделей. Например, если мы имеем формулы P1=F1(P2,P3) и P2=F2(P4), то объединение этих формул в зависимостьP1=F1(F2(P4),P3) возможно только в том случае, когда для первого текста мы определим область допустимых значений Р4 (контекст; мы его называем неявным, т.к. Р4 не входит в первую формулу), а для второй Р3. И пересечение областей допустимых значений Р3 первой и второй формул должны быть непустое, равно как и Р4.
Этот процесс мы называем доопределением (часто, взаимным) контекста. Заметим, что в методике, фактически, производится интеграция знаний различных предметных областей. И, приведение их к единому контексту, как бы заставляет исследователей (а у моделей F1 и F2 могут быть разные авторы) расширять и/иликонкретизировать «контексты» использования знаний, «закодированных» в формальных структурах.
Эффективность предлагаемого аппарата в исследовательском проектировании было обусловлена тем, что в некоторых методиках были выявлены модели, которые «выпадали из контекста». Таким образом, соответствующие методики оказались некорректными.
Теперь «замкнем виток»: категории текстов и контекстов мы заимствовали из лингвистики, использовали их в анализе и синтезе формальных структур и вновь обращаемся к текстовым структурам.
Конечно, определять контекст в специальных текстах значительно сложнее, чем в формальных системах знаний. Тем более строить их логику.
В логиках контекстов специальных текстов на данном уровне исследований выделим три операции: формирование контекстов (1), их пересечение (2) и объединение(3).
Все эти операции ввиду неопределенности, неполноты, нечеткости многих текстовых структур выполняются в интерактивном режиме. Первая операция «унарна». Она производится с каждым текстом, отображаемым в базе знаний, остальные в качестве операндов содержит минимум два текста.
- Вполне очевидно, желательно, чтобы все сложные, нетривиальные и многоаспектные понятия, встречающиеся в тексте, были определены.
В этом отношении «бесценна» роль глоссария. И, конечно, при формировании контекстов необходимо использование тематических словарей, трактующих используемые термины. Вообще, проблема синтеза контекстов «двумерна»: сначала мы должны построить список используемых понятий, затем определить «их значения» (трактовки и интерпретации).
В первом процессе нам помогут список ключевых слов и предметный указатель, а во втором – глоссарий и тематические словари. Заметим, что, вероятно, в любом случае контекст не удается сформировать с необходимой полнотой.
После операции формирования контекста он записывается в БЗ.
- Пересечение контекстов пользователь производит, когда желает определить степень совпадения точек зрения авторов текстов на некоторую проблему. Здесь уместна аналогия с понятием «фокуса внимания». Как известно [7], в фокусе внимания «сосредотачиваются» сущности, трактовка которых участниками дискурса совпадает.
При проведении операции пересечения контекстов сначала определяются общие для анализируемых текстов термины и понятия, а, затем сравниваются их интерпретации. Целесообразно заметить, что пользователь, осуществляя эту операцию (как и следующую), должен обращать внимание на возможные синонимы и омонимы.
- Операция объединения контекстов может проводиться только после операции их пересечения. Результаты операции пересечения могут оказаться следующими:
– в фокусе внимания оказалось несколько сущностей, и их трактовки совпадают (1);
– в фокусе внимания нет сущностей (пересечение контекстов «пусто») (2);
– в фокусе внимания находятся сущности, интерпретации которых различны (3).
В первом случае операция объединения контекстов правомерна и «новый» общий контекст может являться основой, например, интеграции анализируемых текстов в качестве различных разделов в главу готовящейся монографии.
Во втором случае соответствующие тексты также можно объединять в рамках, например, какого-либо сборника трудов или отчета. Но необходимо будет создание глобального контекста соответствующей, новой, целостности. Это означает, фактически, поиск родовых (общих, обобщающих) понятий, если локальные контексты считать видовыми (различиями).
В третьем случае мы не имеем права на объединение соответствующих текстов.
Особый интерес представляют процессы согласования и доопределения контекстов. Они базируются на введенных операциях. Но это мы относим к будущим исследованиям.
Материал этого раздела, быть может, имеет поверхностный характер, но мы его рассматриваем, в большей степени как приглашение к дискуссии.
ЗАКЛЮЧЕНИЕ
В предлагаемой работе рассматриваются проблемы, возникающие при создании и использовании БЗ полнотекстовых БД, концепции и принципы создания инструментального программно-информационного комплекса. Во многом рассматриваемые задачи аналогичны проблеме «ТЕКС – СМЫСЛ».
Здесь обосновывается целесообразность построения (в автоматическом и автоматизированном режимах) «внутренних» структур анализируемых текстов и синтеза «внешних» отношений между ними. Рассматривается возможность построения логики контекстов, операции которой предназначены для мотивации правомерности объединения различных текстов в целостные структуры.
ЛИТЕРАТУРА
Валькман Ю.Р. Проблемы структуризации знаний, представленных в текстовых базах данных. // Сб. научных трудов первого Межд. семинара “Компьютeризация естественных языков”, г. Варна (Болгария): “Информационное обслужвание”-АД (София). - !999 – с. 45 – 54.
Копылов В. А. Построение автоматизированных информационно-поисковых систем. – Москва: Энергия. – 1974. – 144 с.
Валькман Ю.Р. ИМПЕРАТОР – система программирования управления сложными технологическими процессами //Сб. докл. Всесоюзн. конф. «Программное обеспечение новых информационных технологий». – Тверь. – 1991. – с. 6 – 18.
Попов Э.В. Экспертные системы реального времени // Материалы семинара «Экспертные системы реального времени». – Москва: ЦРДЗ. – 1995. – с. 5 – 22.
Валькман Ю., Добрынин Н. Компьютерные юридические системы: принципы реализации, технология использования, направления развития. – Киев: Изд-во «КИТ». – 1992. – 76 с.
Сиротко-Сибирский С.А. Смысловое содержание текста и его отражение в ключевых словах: Дис. ... канд. филол. наук. – Ленинград. – 1968. – 242 с.
Попов Э.В. Общение с ЭВМ на естественном языке. – Москва: Наука. – 1982. – 360 с.
Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. – Москва: Наука. – 1989. – 288 с.
Искусственный интеллект: в 3-х кн. Кн. 2. Модели и методы: Справочник /Под ред. Д.А.. Поспелова. – Москва: Радио и связь, 1990. – 382 с.
Кречман Д.Л. HyperMethod – подход к проектированию гипертекстовых систем // Всесоюзное совещание разработчиков и пользователей гипертекста и гипермедиа. Москва. – 1992. с. 20 – 38.
Валькман Ю.Р. Целесообразность использования категорий лингвистики в исследовательском проектировании сложных объектов //Труды Междунар. Семинара «Диалог’98» в 2-х томах. Т. 2 /Под ред. А.С. Нариньяни. – Казань: ООО «Хэтер» – 1998. – с. 639 – 648.
Лотман Ю.М. Текст в тексте //ТЗС. Москва. Вып. 14. – 1981. – с. 3–18.
Валькман Ю.Р. Модельно-параметрическое пространство в исследованиях сложных объектов: Дисс. ... докт. тех. наук. – 1997. – 238 с.
Валькман Ю.Р. Интеллектуальные технологии исследовательского проектирования: формальные системы и семиотические модели. – Киев: Port-Royal, 1998. – 250 с.
Гаврилова Т.А., Червинская К.Р. Извлечение и структурирование знаний для экспертных систем. – Москва: Радио и связь. – 1992. – 200 с.
Штерн И.Б. Проблемы систематизации знаний в контексте когнитивных ориентации и коммуникативно-информационных технологий. //Сб. науч. тр. Между нар. конф. «Знание – Диалог – Решение». – Кацивели. – 1999. – с. 92-96.