Семиотические проблемы моделирования и поиска полнотекстовых научных документов
И.М. Зацман
Реферат
Рассматривается логико-семантическое моделирование научных документов. Сравниваются семиотические характеристики вербальных, структурных и графических компонентов полнотекстовых документов. Знаковое представление графических компонентов рассматривается как составная часть процесса логико-семантического моделирования научных документов.
1. Введение
Актуальность проблемы семантического моделирования и поиска вербальной и невербальной информации значительно возросла с появлением предметно-ориентированных и политематических электронных библиотек, интегрирующих большие объемы научных информационных ресурсов в цифровой форме. Широкий спектр теоретических и прикладных исследований в информатике, направленных на решение этой фундаментальной проблемы, ведется на основе двух концептуально разных направлений. Сторонники первого направления считают вербальную информацию полнотекстового документа первичной с точки зрения представления знаний, а невербальную – вторичной [[1], [2]]. То есть аксиоматически предполагается, что научные знания отражены, в основном, через вербальные коммуникативные компоненты научных документов. В рамках этого направления задачи семантического моделирования и поиска научной информации ставятся и решаются не в полном семантическом пространстве электронной библиотеки, а только в вербальной области этого пространства.
Сторонники второго направления считают невербальную научную информацию не менее ценной, чем вербальную [[3], [4]]. Более того, утверждается, что значительная часть научных знаний может быть выражена только в невербальной форме. Этому аспекту представления научных знаний и их понимания (в том числе, в процессе обучения) в последние годы посвящен ряд работ по семиотике научной информации и проблемам образования [[5], [6], [7]]. Результаты этих работ позволяют говорить о том, что для решения проблемы семантического моделирования и поиска необходимо учитывать содержательные аспекты и вербальных, и невербальных компонентов научных документов, а также три основных способа передачи смысла в документах: презентационный, организационный и ориентационный [5].
В настоящее время знаковое представление используется в электронных библиотеках полнотекстовых научных документов, в основном, для вербальных компонентов документов. Это знаковое представление является основой вербального поиска научной информации. Методы организации поиска в явной или неявной форме используют следующие признаки вербальных компонентов:
- линейная конкатенация литер в знаковом представлении вербальных компанентов,
- детерминированность форм знаков,
- дискретная отделимость знаков в их сочетаниях.
Например, в устойчивом словосочетании "вершина холма" два знака "вершина" и "холм" имеют каждый детерминированную форму и сохраняют свойство их дискретной отделимости друг от друга в словосочетании.
В статье эти признаки (линейность, детерминированность, дискретность) предлагается рассматривать как конкретные значения трех семиотических характеристик. Для всего разнообразия видов коммуникативных компонентов документов анализируется набор из пяти семиотических характеристик, принимающих более широкий спектр значений по сравнению с вербальными компонентами. Например, семиотическая характеристика, которая для вербальных компонентов имеет только одно значение - "дискретность сочетаний знаков", для графических компонентов может принимать значения - "дискретность сочетаний знаков", "непрерывность сочетаний знаков" или иметь одновременно два эти значения в случае многозначности этой семиотической характеристики для некоторой компоненты.
Для всех видов коммуникативных компонентов рассматриваются значения следующих семиотических характеристик: детерминированность/размытость, статика/динамика, одномерность/двухмерность/многомерность, упорядоченность/ неупорядоченность и дискретность/непрерывность (континуальность) форм знаков или их сочетаний, включая их границы, очертания и цветовые палитры.
В оппозиции к дискретным сочетаниям знаков в компонентах, рассматриваются континуальные сочетания знаков. А в оппозиции к детерминированности форм знаков ранее были рассмотрены многовариантные, случайные, нечеткие и неопределенные формы [[8]].
Перечень семиотических характеристик и предлагаемая типология принимаемых ими значений ориентированы на получения цифровых знаковых представлений вербальной и невербальной научной информации в процессе ее логико-семантического моделирования. Таким образом, проблему организации семантического поиска в электронных библиотеках научных документов предлагается рассматривать в контексте всего спектра значений семиотических характеристик коммуникативных компонентов документов [8, [9], [10]].
2. Семантический поиск и сферы представления знаний
Проблема семантического поиска рассматривается в статье с точки зрения ключевого положения теории семиотики, а именно, существует три основных сферы представления знаний: вербальные знания в лингвистической форме, которые не могут быть адекватно переведены в невербальную форму (обозначим как сфера I), невербальные (нелингвистические) знания, которые не могут быть представлены в вербальной форме (сфера II), и та часть знаний, которая может быть достаточно адекватно представлена и в вербальной, и в невербальной формах (сфера III) [[11]].
Достаточно широкий спектр подходов и методов к постановке и решению проблемы семантического поиска можно условно разделить на две группы. Первая группа методов использует знаковое представление вербальной информации, а также линейность, детерминированность и дискретность знаков вербальных компонентов. Вторая группа методов использует различные виды метаданных или метаописаний для представления содержательных аспектов вербальной и невербальной информации в литерной форме [[12]].
Метаданные и метаописания дают возможность расширить пространство семантического поиска за счет тех содержательных аспектов невербальных компонентов, которые могут быть достаточно адекватно переданы с помощью литерной формы. Однако, в силу отмеченного ключевого положения семиотики, при использовании метаописаний для семантического поиска все равно остается закрытой та сфера невербального представления знаний, для которой отсутствуют адекватные вербальные и литерные формы представления.
С точки зрения семиотического деления на сферы представления знаний две группы методов и их сочетания охватывают первую и третью сферы представления знания. Что касается невербальных знаний, отнесенных к сфере II, то по определению они не могут быть представлены в вербальной форме или адекватно отражены через метаданные или метаописания в литерной форме. Таким образом, сфера II остается недоступной для организации семантического поиска с помощью методов, основанных на вербальных знаковых системах и метаописаниях.
Прежде чем перейти к изложению семиотических проблем моделирования и поиска, приведем определения ряда терминов и понятий, используемых в статье.
Вербальные компоненты документов - монолинейные дискретные конкатенации литер, детерминированных по своей форме и очертаниям. Сюда относятся естественно-языковые фрагменты названия, аннотации, разделов, глав и параграфов, подрисуночных подписей, а также текст на естественном языке на диаграммах, картах, схемах и графиках, в ячейках таблиц.
Структурные компоненты - полилинейные дискретные конкатенации литер и знаков (детерминированные по форме и очертаниям) и их сочетания, связанные с помощью сетевых, иерархических, реляционных, дискретных параметрических схем и их сочетаний. Сюда относятся математические формулы, структурные химические формулы и реакции, биоинформационные последовательности и таблицы.
Графические компоненты - континуальные или дискретно-континуальные сочетания графических знаков, которые могут быть одномерными и многомерными, статичными и динамичными, включая знаки с размытыми, вероятностными и неопределенными границами и формами. Сюда относятся графики, диаграммы, схемы, чертежи, карты, рисунки и фотографии, а также анимационные и динамические информационные объекты в компьютерных документах.
Описание упомянутых в определениях схем организации документов и их компонентов (иерархическая, сетевая, реляционная, параметрическая) и пространственно-временной схемы (являющейся частным случаем параметрической схемы) дано в работах [9, [13]].
Компоненты документов могут быть многократно вложены друг в друга. Например, таблица может иметь текстовые ячейки, ячейки со структурными химическими формулами или рисунками. Сами таблицы могут быть многократно вложены друг в друга. За счет многоуровневой вложенности и/или сочетания трех перечисленных видов однородных компонентов (вербальные, структурные, графические) могут быть получены четыре вида неоднородных компонентов(вербально-структурные, вербально-графические, структурно-графические и вербально-структурно-графические).
Для обозначения всех видов однородных и неоднородных компонентов используется термин "коммуникативные компоненты документа". Для обозначения структурных, графических и любых видов неоднородных компонентов предлагается использовать термин "невербальные компоненты".
Полнотекстовый документ определяется как совокупность всех его вербальных и невербальных компонентов и схем их организации.
Семантический поиск определяется как поиск по содержательным аспектам всех компонентов полнотекстовых документов электронной библиотеки, включая три основных способа передачи смысла в документах: презентационный, организационный и ориентационный [5].
Случай, когда пользователю неизвестна компонентная форма представления в электронной библиотеке интересующих его сведений об объектах и явлениях (вербальная, структурная, графическая, вербально-структурная, вербально-графическая, структурно-графическая или вербально-структурно-графическая), определим как глобальный семантический поиск.
Если в научном документе авторы определяют значения знаков, которые используются только ими, то такие знаки будем называть авторскими. Знаки, форма и значение которых сохраняют устойчивое в течение достаточно длительного периода времени и общепринятое единство, будем называть определенными.
Введем понятие слабоопределенных знаков для обозначения тех случаев, когда используемые знаки не являются общепринятыми, но при этом они используются достаточно большим числом авторов.
Когда речь идет о научных документах, имеются в виду и традиционные, изначально созданные на бумаге документы, и создаваемые изначально в цифровой компьютерной форме.
3. Знаковое представление компонентов полнотекстовых научных документов
В работах [8, 9, 13] рассмотрена целевая ориентация логико-семантического моделирования корпуса научных документов на решение проблемы семантического поиска в электронных библиотеках научной информации, в том числе и в геобиблиотеках. Определен перечень основных схем декомпозиции документов и основные стадии построения логико-семантических моделей.
В работе [9] рассмотрена первая стадия построения моделей - декомпозиция документов. Процесс декомпозиции каждого документа включает три основных этапа: два этапа его структуризации и этап кодирования семантических связей между компонентами. На первом этапе выбирается базовая схема описания структуры всего документа. Компоненты, получаемые на первом этапе декомпозиции, могут не раскрывать внутреннюю сложность компонентов, часто неоднородных. Например, график, полученный в результате первого этапа декомпозиции статьи [[14]] и изображенный на рис. 1, является неоднородным компонентом.
Рис. 1. Структурная химическая формула и вербальные компоненты графика
Этот график включает вербальные компоненты (“Normalized Absorption“, “PPA multilayer“), пять литер "A", "B", "C", "D" и "E", которые можно рассматривать как вырожденные вербальные компоненты из-за отсутствия конкатенации, и структурную химическую формулу. Однако в базовой структурной схеме документа эти вербальные компоненты и структурная химическая формула не выделяются в виде включенных в график и отдельно адресуемых компонентов документа.
Цель второго этапа декомпозиции – структурно выделить максимально возможное число адресуемых однородных компонентов, используя необходимое число уровней структуризации и сочетаний схем описания связей между компонентами. Например, химическая формула на рис. 1 выделяется и идентифицируется как структурный компонент. Задаются значения координат для локализации химической формулы на графике. Сочетание графика, вербальных компонентов и структурной химической формулы идентифицируется как неоднородный компонент документа (вербально-структурно-графический), имеющий внутреннюю структуру и адресуемые компоненты.
Результатом первой стадии логико-семантического моделирования является логическая модель документа с указанием всех использованных схем структуризации, адресуемые в соответствие с этими схемами все однородные и неоднородные компоненты документа, а также кодированные семантические связи между компонентами. Кроме того, для каждого адресуемого компонента должна быть указана степень определенности его знаков или знаковых систем.
В настоящее время разработка методов для реализации первой стадии моделирования является предметом целого ряда прикладных исследований и разработок (см. обзор в [[15]]).
На второй стадии логико-семантического моделирования рассматривается совокупность документов, предназначенных для создания новой электронной библиотеки или для пополнения уже существующей. Основная цель второй стадии - получить знаковое представление электронных форм вербальных и невербальных компонентов, а также сформировать семантическое пространство электронной библиотеки. Для вербальных и отдельных классов структурных компонентов знаковое представление можно получить, используя языки семантической разметки и кодирования. Например, получив на стадии декомпозиции структурную химическую формулу, можно использовать для получения ее знакового представления язык семантической разметки структурной химической информации CML (Chemical Markup Language). Существуют также аналогичные языки для семантической разметки математических выражений и биоинформационных последовательностей.
Однако для подавляющего числа графических компонентов осуществить семантическую разметку и получить их знаковые представления достаточно трудно, так как континуальным изображениям часто свойственны:
- многозначность и недетерминированность знакового представления (проблема недетерминированности),
- неопределенность языковой принадлежности графических знаков компонентов (проблема неопределенности).
В силу сложности решения этих семиотических проблем, в настоящее время могут быть получены знаковые представления далеко не для всех компонентов документов. Получаемые в настоящее время при компьютерной обработке знаковые представления основаны на сравнительно ограниченном наборе знаков: вербальные знаки естественных языков, структурные знаковые системы химии, биоинформатики, физики и математики. При компьютерной обработке вся сфера континуального и дискретно-континуального представления знаний остается, как правило, закрытой для знакового представления.
Для развития существующих языков и разработки новых языков разметки, предназначенных для знакового представления сложных образов в графических компонентах, предлагается строить семиотические системы электронных библиотек на основе обобщения понятия "знак" за счет учета всех возможных значений пяти семиотических характеристик компонентов. В частности, предлагается учесть возможную недетерминированность форм знаков в компонентах. Тогда на второй стадии логико-семантического моделирования можно было бы получить знаковое представление для всех вербальных и невербальных компонентов, используя эту семиотическую систему.
4. Семиотические характеристики компонентов полнотекстовых документов
По определению знаки вербальных компонентов полнотекстовых документов являются детерминированными, двумерными и статичными, а сочетания знаков могут быть только линейно упорядоченными (более точно, монолинейно упорядоченными) и дискретными (т.е. знаки в сочетаниях сохраняют свойство отделимости одного от другого).
Знаки структурных компонентов являются детерминированными, одномерными или двухмерными, а сочетания знаков дискретными, полилинейно упорядоченными (например, последовательности аминокислот с одновременным указанием в параллельной строке их позиций в последовательности) или порядок и связи между литерами и знаками задаются с помощью сетевых, иерархических, реляционных и дискретных параметрических схем. В компьютерных полнотекстовых документах могут встречаться также динамичные и/или многомерные структурные компоненты, которые, как правило, имеют растровую или векторную основу построения и редко - знаковую.
Монолинейная конкатенация литер в вербальных компонентах, детерминированность форм знаков и дискретность их сочетаний в вербальных и структурных компонентах являются основными их отличительными признаками от графических компонентов. В знаковом представлении графических компонентов могут использоваться детерминированные, размытые, вероятностные и неопределенные по своим формам и очертаниям графические знаки, статичные и динамичные (в компьютерных документах), одномерные, двухмерные и многомерные [8, 10]. Их сочетания могут быть дискретными, континуальными и дискретно-континуальными, знаки могут объединяться с помощью дискретных и непрерывных многопараметрических схем (в частном случае, пространственно-временных). При этом континуальные сочетания знаков в графических компонентах редко поддаются однозначной и детерминированной разделимости на составляющие эти сочетания графические знаки.
Например, в графическом компоненте документа, являющимся картографическим изображением холма с одной вершиной, знак "вершина холма" и знаки "сектор склона холма" нельзя выделить однозначно и детерминировано, так как в знаковом представлении изображение холма может быть представлено в виде сочетания знака "вершина холма" и знаков "сектор склона холма" бесчисленным числом вариантов. В каждом варианте могут отличаться формы знаков в тех пределах, когда эти отличия не влияют на содержательные аспекты знаков "вершина холма" и "сектор склона холма". Каждый новый вариант можно получить за счет коррекции формы знаков без изменения их значений. Для получения каждого нового варианта достаточно в континуальном сочетании графических знаков, рассматриваемого как континуум точек, немного изменить формы этих знаков. При этом не должны затрагиваться те ключевые графические элементы знаков, которые отражают их содержательные аспекты и характерные пространственные признаки. Каждое такое изменение будет давать новый вариант знакового представления изображения холма в виде сочетания составляющих его графических знаков.
Сгруппируем семиотические характеристики компонентов, определяемые свойствами форм и очертаний знаков и сочетаний знаков, следующим образом:
- детерминированность/размытость форм (очертаний) знаков,
- статика/динамика знаков,
- одномерность/двухмерность/многомерность знаков,
- упорядоченность/неупорядоченность сочетаний знаков,
- дискретность/непрерывность (континуальность) сочетаний знаков.
Остановимся на первой характеристике компонентов документов. Суммируя отличительные признаки графических компонентов от вербальных и структурных компонентов, выделим два основных момента в проблеме недетерминированности знакового представления. С одной стороны, графические знаки могут иметь многовариантные, случайные, нечеткие (размытые) и неопределенные формы. С другой стороны, существует бесконечное число вариантов знакового представления широкого спектра графических компонентов документов.
Кроме проблемы недетерминированности знакового представления, для графических компонентов отсутствует та четкая разделимость языков, которая характерна для вербальных и структурных компонентов документов [10].
В широком спектре графических компонентов проблема недетерминированности знакового представления часто сочетается с непрерывностью языковой системы, что тесно связано с неопределенностью границ между невербальными языками, а часто и нечеткости языковой принадлежности знаков. Отметим, что в классической семиотике эта проблема была сформулирована применительно к семиосфере культуры [[16]], но она становится актуальной и для семантического пространства электронных библиотек, если пытаться решить задачу знакового представления графических компонентов полнотекстовых научных документов.
5. Заключение
Во-первых, предложенный перечень семиотических характеристик коммуникативных компонентов научных документов и типология принимаемых ими значений существенно расширяет понятие "знак" в семиотике, в частности, за счет учета возможной недетерминированности форм и очертаний знаков. Предлагаемое расширение понятия "знак" ориентировано на получение цифровых знаковых представлений вербальной и невербальной научной информации в процессе ее логико-семантического моделирования, а также на решение проблемы семантического поиска в электронных библиотеках научных документов.
Во-вторых, знаковое представление графических компонентов с учетом предлагаемой трактовки понятия "знак" тесно связано с тремя следующими проблемами:
- недетерминированность знакового представления графических компонентов,
- неопределенность языковой принадлежности знаков,
- наличие авторских и слабоопределенных знаков.
Образно говоря, эти проблемы являются "платой" за концептуально единую семиотическую основу семантического моделирования и поиска вербальной и невербальной научной информации в предлагаемой трактовке понятия "знак". Анализ, принципы и методы решения этих проблем заслуживают отдельного рассмотрения.
В-третьих, проблему семантического моделирования полнотекстовых научных документов и их поиска в электронных библиотеках предлагается рассматривать в контексте всего спектра значений семиотических характеристик коммуникативных компонентов документов.
Список литературы
[1]. Schatz B., Cole T.W., Hardin J.B. et al. Federating Diverse Collection of Scientific Literature // Computer. -1996. - Vol. 29, N 5. - p. 28-36.
[2]. Schatz B., Mischo W., Cole T., Bishop A. et al. Federated Search of Scientific Literature // Computer. - 1999. - Vol. 32, N 2. - p. 51-59.
[3]. Wilensky R. Toward Work-Centered Digital Information Services // Computer. - 1996. -Vol. 29, N 5. - p. 37-44.
[4]. Gupta A., Santini S., Jain R. In Search of Information in Visual Media // Communications of the ACM. - 1997. -Vol. 40, N 12. - p. 35-42.
[5]. Lemke J.L. Multiplying Meaning: Visual and Verbal Semiotics in Scientific Text. In: Martin J.R. and Veel R. (Eds.) Reading science: Critical and functional perspectives on discourse of science. - London: Routledge, 1998. - pp. 87-113.
[6]. Miller T. Visual Persuasion: A Comparison of Visuals in Academic Texts and the Popular Press // English for Specific Purposes. - 1998. - Vol. 17, No. 1, pp. 29-46.
[7]. Johns A.M. The Visual and The Verbal: A Case Study in Macroeconomics // English for Specific Purposes. - 1998. - Vol. 17, No. 2, pp. 183-197.
[8]. Зацман И.М. Семантическое кодирование и разметка геолого-географических документов в политематических электронных библиотеках // Информационные технологии. - 2000. - N 11. С. 2-11.
[9]. Зацман И.М. Электронные библиотеки научных документов в Интернет: структуризация, формальное описание и поиск невербальной информации // Научно-техническая информация (серия 2 "Информационные процессы и системы"). - 1998. No 11.
[10]. Зацман И.М. Семантическое поле поиска геодокументов в политематических электронных библиотеках // Труды международного семинара Диалог-2000 по компьютерной лингвистике и ее приложениям. Т. 2. - Протвино, 2000. - С. 148-158.
[11]. Eco U. A Theory of Semiotics. - Bloomington: Indiana University Press, 1976. - 356 pp.
[12]. Stanoevska-Slabeva K., Hombrecher A., Handschuh S., Schmid B. Efficient Information Retrieval: Tools for Knowledge Management // Proc. of the Second International Conference on Practical Aspects of Knowledge Management (29-30 October, 1998). Basel, 1998. - pp. 23-1 -- 23-6.
[13]. Зацман И.М. Логико-семантические модели полнотекстовых научных документов // Научно-техническая информация (серия 2 "Информационные процессы и системы"). - 1999. No 5.
[14]. Polzonetti G., Garravetta V., Russo M.V. et al. Phenylacetylene chemisorbed on Pt (111), reactivity and molecular orientation as probed by NEXAFS. Comparison with condensed multilayer and polyphenylacetylene // Journal of Electron Spectroscopy. - 1999. - Vol. 98-99, - P. 175-187.
[15]. Lee K.H., Choy Y.C., Cho S.B. Geometric Structure Analysis of Document Images: A Knowledge-Based Approach // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2000. - Vol. 22, No. 11, pp. 1224-1239.
[16]. Лотман Ю.М. Внутри мыслящих миров. Человек - текст - семиосфера - история. М.: "Языки русской культуры", 1996. - 464с.