СЕМАНТИЧЕСКИЙ ПОИСК НАУЧНОЙ ИНФОРМАЦИИ: НЕОДНОРОДНЫЕ КОММУНИКАТИВНЫЕ КОМПОНЕНТЫ И ЦВЕТОВАЯ ПАЛИТРА ОБЪЕКТОВ ПОИСКА [*]
И. М. Зацман
Институт проблем информатики РАН
igor@a170.ipi.ac.ru
Ключевые слова: семиотическая модальность, полнотекстовые научные документы, неоднородные коммуникативные компоненты, цветовая палитра объектов поиска
Рассматриваются неоднородные по семиотической модальности коммуникативные компоненты полнотекстовых научных документов, которые являются информационным ресурсом электронных библиотек. Предлагается группировать неоднородные компоненты в зависимости от сочетаний вербальных и невербальных знаков, которые входят в состав компонентов. Компоненты объединяются в следующие группы: вербально-структурные, вербально-графические, структурно-графические и вербально-структурно-графические. Приводится описание структуры семантического пространства электронных библиотек научных документов. Рассматриваются возможности использования интермодальных знаков и цветовой палитры для представления знаний в электронной библиотеке и решения проблемы семантического поиска.
1. Введение
В первой части статьи [[1]] показано, что для получения знаковых представлений научных документов электронной библиотеки, включая все их вербальные и невербальные компоненты, необходимо построить мультимодальную семиотическую систему библиотеки, включающую следующие системы знаков:
- традиционные вербальные системы знаков естественных языков (слова, устойчивые словосочетания),
- системы структурных знаков,
- системы графических знаков,
- системы неоднородных знаков.
Этот перечень систем знаков соответствует типологии коммуникативных компонентов научных документов, краткое описание которых приведено далее. Рассматривается постановка проблемы семантического поиска научной информации в электронных библиотеках, учитывающая содержательные аспекты и вербальных, и невербальных компонентов. Постановка этой проблемы учитывает тот факт, что содержательные аспекты невербальных компонентов не всегда могут быть переданы средствами естественного языка и через вербальные метаописания. Последнее утверждение является частным случаем ключевого положения теории семиотики о существовании трех основных сфер представления знаний: вербальные знания в лингвистической форме, которые не могут быть адекватно переведены в невербальную форму (обозначим как сфера I), невербальные (нелингвистические) знания, которые не могут быть представлены в вербальной форме (сфера II), и та часть знаний, которая может быть достаточно адекватно представлена и в вербальной, и в невербальной формах [[2]]. Для обозначения третьей сферы, которую будем называть сферой семиотической синонимии, предлагается использовать латинские цифры "I", "II" и латинскую букву "s" между ними, которая является первой буквой в слове synonymy(сфера IsII).
Во второй части статьи [[3]] показано, что три перечисленные сферы представления знаний не охватывают все семантическое пространство электронной библиотеки. Полнота охвата обеспечивается только в том случае, если учесть еще одну сферу представления знаний, концепты которой могут быть представлены только сочетанием вербальных и невербальных форм информации. Для обозначения четвертой сферы, которую будем называть интермодальной [[4]], предлагается использовать латинские цифры "I", "II" и латинскую букву "m" между ними, которая является первой буквой в слове miscellaneous - смешанный или разнообразный - (сфера ImII).
В настоящее время, одним из способов отображения содержательных аспектов невербальных компонентов полнотекстовых научных документов является их кодирование с помощью метаданных в литерной форме на основе некоторого стандарта. С одной стороны, это дает возможность расширить пространство семантического поиска за счет тех невербальных компонентов, содержательные аспекты которых могут быть достаточно адекватно переданы средствами вербального языка или метаданными в литерной форме (сфера IsII). С другой стороны, в силу отмеченного положения семиотики, для семантического поиска по-прежнему остаются закрытыми сферы II и ImII, по определению которых соответствующие им концепты не могут быть представлены семантически адекватными вербальными описаниями и/или литерными метаданными.
В докладе из всех возможных нелингвистических форм рассматриваются структурные, графические формы представления знаний и сочетания этих форм, в том числе с вербальной формой представления.
2. Основные термины и понятия
Приведем определения ряда терминов и понятий, используемых в докладе.
Вербальные компоненты документов - монолинейные дискретные конкатенации литер, детерминированных по своей форме и очертаниям. Сюда относятся естественно-языковые фрагменты названия, аннотации, разделов, глав и параграфов, подрисуночных подписей, а также текст на естественном языке на диаграммах, картах, схемах, рисунках и графиках, в ячейках таблиц.
Структурные компоненты - полилинейные дискретные конкатенации литер, знаки с детерминированной формой, а также совокупности литер и знаков, которые связаны с помощью сетевых, иерархических, реляционных, дискретных параметрических схем и их сочетаний. Сюда относятся математические формулы, структурные химические формулы и реакции, биоинформационные последовательности.
Графические компоненты - континуальные или дискретно-континуальные сочетания знаков, формы которых могут быть одномерными и многомерными, статичными и динамичными, детерминированными, размытыми, случайными и неопределенными. Сюда относятся графики, диаграммы, схемы, чертежи, карты (включая 3D- и 4D-карты), рисунки и фотографии, за исключением вложенных в них вербальных и структурных компонентов.
Описание упомянутых в определениях схем организации документов и их компонентов дано в работах [[5], [6]]. Компоненты документов могут быть многократно вложены друг в друга. Например, таблица может иметь текстовые ячейки, ячейки со структурными химическими формулами или рисунками [[7]]. Сами таблицы могут быть многократно вложены друг в друга. За счет многоуровневой вложенности и/или сочетания однородных компонентов (вербальные, структурные, графические) могут быть получены четыре вида неоднородных или интермодальных компонентов (вербально-структурные, вербально-графические, структурно-графические и вербально-структурно-графические).
Для обозначения всех видов однородных и неоднородных компонентов используется термин "коммуникативные компоненты документа". Для обозначения структурных, графических и любых видов неоднородных компонентов предлагается использовать термин "невербальные компоненты". Традиционный документ определим как совокупность вербальных и/или невербальных компонентов с детерминированными по форме, статичными, одномерными или двумерными знаками. Обобщенный документ (generalized document) включает компоненты с размытыми, случайными или неопределенными по форме знаками, которые могут быть многомерными и динамичными, а также включать анимационные информационные объекты [[8]].
Семантический поиск определяется как поиск по содержательным аспектам всех компонентов документов электронной библиотеки. Случай, когда пользователю неизвестна компонентная форма представления в электронной библиотеке интересующих его сведений об объектах и явлениях (вербальная, структурная, графическая, вербально-структурная, вербально-графическая, структурно-графическая или вербально-структурно-графическая), определим как обобщенный семантический поиск.
3. Таксономия сфер представления знаний в электронной библиотеке
В работе [2] отношения между вербальной и невербальной сферами представления знаний иллюстрируются в виде двух частично пересекающихся окружностей (рис. 1а).
Рис. 1. Сферы представления знаний в вербальной и невербальной формах: (1а) три сферы; (1б) четыре сферы, включая интермодальную
Верхний сегмент первой окружности условно обозначает сферу представления знаний в вербальной форме (область I). Нижний сегмент второй окружности - сферу представления знаний в невербальной форме (область II). Пересечение этих окружностей соответствует третьей сфере знаний, концепты которой могут быть достаточно адекватно представлены в двух вариантах: и в вербальной, и в невербальной формах (область IsII).
Если рассматривать только один вид невербальной формы представления знаний – графическую, то область II будет обозначать знания, представимые только в графической форме, а областьIsII соответствует знаниям, которые могут быть представлены и в вербальной, и в графической формах. В задачах индексирования и поиска вербально-образной информации в электронных библиотеках необходимо учитывать еще одну сферу представления знаний, которые могут быть представлены только сочетанием вербальных и графических форм информации (область ImII) [3]. На рис. 1б схематично обозначены четыре области (I, II, IsII и ImII), которые являются составными частями семантического пространства электронной библиотеки.
Возможен и более детальный вариант таксономии (рис. 2), включающий две невербальные формы: графическую и структурную [8].
Рис. 2. Таксономия сфер представления знаний в электронных библиотеках для двух невербальных форм
Деление на графическую и структурную формы носит достаточно условный характер. До использовании в электронной библиотеке более детального варианта таксономии необходимо рассмотреть основные виды диаграмм (graphs, tables, graphical tables, time charts, networks, structure diagrams, process diagrams, maps, cartograms, icons, and pictures [[9]]) и каждый из этих видов связать с некоторой формой представления знаний.
Детальный вариант таксономии включает три однородные формы: вербальная (I), структурная (II) и графическая (III), четыре интермодальные формы: вербально-структурная, вербально-графическая, структурно-графическая, вербально-структурно-графическая и четыре области семиотической синонимии, которые обозначены на рис. 2 как IsII, IsIII, IIsIII и IsIIsIII. Отметим, что выделяя вербальную и графическую сферы, получаем только одну область семиотической синонимии IsII.
Наблюдается несоответствие между более детальной таксономией сфер представления знаний, число которых равно 11, и типологией компонентов научных документов, число видов которых равно 7. При этом трем видам однородных компонентов документов соответствуют три сферы представления знаний в вербальной, структурной и графической формах. Четырем видам неоднородных компонентов документов соответствуют четыре интермодальные сферы ImII, ImIII, IImIII и ImIImIII. Остаются четыре сферы семиотической синонимии, для которых в явной форме не указаны соответствующие им виды компонентов. Природа этого несоответствия исследуются в работах [1, 3, 8]. Как следует из определения семиотической синонимии концепты этих сфер знаний могут быть адекватно представлены в разных формах. Например, сегмент IsIIsIII обозначает ту сферу семиотической синонимии, знания в которой могут быть достаточно адекватно представлены в каждой из однородных форм (вербальной, структурной и графической).
Таксономия из одиннадцати сфер представления знаний предлагается как когнитивная основа построения мультимодальных семиотических систем электронных библиотек. Кроме того, она в наиболее общей форме отражает структуру семантического пространства электронной библиотеки научных документов и является основой решения проблемы обобщенного семантического поиска [8].
4. Интермодальные знаки и поисковые запросы
В первой части статьи [1] показано, что для получения знаковых представлений научных документов электронной библиотеки на основе детального варианта таксономии необходимо построить мультимодальную семиотическую систему библиотеки, включающую системы следующие знаков: вербальных, структурных, графических и неоднородных (интермодальных), которые включают вербально-структурные, вербально-графические, структурно-графические и вербально-структурно-графические знаки.
Включение систем неоднородных знаков в состав мультимодальных семиотических систем электронных библиотек требует обоснования. Если иллюстрации в научном документе является неоднородными (см. рис. 3), то почему их нельзя представить как сочетания однородных графических и вербальных знаков ?
Рис. 3. Изображения береговых форм рельефа (дельта выступания в море и дельта заполнения в озере) из [[10]]
Эти два примера вербально-графических компонентов включают четыре вербальных компонента (первый пример включает компоненты “море” и “Дельта выступания”, второй пример - “озеро” и “Дельта заполнения”), которые могут быть выделены, идентифицированы как отдельно адресуемые текстовые компоненты и использованы при вербальном поиске. При декомпозиции рассматриваемых вербально-графических компонентов возможны следующие варианты декомпозиции, которые могут использоваться и одновременно:
- с выделением подписей справа от рисунка (“Дельта выступания” и “Дельта заполнения”, но без выделения вербальных компонентов в рисунке (“море” и “озеро”), то есть с адресацией отдельно каждой подписи и вербально-графического компонента без подписи;
- с выделением подписей, вербальных компонентов “море” или “озеро” и однородных графических компонентов.
В первом варианте декомпозиции (описание основных этапов стадии декомпозиции в процессе логико-семантического моделирования дано в [1]) выделяются один вербальный компонент (подпись) и один вербально-графический компонент, который изображает в первом примере "морское устье", в во втором - "озерное устье". Во втором варианте, в каждом иллюстрации, выделяются как структурные адресуемые элементы документа по два вербальных компонента и один однородный графический компонент.
Второй вариант декомпозиции дает графические компоненты, которые отображают общее понятие «устье в принимающем водоеме», которое является родовым понятием для трех видов принимающего водоема (озеро, море и океан). На рис. 3 изображены два вида, а именно, "морское устье" и "озерное устье". Если на стадии декомпозиции описать связь между первым однородным графическим компонентов и словом “море” как отдельным вербальным компонентом, то их семантически связанное сочетание станет формальным описанием понятия "морское устье" (во втором случае - "озерное устье"). То есть, второй вариант декомпозиции этих примеров дает возможность структурировать исходные иллюстрации на однородные компоненты, которые на следующей стадии логико-семантического моделирования предполагается индексировать с помощью дескрипторов вербально-образного тезауруса (см. раздел 7). Таким образом, эти иллюстрации могут быть структурированы в процессе логико-семантического моделирования на однородные компоненты, знаковое представление которых может состоять только из однородных знаков. Отметим, что новый класс логико-семантических моделей научных документов, ориентированных на решение проблемы семантического поиска, а также перечень основных стадий логико-семантического моделирования корпуса полнотекстовых научных документов предложены в работе [6]. Идея и закономерность перехода от логико-лингвистических моделей к логико-семантическим изложена в работе [[11]].
Однако, даже в случае проведения декомпозиции иллюстраций до уровня однородных компонентов, сохраняется потребность и в неоднородных знаках. Они могут потребоваться для разных вариантов построения интермодальных запросов на поиск документов в электронных библиотеках. Если использовать однородные и неоднородные знаки для получения разных вариантов знаковых представлений, то у пользователя появляется возможность выбора в мультимодальной семиотической системе электронной библиотеки того вида знаков (однородных или неоднородных), которые он предпочитает использовать как базовые элементы при построении своего запроса. То есть одна из целей использования неоднородных знаков в электронных библиотеках заключается в расширении способов построения интермодальных поисковых запросов.
5. Цветовая палитра объектов поиска
Приведенные иллюстрации береговых форм рельефа являются черно-белыми. Рассмотрим более сложный случай, когда часть содержательных аспектов иллюстраций может передаваться цветовой гаммой и необходимо организовать поиск научных документов с учетом семантики цвета. В докладе ограничимся кратким описанием вопроса нормализации цвета при поиске, который рассмотрим на примере цветных палитр, применяемых в изображениях литолого-стратиграфических разрезов и геологических картах (рис. 4).
Рис. 4. Фрагмент Международной стратиграфической таблицы [[12]]
В них в помощью цвета кодируется геологическое время (см. шестую по счету колонку на рис. 4, где время от 141 до 250 указано в миллионах лет). Для кодирования возраста геологических образований используется нормализованная цветовая палитра, фрагмент которой приведен на рисунке в полутоновом виде (на слайдах презентации доклада приведено ее цветное изображение).
Нормализованные цвета и их идентификаторы (503, 523, 782 и 402) приведены на рис. 5 только для юрского периода (обозначен буквой J) и составляющих его эпох (поздний юрский период – J3, средний – J2 и ранний - J1) через процентные сочетания голубого, зеленого или пурпурного цветов из палитры Pantone [[13]]. Ориентировочные вербальные названия элементов цветовой гаммы указаны в соответствующих ячейках на рис. 4.
Этот широко используемый подход к нормализации цветовой палитры может быть использован при создании электронных библиотек научных документов с цветными иллюстрациями. Он может служить основой построения методов поиска графических компонентов документов в тех случаях, когда часть содержательных аспектов компонентов передается цветовой гаммой и это необходимо учитывать при поиске документов.
Рис. 5. Нормализованная цветовая палитра для юрского периода и его эпох [[14]]
6. Вербальные и графические знаки в электронных библиотеках
Предлагаемая когнитивная основа построения мультимодальной семиотической системы для представления знаний в электронных коллекциях и библиотеках основана на гипотезе, что содержательные аспекты компонентов каждого из семи видов, включая четыре вида неоднородных компонентов, могут быть выражены соответствующим сочетанием вербальных, структурных, графических или неоднородных знаков. Эта гипотеза заслуживает отдельного рассмотрения в силу следующих причин.
Использование понятия "графический (визуальный) знак" иногда косвенно предполагает, что можно определить некоторую систему базовых элементов для графических компонентов. Результатом ряда предыдущих попыток определения базовых элементов графических образов стало утверждение, что определить их для построения графических образов подобно тому, как определяются буквы алфавита, иероглифы и вербальные знаки, составляющие вербальные тексты, невозможно [[15], [16]].
В этой ситуации, когда в общем случае конструктивное описание базовых элементов для построения графических образов в семиотике считается невозможным, предлагается искать приближенное решение [3]. С целью поиска приближенного решения рассмотрим кратко следующие вопросы, связанные с индексированием вербальной и графической информации в электронных библиотеках:
- мотивированность знаков;
- многозначность означающих (форм) знаков;
- конвенциональность вербальных знаков;
- конвенциональность немотивированных графических знаков;
- графические знаки в электронных библиотеках.
Мотивированность знаков. Методы индексирования и поиска вербальной информации основаны на понятии «лингвистический знак», который трактуется в пределах каждого естественного языка как конвенциональное единство означающего и означаемого. Как правило, соотношение между конкретными означающими и означаемыми лингвистических знаков не являются мотивированными. Если же рассматривать графические знаки изображений, в частности, картографические знаки, то они могут быть и мотивированными, и немотивированными. Многоаспектное сравнение лингвистических и картографических знаков, включая аспект мотивированности, дано в работе [[17]].
Многозначность означающих. С одной стороны, деление на означающее и означаемое оказалось полезным и удобным для построения методов вербального поиска, которые используют словари означающих (слов, устойчивых словосочетаний и фраз), упорядоченных в лексикографическом порядке. С другой стороны, это деление порождает сложные лингвистические ситуации, которые необходимо учитывать при организации поиска в электронных библиотеках (например, многозначность слов). Для алгоритмического решения этих задач в процессе вербального индексирования и поиска необходимо «восстанавливать» единство означающего (формы) и означаемого (значения) лингвистических знаков. Одним из средств восстановления конвенционального единства означающих и означаемых лингвистических знаков является вербальный тезаурус. Если несколько разных знаков имеет одно и то же означающее, то в тезаурусе таким знакам будут соответствовать разные дескрипторы. Это дает возможность с помощью тезауруса специфицировать значения многозначных слов следующим образом. В процессе контекстного анализа и индексирования устанавливаются связи между многозначными означающими и соответствующими дескрипторами тезауруса. Аналогичные ситуации встречаются и при обработке изображений. Задачи разрешения многозначности являются актуальными для означающих и вербальных, и графических знаков в электронных библиотеках.
Конвенциональность вербальных знаков является краеугольным камнем создания методов вербального поиска текстов на естественных языках. Существуют методы, которые не используют вербального тезауруса. Однако практически все методы вербального поиска основаны на конвенциональности лингвистических знаков в пределах каждого естественного языка. Если электронная библиотека содержит документы на нескольких естественных языках (multilingual digital library), то в ней текстам каждого языка соответствует свое семантическое пространство. В каждом пространстве действует своя конвенция о знаках и свои системы парадигматических, синтагматических и семантических отношений. Тексты каждого вербального языка «подчиняются» той или иной конвенции. При этом число конвенций равно числу языков документов в конкретной электронной библиотеке. Если запрос задается на одном естественном языке, то тексты на других языках могут быть найдены, если специфицированы семантические связи между конвенциями в электронной библиотеке. Эта связанность конвенций может обеспечиваться мультиязычным тезаурусом электронной библиотеки.
Конвенциональность немотивированных графических знаков. В научных документах широко используются немотивированные графические знаки и графические примитивы. Однако только часть этих знаков являются настолько же общепринятыми, как вербальные знаки в пределах каждого естественного языка. Например, когда мы используем карту или систему карт с единой легендой, то для нас область конвенциональности немотивированных знаков и значений графических примитивов часто ограничена только этой картой или системой карт. Когда мы используем изображение литолого-стратиграфического разреза или системы разрезов с единой системой условных обозначений слоев, то область их конвенциональности ограничена разрезом или системой разрезов. Каждая легенда и каждая система обозначений является локальной конвенцией об использовании немотивированных знаков и графических примитивов. Поэтому интеграция в электронной библиотеке карт с разными легендами, изображений разрезов с разными системами обозначений влечет значительное увеличение числа локальных конвенций по сравнению с традиционными мультиязычными электронными библиотеками.
Важно отметить тот факт, что локальные конвенции определяют значения и немотивированных знаков, и графических примитивов. В естественных языках существует также соглашение об использовании графических примитивов, например, правила использования одной точки (.), двух точек (:) и трех точек (…). Однако сфера использования графических примитивов как носителей содержательных аспектов в изображениях значительно шире по сравнению с вербальными текстами.
Графические знаки в электронных библиотеках. В семиотике при использовании понятия «графический знак» иногда предполагается, что можно определить некоторую систему знаков для построения (конструирования) изображений. Это допущение принимают, как правило, по аналогии с тем, что понятие «вербальный знак» подразумевает наличие словаря слов, являющихся базовыми элементами текстов на естественном языке. Для многих классов изображений нет общепринятой точки зрения о корректности аналогичного утверждения. Для всех возможных изображений в семиотике доминирует та точка зрения, что невозможно определить системы графических знаков также, как определяются буквы алфавита, иероглифы и вербальные знаки, составляющие вербальные тексты [15, 16].
В геоинформатике, например, вопрос «Можно ли построить систему графических знаков, на которые распадается любой геоизображение?» является ключевым для постановки проблемы индексирования геоизображений. Для карт и других геоизображений в настоящее время нет однозначного ответа на этот вопрос. Отсутствие ответа во многом объясняется тем, что граница между понятиями «графический знак» и «сочетание графических примитивов» является весьма размытой.
Поэтому использование понятия «графический знак» в докладе применительно к изображениям не предполагает конструирования изображений из графических знаков. Проблема состоит в том, чтобы специфицировать систему графических знаков как составную часть мультимодальной семиотической системы электронной библиотеки для индексирования и поиска изображений, что принципиально отличается от проблемы построения изображений из набора знаков и графических примитивов.
7. Вербально-образный тезаурус электронной библиотеки
В докладе графические знаки трактуются как синонимы графических дескрипторов вербально-образного тезауруса, конвенциональная основа построения которого рассмотрена в работах [1, 3]. Только после включения в тезаурус графических дескрипторов появляется возможность индексирования соответствующих изображений, так как в процессе индексирования предлагается использовать только дескрипторы тезауруса. Дескрипторы вербально-образного тезауруса предлагается строить на основе следующих положений:
- графические дескрипторы тезауруса могут быть и мотивированными, и немотивированными;
- дескрипторы имеют одно значение в системе отношений тезауруса;
- значения графических дескрипторов в электронной библиотеке научных документов определяются на основе систем семантических отношений конвенциональных научных классификаций объектов и явлений;
- отношения между дескрипторами тезауруса включают традиционные для вербальных тезаурусов системы связей (предпочтительные, иерархические, ассоциативные);
- отношения между дескрипторами могут также включать дополнительные системы связей, которые в вербальных тезаурусах не встречаются (например, отношения семиотической синонимии);
Из третьего положения о конвенциональности следует, что число конвенций, учитываемых в тезаурусе, будет определяться числом отобранных конвенциональных систем классификаций объектов и явлений.
Прежде чем рассмотреть критерии выбора систем классификаций для построения вербально-образного тезауруса, сравним конвенциональные основы построения тезаурусов. Теоретической основой проектирования вербального тезауруса является конвенциональный характер вербальных знаков каждого естественного языка. Теоретической основой проектирования вербально-образного тезауруса является конвенциональный характер научных классификаций объектов и явлений. Общность конвенциальных основ заключается в использовании общепринятых систем семантических отношений. Для вербальных тезаурусов мы имеем дело с конвенциональной системой семантических отношений естественного языка, а для вербально-образного тезауруса электронной библиотеки - системой семантических отношений в конвенциональных научных классификациях объектов и явлений.
Рассмотрим отдельные принципы выбора конкретных систем классификаций на примере вербально-образного геотезауруса, то есть ограничимся только науками о Земле. В системах классификации геообъектов и явлений используются, как правило, типовые геоизображения для представления географических концептов в вербально-образной форме. В качестве примера типовых изображений, иллюстрирующего принципы выбора систем классификаций, рассмотрим два геоизображения дельт (см. рис. 3) из Атласа форм рельефа [10]. Они интересны с точки зрения сочетания вербальной и графической модальностей при описании пространственных объектов. В этих геоизображениях содержательные аспекты передаются сочетанием слов и образа (берег моря и берег озера отличаются только по вербальным компонентам геоизображений). И для построения запросов на поиск подобных геоизображений в электронной геобиблиотеке могут потребоваться сочетания вербальных и графических знаков.
Для формулирования таких запросов могут использоваться одновременно вербальные и графические знаки в виде сочетаний вербальных и графических дескрипторов геотезауруса. Если в электронной геобиблиотеке предусмотрено использование вербально-графических дескрипторов, то пользователи геобиблиотеки могут использовать их вместо сочетаний. То есть появляется возможность выбора модальностей дескрипторов, которые пользователь предпочитает использовать как базовые элементы при построении своего запроса.
Таким образом, один из принципов выбора заключается в том, что типовые геоизображения в системах классификаций, используемые для построения дескрипторов, должны сочетать вербальные, графические и вербально-графические формы представления географических концептов.
Необходимо отметить, что верхние уровни систем классификации являются в основном вербальными. Поэтому в геотезаурус необходимо включать вербальные дескрипторы для отражения таких абстрактных понятий как "элементы гидрографической сети", "формы рельефа". Для описания более конкретных уровней классификационных систем могут быть использованы вербальные и/или графические дескрипторы геотезауруса. Для отражения содержания нижних, самых детальных уровней классификации с неустоявшейся терминологией или нумерацией типов геообъектов нижнего уровня, иногда могут быть использованы только графические дескрипторы.
Перечислим исходные положения, которые предлагается использовать при организации процесса индексирования изображений:
- если в электронной библиотеке специфицированы три однородные формы представления знаний, то в процессах индексирования изображений могут использоваться семь видов дескрипторов вербально-образного тезауруса;
- если в библиотеке специфицированы две однородные формы представления знаний, то могут использовать три вида дескрипторов тезауруса;
- в любом варианте таксономии областей представления знаний графические дескрипторы строятся на основе отбора конвенциональных систем классификаций объектов и явлений;
- в процессе индексирования изображений с использованием дескрипторов из областей семиотической синонимии может быть использован «онтологический двойник» любой модальности.
Определим процесс индексирования изображений для того случая, когда в электронной библиотеке специфицированы две однородные формы представления знаний. С учетом исходных положений, индексирование каждого изображения определим как установление соответствия между ним и конечным числом отобранных дескрипторов вербально-образного тезауруса, которое обладает следующими свойствами [1, 3, 8]:
- если отобранный дескриптор является графическим, то он может не совпадать с фрагментами индексируемого изображения;
- в изображении могут существовать фрагменты, содержательные аспекты которых не отражены в наборе отобранных дескрипторов;
- семантические отношения между дескрипторами изображения могут не отражать всю полноту семантических отношений, которую можно наблюдать в изображении;
- дескриптор, отобранный из области синонимии IsII, может иметь любую модальность.
Семантические отношения между отобранными дескрипторы могут быть двух видов. Отношения первого вида наследуются из системы отношений тезауруса, то есть являются универсальными в пределах электронной библиотеки. Отношения второго вида предполагается специфицировать с помощью семантических сетей [[18]] в процессе индексирования конкретного изображения на основе его системы семантических отношений.
8. Заключение
Сравним индексирование изображения и процесс отбора ключевых слов, который традиционно используются для краткого семантического описания основного содержания научных статей. Сравнение проведем по трем позициям, перечисленным в первой строке Таблицы 1.
Таблица 1. Сравнение индексирования изображений и процесса отбора ключевых слов
|
Модальность дескрипторов тезауруса и ключевых слов статьи
|
Включенность дескриптора как фрагмента изобра-жения (вхождение ключевого слова в вокабуляр статьи) |
Сферы представления знаний (на примере первого варианта таксономии)
|
Дескрипторы вербально-образного тезауруса |
Любая |
Малая вероятность совпадения |
Все 4 сферы (I, II, IsII иImII)
|
Ключевые слова статей |
Вербальная |
Как правило, совпадает |
Сферы I и IsII
|
Модальность дескрипторов. Научная статья может включать широкий спектр коммуникативных компонентов разной модальности, но ключевые слова научной статьи имеют только вербальную модальность. Дескрипторы, отобранные в процессе индексирования изображений, могут иметь любую модальность или быть интермодальными в пределах используемого варианта таксономии сфер представлений знаний.
Включенность дескриптора. В процессе индексирования статьи используются, как правило, слова из текста статьи, но иногда могут использоваться слова, которые отсутствуют в тексте статьи. При индексировании изображений ситуации прямо противоположная: графический дескриптор будет редко совпадать с фрагментом изображения, так как в классификационных система объектов и явлений используются, как правило, типовые (шаблонные) изображения для представления научных концептов в графической форме.
Сферы представления знаний. Эту позицию сравнения рассмотрим на примере первого варианта таксономии (см. рис. 1б), то есть без структурной сферы представления знаний. Предположим, что все слова и словосочетания статьи определены как ключевые и используется вербализация для всех графических коммуникативных компонентов статьи [[19]]. Даже в этом гипотетическом случае, в силу отмеченного положения теории семиотики, ключевые слова не могут описать содержательные аспекты научных концептов, которые принадлежат областям II иImII. Включение в вербально-образный тезаурус всех видов дескрипторов для выбранного варианта таксономии позволяет индексировать все четыре формы представления научных знаний.
Предлагаемый подход к индексированию изображений можно рассматривать как одно из направлений дальнейшего развития метаязыка XML [8]. В настоящее время при разметке документов с изображениями они специфицируются, как правило, в виде вложенных не-XML объектов. Предлагается дополнительно использовать конструкции языка разметки, содержащие указатели на дескрипторы вербально-образного тезауруса некоторой электронной библиотеки. В этом случае появляется возможность описания средствами языка разметки семантических отношений между дескрипторами изображений, а также между дескрипторами и вербальными объектами в процессе разметки всего документа.
Литература
Semantic Search of Scientific Information: Heterogeneous Communicative Components and Color Palette of Search Objects
- I. M. Zatsman
Key words: semiotic modality, full-text scientific documents, heterogeneous communicative components, color palette of search objects
Statement of the problem of semantic search of scientific information in digital libraries is considered. Statement of the problem takes into account that fact, that semantic aspects of heterogeneous components not always can be represented through verbal text. Last statement is a position of the theory of semiotics about existence of three basic spheres of representation of knowledge:
- non-verbal knowledge which can not be represented in a linguistic form,
- verbal knowledge which can not be adequately translated into a non-verbal form,
- and that part of knowledge which can be represented both in verbal, and in non-verbal forms.
In work it is offered to carry out decomposition of the document on homogeneous and heterogeneous communicative components and to receive sign forms of representation of heterogeneous components on the basis of systems of heterogeneous signs being descriptors of the verbal-visual thesaurus. Examples of verbal-visual components of scientific documents, which semantic aspects represented through colorpalette, are considered.
[*]) Работа выполнена в рамках проекта РФФИ 01-06-80332
[1]. Зацман И.М. Вербально-образное представление знаний в электронных библиотеках (Часть I) // Научно-техническая информация (серия 2 "Информационные процессы и системы"). - 2001.- No 10.- С. 21-30.
[2]. Eco U. A Theory of Semiotics. - Bloomington: Indiana University Press, 1976. - 356 pp.
[3]. Зацман И.М. Вербально-образное представление знаний в электронных библиотеках (Часть II) // Научно-техническая информация (серия 2 "Информационные процессы и системы"). - 2001.- No 12.- С. 10-17.
[4]. Галеев Б.М. Синестезия – не аномалия, а проявление невербального мышления. – В кн.: Языки науки – языки искусства / Общ. Ред. З.Е. Журавлевой, В.А. Копцика, Г.Ю. Ризниченко. – М.: Прогресс-Традиция, 2000.- С. 140-143.
[5]. Зацман И.М. Семантическое кодирование и разметка геолого-географических документов в политематических электронных библиотеках // Информационные технологии.- 2000.- N 11.- С. 2-11.
[6]. Зацман И.М. Логико-семантические модели полнотекстовых научных документов // Научно-техническая информация (серия 2 "Информационные процессы и системы").- 1999.- No 5.- С. 13-22.
[7]. Курчавова О.А. Таблицы как вербально-графические компоненты полнотекстовых научных документов // Труды международного семинара "Диалог-2001" по компьютерной лингвистике и ее приложениям. Т. 2.- Аксаково, 2001.- С. 244-253.
[8]. Zatsman I.M. Semantic Encoding and Markup of Georeferenced Documents in Polythematic Digital Libraries of Scientific Literature // Third All-Russian Scientific Conference "Digital Libraries: Advanced Methods and Technologies, Digital Collections" (Petrozavodsk, September 11-13, 2001).- Petrozavodsk: KarRC RAS, 2001.- pp. 136-142.
[9]. Lohse G.L., Biolsi K., Walker N., and Ruelev H.H. A Classification of Visual Representations // Communications of the ACM.- 1994.- Vol. 37, N 12.- pp. 36-49.
[10]. Лунев Б.С., Наумова О.Б. Атлас форм рельефа. В 2т.: т. 1: Основные рельефо-образующие факторы Земли. - Пермь: Пермский ун-т, 1998.- 296 с.
[11]. Шемакин Ю.И., Романов А.А. Компьютерная семантика. - М.: НОЦ "Школа Китайгородской", 1995. - 344 с.
[12]. The International Stratigraphical Chart. – Division of Earth Sciences, UNESCO, 2000.
[13]. Gamme de couleurs BRGM, edition 1989.
[14]. Explanatory note to the International Stratigraphical Chart. – Division of Earth Sciences, UNESCO, 2000.
[15]. Jorna R.J., Heusden B. Signs, search and communication: Towards an empirical future for semiotics. In: Jorna R.J., Heusden B., Posner R. (Eds.) Signs, search and communication: Semiotics aspects of artificial intelligence.- Berlin: Walter de Gruyter, 1993.- pp. 1-21.
[16]. Sonesson G. Die Semiotik des Bildes. Zum Forschungsstand am Anfang der 90er Jahre, in Zeitschrift für Semiotik, 15: 1—2, 1993; ss 131—164 (the original, English version is available electronically: http://www.arthist.lu.se/kultsem/sonesson/pict_sem_1.html).
[17]. Schlichtmann H. Specific traits of the sign system "map symbolism" // Paper at 11th International Cartographic Conference. Warsaw: July 29 to August 4, 1982. - 20p.
[18]. Кузнецов И.П. Семантические представления.- М.: Наука.- 1986.
[19] . Кобозева И.М. Как мы описываем пространство, которое видим: форма объектов // Труды международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям. Т. 1.- Протвино.- 2000.- С. 155-161.