О постановке проблемы семантического поиска научной информации в электронных библиотеках
Галина И.В., Зацман И.М.
- Современный этап развития информационных технологий, появление политематических электронных библиотек, содержащих коллекции полнотекстовых документов, развитие медиатехнологий и сети Интернет поставило пользователей перед необходимостью поиска семиотически разнородных текстов. При этом, часто требуется найти не только вербальную, но и невербальную информацию, так как информационная ценность научных документах иногда заключается именно в их невербальных компонентах.
В большинстве современных информационных технологий отсутствует концептуально единый семиотический подход к интеграции вербальной и невербальной информации в знаковой форме и ее семантического поиска. Существующие системы, как правило, не учитывают информационную потребность пользователя в поиске невербальных компонентов научного документа. Реализация такого поиска значительно повысила бы полноту и точность получаемых сведений. Семантический поиск семиотически разнородной научной информации (включая невербальную) в электронных библиотеках научных документов является новой задачей, которая пока остается нерешенной.
Проблема семантического поиска как по вербальным, так и по невербальным компонентам рассматривалась в работах [1-3]. Исследование, проведенное Дж. Лемке [15], показывает, что в некоторых документах по геологии 90% научной информации приведено в иллюстрациях, диаграммах и т.п., а собственно текст иногда представляет собой подписи под «картинками» и краткие выводы.
Т. Миллер [17], сравнивая содержание научных документов (статей) с научно-популярной литературой, обосновывает важность визуальных коммуникативных компонентов научных документов. В результате проведенного им сравнения выясняется, что вес и роль невербальных компонентов в собственно научной литературе оказывается гораздо выше, чем в научно-популярной. Опираясь на мнение Т. Хакина [11], указывающего на некоторые аспекты конвенциональности научной коммуникации, он утверждает, что одно из соглашений ученых, представляющих разные научные дисциплины, касается размера, места, порядка и организации визуальных компонентов.
Научная статья часто строится вокруг визуальных компонентов, которые используются при доказательстве основательности выдвигаемых положений, а в научно-популярной литературе изображения чаще всего используются в качестве иллюстративного материала, а не доказательства. Миллер показывает, что извлечь полную и точную информацию из научного документа, можно только с учетом их невербальных (визуальных) компонентов.
- Практическая потребность в получении наиболее полной и точной информации, достижения в области компьютерной текстологии и лингвистики, теоретическое обоснование роли невербальных компонентов в научном документе, а также расширившиеся возможности современных инструментальных средств создали предпосылки для создания информационных технологий семантического поиска вербальной и невербальной информации на основе концептуально единой мультимодальной семиотической системы электронной библиотеки [3].
Под семиотической модальностью Дж. Лемке [15] понимает функциональную категорию, выражающую разные виды отношений знаков в семиотическом пространстве научного текста, важнейшие из которых – топологические (зависимость значения научного концепта от его места в тексте: на листе, в таблице, диаграмме, экране компьютера и т.д.) и типологические (отнесенность к определенной семиотической системе: естественно-языковой, математической, структурно-химической, географической и т.д.).
Мультимодальная семиотическая система электронной библиотеки должна интегрировать знаковые системы основных семиотических модальностей (вербальных, математических, структурно-химических, биоинформационных, картографических и др.), используемых в электронных формах научных документов (статьях, монографиях, отчетах, диссертациях и т.д.) [3, 15].
Трудности логико-семантического моделирования связаны с необходимостью представить в знаковой форме вербальные и невербальные компоненты научного документа. При этом приходится решать проблемы, связанные с декомпозицией документов, выявлением структурных и смысловых связей семиотически различных коммуникативных компонентов научных документов [1 - 4, 7, 12, 15, 17].
В современной компьютерной текстологии наиболее развит классический лингвистический подход, задающий определенные формальные способы организации вербальных (лексических) компонентов текста, и концептуальные подходы к организации семантического поиска по вербальным компонентам.
Приоритет исследований лингвистической направленности в решении проблемы семантического поиска поддерживается известной точкой зрения, утверждающей, что вербальные знаковые системы можно считать первичными, а все другие семиотические системы по отношению к ним являются вторичными. Однако существует и другая точка зрения, что все богатство и разнообразие невербальной научной информации не может быть адекватно передано вербальными (лексическими) средствами [10, 12, 15, 17].
Согласно этой точки зрения сфера знаний, выражаемых вербально, и сфера знаний, выражаемых невербально, имеют область пересечения, причем большая часть невербальной информации находится вне зоны этого пересечения и, следовательно, не может быть адекватно выражена лексически. Эта область пересечения может рассматриваться как третья сфера знаний, которые могут быть представлены и в вербальной, и в невербальной форме [10].
Решение проблемы обработки интегрированных данных (вербальных и невербальных компонентов научных документов) и семантического поиска, охватывающее все три сферы представления знаний, до сих пор отсутствует. Это связано с тем, что для представления знаний в научных документах используется широкий по семиотической модальности спектр знаковых систем. Существующие подходы к этой проблеме ориентированы, как правило, на какую-то одну из перечисленных сфер представления знаний в рамках некоторой предметной области или проблемы.
Вопросы сочетания в научном документе компонентов из разных по семиотической модальности знаковых систем стали предметом исследования относительно недавно (А.А.Лютый [4] на примере одной области знаний (язык карты) - в 1988г. и Дж.Лемке [15] для разных областей знаний - в 1998г.). Пока остается неясным, каким образом можно построить семиотическую систему электронной библиотеки, интегрирующую разные по модальности знаковые системы для решения проблемы компьютерной обработки вербальных и невербальных компонентов научных документов и их семантического поиска. Имеющиеся результаты теоретических исследований знаковых систем (У. Эко, А. Соломоник, Т.Миллер и др. [5, 10, 17 ]) не ориентированы на решение проблемы семантического поиска в электронных библиотеках.
- В последнее десятилетие появились проекты и работы, направленные на практическое решение задач компьютерной обработки и поиска интегрированной информации.
3.1. В первой половине 90-х гг. развитие Интернет и появление медиатехнологий стимулировали разработку проектов, связанных с созданием единого подхода к обработке интегрированных данных, включая невербальные компоненты научных документов.
Одним из примеров является осуществляемый в Белоруссии (Яковишин В.С., Ярмош Н.А.) проект построения единой структуры внутреннего представления текстовой и чертежно-графической информации на основе семантического языка-посредника, порождаемого формальной грамматикой [6]. Основное внимание авторов проекта направлено на лексическую часть документов.
Другим примером может служить проект университета Карнеги-Меллон (США), где имеется крупная интерактивная цифровая видеобиблиотека [18]. Данным проектом предусмотрена разработка механизмов тематического поиска видеоизображений, звукозаписей и текстовых фрагментов на ЕЯ по единой технологии в оцифрованных массивах. В рамках этого проекта предусматривается создание инфраструктуры системы для многоуровневой интеграции разнородных данных.
Примеры этих проектов отражает актуальность решения проблемы создания единой технологии обработки интегрированных данных (включая невербальные компоненты); но предлагаемые концепции их решения делает проблематичным создание средств семантического поиска без разработки мультимодальных семиотических систем для знаковых представлений невербальной информации в электронных библиотеках.
3.2. Во второй половине 90-х гг. параллельно с традиционной задачей распознавания образов на первый план выходят проблемы семантического поиска визуальной информации, попытки обработки изображений на уровне ее содержательных аспектов. Работы по смысловому анализу визуальных компонентов (изображений) ведутся с использованием тезауруса кодов текстур и цветовых палитр изображений.
Например, в проекте NSF IRI-9704785 "An image thesaurus for content based search using texture and color", который выполняется в настоящее время в университете Калифорнии (Санта-Барбара), ставится задача поиска аэрофотоснимков по их содержательным аспектам. В качестве основы планируется использовать набор типовых текстур с учетом цветовой палитры. Каждой типовой текстуре соответствуют вычисляемые коды, которые группируются в иерархически построенном тезаурусе в соответствии с некоторым набором базовых свойств текстур. В этом проекте разработана система кодирования и тезаурус статистических кодов типовых текстур, который используется для решения задач поиска аэрофотоснимков. К настоящему времени существуют следующие основные компоненты системы: блок выделения характерных признаков текстуры; блок сегментирования и кластеризации изображений; блок адаптивной оценки изображений; модель тезауруса кодов текстур, предназначенная для их индексирования и поиска [16].
В работах Chang Shih-Fu, Smith John R и др. [8] исследуются возможности поиска информации в больших распределенных диалоговых системах на основе метаданных и метаописаний, включая Интернет. В рамках данного проекта создается система (WebSEEK), предназначенная для сбора в одно целое рассеянной по сети визуальной информации. В эту систему введены метаданные (вторичная информация), краткие резюме и указаны источники визуальной информации. Кроме того, используются ключевые слова из текста, индексирование вербального описания визуального содержания. На этой основе создаются средства поиска изображений по метаданным и метаописаниям.
Группой итальянских исследователей (Corridoni Jacopo M., Del Bimbo Alberto, Vicario Enrico [9]) создается система индексирования и поиска изображений на основе их цветовых атрибутов. Данная система поддерживает процедуры архивирования, формирования запросов и поиска изображений. При формировании запроса используется специальный визуальный пиктографический язык, описывающий цветовую палитру запрашиваемого объекта в соответствии с моделью цветовых сочетаний. Данная система может использоваться для формирования запросов при условии неопределенности или неполноты знаний об объекте поиска.
Проблемами организации поиска документов, состоящих из текстовых и графических коммуникативных компонентов, занимаются Jose Joemon и Harper David John [13]. Предлагается комплексный подход к разработке методики семантического поиска как по вербальным, так и по невербальным содержательным компонентам документа. Для проведения поиска по текстовой части применяются традиционные лингвистические методики, основанные на использовании ключевых слов и терминов; а для проведения поиска по графической части используются характерные признаки изображений в виде типов изо-объектов и их пространственного расположения, причем выделение этих признаков идет в полуавтоматическом диалоговом режиме. К настоящему моменту реализован комбинированный интерфейс, обеспечивающий поиск изо-объектов как по графическим признакам, так и по его текстовым описаниям.
- Приведенные примеры показывают, что вопросы интеграции семиотически разнородных компонентов документов в рамках единой структуры электронной библиотеки и организация семантического поиска по содержательным аспектам вербальных и невербальных компонентов стали актуальными в 90-е гг.
Обзор перечисленных работ позволяет предположить, что необходима единая методика моделирования и семантического поиска разнородных по семиотическим модальностям компонентов полнотекстовых научных документов из разных областей знаний. Продвижение по этому пути позволит значительно расширить возможности технологий информационного поиска, включая решение проблемы семантического поиска по всем семантически значимым вербальным и невербальным компонентам научных документов.
Список литературы
- Зацман. И.М. «Электронные библиотеки научных документов в Интернете: структуризация, формальное описание и поиск невербальной информации.» / НТИ, сер.2, №11, 1998.
- Зацман. И.М. «Логико-семантические модели полнотекстовых научных документов». / НТИ, сер.2, №5, 1999.
- Зацман. И.М. «Семантическое кодирование и разметка геолого-географических научных документов в политематических электронных библиотеках». / Информационные технологии, N 11, 2000.
- Лютый А.А. «Язык карты: сущность, система, функции». / М.: ИГ АН СССР, 1988.
- Соломоник А. «Семиотика и лингвистика». / М.: Молодая гвардия», 1995.
- Яковишин В.С., Ярмош Н.А. Лингвистические средства представления текстографической информации в автоматизированных технических архивах./ Весцi АН Беларусi., сер. фiз-тэхн. , 1995, №4.
- Bertin J. “Graphics and graphic information processing”. / Berlin: Walter de Gruyter., 1981.
- Chang Shih-Fu, Smith John R «Retrieval of visual information”. / «Communications of the ACM”, 1997, №12.
- Corridoni Jacopo M., Del Bimbo Alberto, Vicario Enrico. Image retrieval by color semantics with incomplete knowledge./ J.Amer. Soc. Inf. Sci., 1998, №3.
- Eсo U. “A Theory of Semiotics” / Bloomington, London, 1976.
- Huchin,1987 “Surprise value in scientific discourse”. / Paper delivered at CCCC Conference, Atlanta, Georgia, March, 1987.
- Johns A. “The visual and the verbal: A case study in economics” / English for Specific Purposes., 1998. - Vol. 17, No. 2, pp. 183-197.
- Jose Joemon и Harper David John. An integreated approach to image retrieval. /New Review of Documentation and Text Management, 1995, №1.
- Kato Koki, Ishikawa Hiroshi. “System based on the content of video data retrieval”. / Fujitsu, 1998, №6.
- Lemke J. .L. Multiplying Meaning: Visual and Verbal Semiotics in Scientific Text. In: Martin J.R. and Veel R. (Eds.) Reading science: Critical and functional perspectives on discourse of science. - London: Routledge, 1998. - pp. 87-113.
- Ma Wei-Jing, Manjunath B.S. “A texture thesaurus for browsing large aerial photographs”./ J. Amer. Soc. Inf. Sci., 1998, №7.
- Miller T. “Visual Persuasion: A Comparison of Visuals in Academic Texts and the Popular Press”. / English for Specific Purposes., 1998, Vol. 17, №1, pp. 29-46.
- Wactlar Havard D, Kanade Takeo, etc. “Intelligent access to digital video: Informedia project” / Computer, 1996, №5.
- Rowe Neil, Frew Brian. “Automatic caption localization for photographs on WWW pages”./ Information Processing and Management, 1998, №1.