Семиосфера Электронного образа Земли: основные структурные составляющие и принципы моделирования геотекстов
И.М. Зацман, С.А. Куренков, А.А. Лютый
1. Введение
Глобальные процессы информатизации и интеграции информационных ресурсов создали предпосылки для становления концепции формирования Электронного образа Земли - как многомасштабного многомерного представления планеты, способного интегрировать большие объемы картографической и другой пространственно-определенной научной информации о различных объектах и явлениях, а также экономическую, социальную, демографическую, культурную и историческую информацию, позиционированную во времени и пространстве. В настоящее время проблема создания Электронного образа Земли приобрела особую актуальность и стратегический характер[1]).
Традиционное кодирование геопространственной информации в цифровой растровой и/или векторной форме без использования знаковых представлений имеет весьма ограниченные возможности в части организации семантического поиска. Причина в том, что возможности поиска вербальной и невербальной информации во многом определяются спектром используемых семиотических систем.
Для отображения научных знаний в вербальной форме традиционно используются естественные языки. Сложилась естественно-языковая система представления вербальных знаний в лингвистической форме и соответствующая ей семиотическая система. В науках о Земле содержательные аспекты геотекстов на различных геоязыках, а именно, топографические и тематические карты, аэрофотоснимки земной поверхности, литологические и стратиграфические колонки, картоподобные диаграммы, палеотектонические схемы, геохимических диаграммы и другие геоизображения, часто невозможно перевести на естественные языки. Степень переводимости и адекватность перевода геотекстов для разных геоязыков может существенно отличаться. При этом их содержательные аспекты не всегда могут быть переданы литерными метаданными, формальными языками и вербальными метаописаниями.
Таким образом, если сравнивать разные науки и предметные области знаний, то знания по наукам о Земле не могут быть достаточно адекватно переданы только в лингвистической и/или формально-логической формах, о чем говорит использование широкого спектра геотекстов разной геоязыковой принадлежности - невербальных средств описания научных знаний.
Последнее утверждение является иллюстрацией ключевого положения семиотики - существование трех основных сфер представления знаний: невербальные знания, которые не могут быть представлены в лингвистической форме, вербальные знания, которые не могут быть адекватно переведены в невербальную форму, и та часть знаний, которая может быть представлена и в вербальной, и в невербальной формах[2]).
Знания в науках о Земле могут быть достаточно адекватно отражены с помощью совокупности трех языковых систем: вербальной, геоязыковой и системы формальных языков. Интегральное семиотическое объединение этих систем предлагается называть семиосферой.
Из трех языковых систем, используемых в науках о Земле, наименее исследованной является геоязыковая система. В работе[3]) рассмотрены примеры геотекстов, являющихся геоизображениями, геоязыки которых отличаются, но между ними отсутствуют четкие границы. В настоящей статье проблема семиосферы Электронного образа Земли рассматривается с точки зрения соотношения ее основных структурных составляющих и принципов многоуровневого семантического моделирования геотекстов.
2. Семиотические пространства Электронного образа Земли
Силами специалистов Геологического института, Института географии и Института проблем информатики РАН в течение последних лет выполняется комплекс совместных научно-исследовательских работ и проектов РФФИ по проблемам картографической семиотики, языка карты, логико-семантического моделирования полнотекстовых геолого-географических документов, включающих вербальные и невербальные компоненты, а также принципов многоуровневого семантического моделирования геопространственной информации. Результаты проведенных работ позволяют говорить, о том, что геоязыковая система наук о Земле принципиально отличается от вербальных и формальных языков по принципам организации, структурным и иным отношениям между знаками.
В комплексе проводимых исследований карты, аэрофотоснимки, литологические и стратиграфические колонки, картоподобные диаграммы, палеотектонические схемы, геохимические диаграммы, схемы корреляции и так далее, рассматриваются как геотексты.
При таком подходе Электронный образ Земли предлагается рассматривать как электронную библиотеку, которая включает геотексты на разных геоязыках. Кроме геотекстов, библиотека включает вербальную информацию, позиционированную во времени и пространстве, то есть пространственно-определенные вербальные тексты на разных естественных языках.
В системе геоязыков центральную роль играет язык карты. В настоящее время изучение устройства, структуры и принципов функционирования этого языка находится на начальной стадии[4]). Остальные геоязыки как целостная семиотическая система, креативная и когнитивная основа наук о Земле, в настоящее время практически не исследованы.
Иная ситуация с вербальной языковой системой. В последнем случае для вербальных текстов, входящих в Электронный образ Земли, известны и грамматические описания вербальных языков, и их системы парадигматических, синтагматических и семантических отношений, знания о которых накапливались веками.
Основными составляющими семиосферы Электронного образа Земли являются три семиотических пространства:
- вербальной языковой системы,
- геоязыковой системы,
- системы формальных языков.
С точки зрения возможности перевода текстов с одного языка на другой эти семиотические пространства являются частично пересекающимися с размытыми границами пересечения, то есть соответствующие семиотическим пространствам тексты могут быть взаимно переводимыми, частично переводимыми или взаимно непереводимыми[5]).
Проблема переводимости, как внутри геоязыковой системы, так и между вербальной и геоязыковой системами, находится в стадии анализа исходных данных, необходимых для формулировки этой проблемы. Однако уже на этой стадии постановки проблемы было установлено, что целый ряд геотекстов (отдельные виды латеральных разрезов и стратиграфические колонки) сначала описываются в лингвистической форме, а затем осуществляется их перевод в графическую форму.
Например, первоначальное описание латеральных разрезов дайковых комплексов составляется в вербальной форме. Затем осуществляется перевод вербального описания в графическую форму с использованием определенных правил организации геоязыковых элементов[6]). Что касается стратиграфических колонок, то в научных статьях и монографиях один и тот же стратиграфический концепт может быть представлен одновременно в вербальной и геоязыковой формах. Вербальное его описание может быть достаточно адекватно переведено в геоязыковую форму и наоборот[7]).
Геологические разрезы, которые широко используются наряду со стратиграфическими колонками, первоначально составляется, как правило, в графической форме. Сложные разрезы достаточно часто сопровождаются вербальными описаниями. Эти описания только дополняют графическую форму, но не являются адекватным ее переводом на естественный язык.
Кроме текстов с выраженной принадлежностью к вербальной, геоязыковой или формальной языковой системе, в науках о Земле встречаются тексты с неопределенной или нечеткой языковой принадлежностью. Поэтому, в качестве центра семиосферы Электронного образа Земли предлагается рассматривать три семиотических, частично пересекающихся пространства трех языковых систем, а на ее периферии располагается то, что Ю. Лотман назвал "языкоподобными полуоформленными образованиями, которые могут быть носителями семиозиса, если их включат в семиотический контекст" 5).
Таким образом, Электронный образ Земли рассматривается как семиотически неоднородный по языковой принадлежности его текстов. Наряду с моноязычными вербальными текстами в нем могут присутствовать поли- и кроссязычные тексты. Аналогично и геотексты в нем могут быть моногеоязычными, поли- и кроссгеоязычными.
В науках о Земле роль и значение геоязыков, как целостной семиотической системы, являются не менее важными, чем язык биоинформационных последовательностей в науках о жизни или дифференциальные и интегральные исчисления в физике. Однако, по степени изученности система геоязыков практически является "белом пятном" на карте современной науки.
3. Принципы семантического моделирования геотекстов
В качестве концептуальной основы структуризации и иерархической организации геоязыковых элементов, ориентированной на решение проблемы создания Электронного образа Земли, предполагается использовать разработанные ранее принципы и подходы к многоуровневому семантическому моделированию геотекстов. Перечислим основные системные принципы, на основе которых предлагается строить многоуровневые семантические модели (МСМ) в геоязыковой системе [8]):
- МСМ геотекстов интегрируют язык карты как систему с его грамматической структурой и иерархической организацией языковых элементов.
- В МСМ такие геотексты, как электронные карты и другие координированные геоизбражения различной тематики считаются базовыми геотекстами, а космические снимки, аэрофотоснимки и все другие некартографические геоизображения считаются дополнительными геотекстами. Предполагается пространственно-временное позиционирование некартографических геоизображений к базовым геотекстам с соответствующей дифференциацией по масштабам.
- Задачи моделирования, разметки, индексирования и поиска информационных объектов решаются для базовых геотекстов. Дополнительные геотексты используются на завершающем этапе поиска при визуализации найденной информации.
- В процессе многоуровневого семантического моделирования разделяются понятие объекта окружающей среды для обозначения физически существующей природной сущности и картознака для представления этой сущности на карте.
- Информационные потребности пользователей при поиске необходимых им сведений об объектах окружающей среды в МСМ выражаются, в общем случае, в виде виртуального геоинформационного объекта, для которого может не существовать в Электронном образе Земли адекватного ему сочетания картознаков (что дает нулевой результат при исполнении поискового запроса). Через виртуальный геоинформационный объект обеспечивается интеграции всех разнородных аспектов информационных потребностей пользователей.
Архитектура многоуровневых семантических моделей включает классификатор объектов окружающей среды, систему словарей графоформ, графознаков и картознаков, тезаурус картобъектов и каталоги метаданных картобъектов.
Предполагается совместимость семантических моделей геотекстов с логико-семантическими моделями геодокументов в части используемых семиотических систем с целью интеграции полнотекстовых геодокументов и геотекстов на единой концептуальной семиотической основе[9]).
Отличительной чертой предлагаемых системных принципов построения МСМ является введение новой научной абстракции, обладающей большим эвристическим потенциалом в информатике и науках о Земле - "виртуальных геоинформационных объектов" - как мысленно представимое или сгенерированное сочетание пространственных признаков и содержательных аспектов объектов и явлений (реальных, метафорических, идеальных), которые могут не иметь прямых аналогов в действительности и/или в существующей системе научных знаний. Эти виртуальные геоинформационные объекты позволяют вводить в научный и практический оборот абстрактные пространственно-структурные композиции (инварианты), которые могут не иметь коррелятов (соответствий) в действительности, фиксируемых органами чувств человека или какими-либо техническими устройствами.
МСМ геотекстов, включающих абстракцию виртуального геоинформационного объекта, позволит расширить парадигму информационного поиска, что особенно перспективно для электронных геобиблиотек и Электронного образа Земли, за счет включения в число объектов поиска неименованные невербальные информационные объекты.
4. Заключение
В настоящее время отечественные и зарубежные исследовательские проекты по Электронному образу Земли (Digital Earth) находятся на начальных стадиях выполнения. С концептуальной точки зрения эти проекты могут быть разделены на два основных направления:
- разработка принципов интеграции геопространственной информации на растровой и/или векторной основе с присоединенными базами фактографических и метаданных, а также пространственно-определенной вербальной информации (то есть без использования знаковых форм представления геотекстов);
- разработка принципов и подходов к многоуровневому семантическому моделированию и интеграции геопространственной и пространственно-определенной вербальной информации с одновременным использованием электронных знаковых форм представления геотекстов, а также растровой и/или векторной форм их представления.
Проекты первого направления ориентируются при поиске необходимых пользователю сведений об объектах и явлениях на использование традиционных подходов, основанных на географической локализации, поиску по топонимам, по метаданным карт и геообъектов.
Эти проекты в задачах поиска ориентируются на использование уже опробованных в геобиблиотеках архитектурных решений. При этом, задачи поиска в Электронном образе Земли будут решаться только для каталогизированных объектов окружающей среды и/или зарегистрированных в присоединенных базах фактографических данных и метаданных. Поэтому в проектах этого направления поиск необходимых сведений о безымянных и некаталогизированных объектах окружающей среды, основанный на их пространственных признаках и содержательных аспектах, остается нерешенной проблемой. Наиболее известным проектом первого направления является Alexandria Digital Library[10]).
Проекты второго направления ориентируются при поиске необходимых пользователю сведений об объектах и явлениях на использование вербальной, геоязыковой и формально-языковой систем. Концепция второго направления изложена в работе7), в которой предложен новый вид поиска информации, основанный на многоуровневом семантическом моделировании геотекстов. Концептуальные и архитектурные решения служб поиска в Электронном образе Земли в этом случае ориентированы и на поиск информации о безымянных и некаталогизированных объектах окружающей среды, представленной в знаковой форме, что существенно расширит парадигму информационного поиска для Электронного образа Земли по сравнению с проектами первого направления.
Основная цель дальнейших исследований видится в разработке концепции семиосферы Электронного образа Земли, включающей семиотическую систему геоязыков, как составную часть семиосферы. Разработка такой концепции позволит представить в электронной знаковой форме вербальные тексты и геотексты. Эта концепция ориентирована на интеграцию вербальной и геотекстовой информации в Электронном образе Земли.
Литература
[1]. Gore А. The Digital Earth: Understanding Our Planet in the 21st Century (http://digitalearth.gsfc.nasa.gov/VP19980131.html).
[2]. Eco U. A Theory of Semiotics. - Bloomington: Indiana University Press, 1976. - 356 pp.
[3]. Зацман И.М. Семантическое поле поиска геодокументов в политематических электронных библиотеках // Труды международного семинара Диалог-2000 по компьютерной лингвистике и ее приложениям. Т. 2. - Протвино, 2000. - С. 148-158.
[4]. Лютый А.А. Язык карты: сущность, система, функция. – М.: ИГ АН СССР, 1988.
[5]. Лотман Ю.М. Внутри мыслящих миров. Человек - текст - семиосфера - история. М.: "Языки русской культуры", 1996. - 464с.
[6]. Куренков С.А., Диденко А.Н., Симонов В.А. Геодинамика палеоспрединга. М.: "Геос", 2000.
[7]. Зайцев Ю.А., Хераскова Т.Н. Венд Центрального Казахстана. М.: Изд-во МГУ, 1979.
[8]. Зацман И.М., Лютый А.А., Мартыненко А.И. Семантический поиск в электронных геобиблиотеках // Системы и средства информатики. Вып. 10. - М.: Наука, 2000. - С. 193 - 205.
[9]. Зацман И.М. Вербально-образное представление и семиотическая аппроксимация знаний в электронных библиотеках // Научно-техническая информация (серия 2 "Информационные процессы и системы"). - 2001. No 5 (в печати).
[10]. Hill L., Frew J., and Zheng Q. Geographic Names: The Implementation of a Gazetteer in a Georeferenced Digital Library // D-Lib Magazine.-1999.-Vol. 5, N 1.