Proceedings 2001

Contents

ТАБЛИЦЫ КАК ВЕРБАЛЬНО-ГРАФИЧЕСКИЕ КОМПОНЕНТЫ ПОЛНОТЕКСТОВЫХ НАУЧНЫХ ДОКУМЕНТОВ [*]

О.А. Курчавова

Институт проблем информатики РАН

 

 

  1. Постановка задачи

 

Современный этап развития компьютерных технологий характеризуется созданием политематических электронных библиотек, которые включают полнотекстовые научные документы в совокупности их вербальных и невербальных компонентов. Электронные библиотеки предназначены для интеграции информационных ресурсов о научных знаниях. Насущной задачей становится расширение поисковых возможностей за счет содержательных аспектов вербально-графических коммуникативных компонентов документов. В настоящее время в электронных библиотеках, как правило, полнотекстовый поиск осуществляется только на основе линейных текстовых фрагментов и не затрагивает такие вербально-графические компонентов, как таблицы, диаграммы и схемы.

Ряд исследований, проводившихся в рамках различных дисциплин указывает на роль нелингвистических компонентов как при представлении общего смысла документа, так и при его понимании [1], [2], [3], [4], [5], [6]. Можно сказать, что в рамках отдельной электронной коллекции вербально-графические компоненты наряду с лингвистическими средствами в виде терминосистем участвуют в передаче общего научного смысла документов.

Если мы признаем, что вербально-графические компоненты являются неотъемлемой частью научного документа и научного дискурса в целом, то можно предположить, что наряду с вербальными терминосистемами существуют невербальные терминосистемы в виде неких графических конструктов, которые могут быть как универсальными, т.е. независимыми от предметной области, к которой относится данный документ, или проблемно-ориентированными, т.е. характерными, в первую очередь, для одной или нескольких предметных областей. В рамках семиотического подхода научный документ характеризуется как сочетание визуального и вербального [4]. В соответствии со взглядами Джерома Лемке, в научных документах информация представляется и структурируется не только вербальными средствами, а за счет сочетания линейного текста с математическими формулами, графиками, таблицами, рисунками, диаграммами, картами [4].

Ряд современных авторов отмечает роль вербально-графических компонентов с точки зрения содержания новой научной информации [5], [7], [8]. Более того, в плане информативности эти компоненты могут быть даже более значимыми, чем линейный текст документа. На практике это означает, что вербальные составляющие таблиц, графиков, диаграмм, рисунков и схем включают поисковые термины, которые отсутствуют в линейном тексте документа. Следовательно, их исключение из зоны поиска значительно снижает степень его полноты.

Данная работа относится к проблеме создания логико-семантической модели полнотекстового научного документа в целях осуществления поиска информации в электронных библиотеках на основе вербальных и невербальных компонентов документа.

Исследование роли вербально-графических компонентов в представлении знаний проводилось на базе корпуса статей из журналов по наукам о Земле. Корпус представляет из себя массив из 100 статей из журналов "Геотектоника" за 1998г. и "Стратиграфия. Геологическая корреляция" за 1999г.

Общий листаж - 1203 страницы

Число статей - 100

Число невербальных

компонентов - 549

Средний объем статьи - 11,9 страниц

Плотность размещения

вербально-графических

компонентов на 1 страницу - 0,45

 

Для первого этапа исследований отобрано 20 из 100 статьи.

 

  1. Выделение объектов исследования

 

В научных документах разделение вербально-графических компонентов на таблицы, графики, диаграммы, рисунки и схемы носит условный характер. К каждому из этих типов можно отнести широкий класс коммуникативных объектов. В настоящей работе вербально-графические коммуникативные компоненты научных документов рассматривались на примере таблиц. Понятие таблицы в научной литературе достаточно размыто. Поэтому, в целях выделения объекта исследования были проанализированы определения таблицы в различных словарях и справочных изданиях [9], [10], [11], [12]. Анализ определений показал, что таблица является весьма широким понятием, отражающем определенный способ отражения информации. Характерно, что соответствующая статья отсутствует в энциклопедических словарях по математике и языкознанию [13], [14], несмотря на тот факт, что первые таблицы, известные с 2000г. до н.э. в Вавилоне, использовались в качестве основного вспомогательного средства при математических вычислениях [12]. Приведем два определения полностью. "Таблица - способ формализованного представления данных в виде двумерного массива" [11]. "Таблица - малая табель. Графленный, расчерченный или исписанный в особом порядке листок с какими-либо последовательными, перечневыми сведениями" [9]. Из данных определений следует, что таблицей можно считать коммуникативный компонент научно-технического документа, который представляет из себя сочетание лингвистических и нелингвистческих ресурсов, размещенных в определенном линейном порядке.

Необходимо отметить, что таблицы и другие вербально-графические компоненты изучаются в рамках компьютерного распознавания образов. Приведем алгоритмическое правило идентификации компонента как таблицы при декомпозиции документа:

IF:

(1) One or more of vertical or horizontal line segments are included.

(2) Vertical and horizontal line segmaents are perpendicular to each other.

(3) Connected components composing the content are aligned vertically or horizontally.

THEN: Set the type of the region as "table". [15]

 

Данное продукционное правило не охватывает всех вариантов таблиц в корпусе. Следует отметить, что при данном подходе таблица рассматривается как геометрический обьект. Для целей данного исследования ценным является родовое определение таблицы через визуальные составляющие графического конструкта в виде пересекающихся горизонтальных и вертикальных линий с текстовыми вкраплениями, упорядоченными по вертикали и горизонтали. При этом ничего не говорится о лингвистических составляющих. Из 111 вербально-графических компонентов из 20 статей можно выделить 52 объекта, которые подходят под определение таблицы.

При изучении таблиц многие современные авторы считают, что таблица является наиболее близким к линейному тексту компонентом. Анализ примеров показывает, что это положение оказывается верным только отчасти. См. Рисунки 1 - 6.

 

Рис. 1.

 

 
   


 

 

 

Рис. 2.

 
   


 

 

 

 

 

 

 

 

 

Рис. 3.

 

 
   


 

 

 

 

 

 

 

 

 

 

 

Рис. 4.

 

 

 
   


 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 5.

 

 
   


 

 

 
   


Рис. 6.

 

 

В зависимости от возможности текстуализации таблицы можно определить как вербализуемые и частично-вербализуемые. Необходимо отметить, что в литературе по данному вопросу в качестве примеров рассматриваются лишь самые простые таблицы с прямоугольными ячейками без группировки строк и/или колонок [3], [4].

В интересах исследования таблицы можно подразделить на

I простые таблицы (Рис. 1)

II таблицы с группировкой строк и/или колонок (Рис. 2, 4)

III таблицы с ячейками, образованными не только сплошными прямыми линиями (Рис. 4, 5).

Частично-вербализуемые таблицы можно разделить на

I таблицы с визуальными данными в ячейках, включая таблицы со штриховкой или заливкой ячеек цветом (Рис. 5)

II таблицы, совмещенные с невербальными компонентами других типов: графиками, литологическими колонками, картами и т.д. (Рис. 6).

В рассматриваем иллюстративном массиве статей виды таблиц распределились следующим образом:

Число проанализированных статей с таблицами - 20

Число коммуникативных объектов в виде таблиц - 52

Простые таблицы - 2

С группировкой строк и/или колонок - 7

С несплошными прямыми линиями - 3

С визуальными данными в ячейках 17

Совмещенные с компонентами других видов - 15.

Необходимо отметить, что часть объектов именуется авторами статей как таблицы, несмотря на полное отсутствие линейных ячеек. Такие объекты мы называем псевдотаблицами и в данном исследовании не рассматриваем, хотя в указанном массиве их число доходит до 9. Следует также заметить, что часть коммуникативных объектов, подходящих под определение таблицы, авторами статей часто именуются схемами или рисунками, несмотря на наличие линейных ячеек. Это, как правило, таблицы, совмещенные с графиками и/или литологическими колонками. Эта часть таблиц не рассматривалась. Таким образом, при декомпозиции научно-технического документа в соответствии с родовыми признаками для идентификации таблицы ориентация на формальные ссылки в тексте приводит к ошибочным результатам. Предварительные данные о количественном соотношении различных типов таблиц свидетельствуют о том, что данный вид вербально-графических компонентов характерен для полнотекстовых документов по наукам о Земле. Более того, в данных документах таблицы характеризуются наличием визуальной информации в ячейках, что является исходным положением при определении подходов к логико-семантическому моделированию таблиц.

III. Базовые аспекты моделирования

Определяя таблицу как комбинацию визуальных и лингвистических ресурсов по определенному образцу, мы разделяем моделирование визуальных компонентов (организационные ресурсы и визуальное наполнение ячеек) и лингвистических компонентов.

Анализ сочетания лингвистических и графических средств таблиц в исследуемом корпусе документов позволяет в качестве основного критерия для моделирования таблиц взять соотношение между двумя видами ресурсов, т.е. закон гаммы, примененный А. А. Лютым в отношении картографических объектов [16]. Построение гаммы основано на четырех порогах сложности: появление группировки колонок и/или строк, появление недетерминированных границ, появление ячеек с визуальным наполнением, совмещение таблицы с шкалами. На практике возможны сочетания всех или нескольких порогов сложности. В некоторых случаях для моделирования возможно применение готовых аппаратов, например расширенных семантических сетей [17], [18].

Определение таких случаев является дальнейшей задачей исследования.

Следующим шагом в моделировании является выделение семантических отношений в таблице. В таблицах наиболее типичными отношениями являются параметрические связи. Эти связи могут выражаться как лингвистически, с помощью параметрической лексики, выделяемой по методу С. Ю. Семеновой [19], так и при помощи шкал. Шкалы могут образовываться с помощью группировок строк и /или столбцов или задаваться графически в виде оси координат. В документах по наукам о Земле основными шкалами являются геохронологическая шкала (кембрий - ордовик -силур -девон), общая стратиграфическая шкала (система - ярус - горизонт - серия - свита) и ее региональные и местные разновидности, а также шкала абсолютного возраста. Используются также специальные шкалы: палеомагнитная, палеогеографическая и т. д. [20]. Эти шкалы являютя предметно-ориентированными и в документах по наукам о Земле несут важную смысловую нагрузку, ассоциируя геоданные с конкретным временем и пространством. На практике возможно сочетание всех или нескольких шкал. Использование шкал регламентировано нормативными документами для данной предметной области, например Стратиграфическим кодексом [20].

Анализ параметрических отношений является следующей задачей исследования.

 

ЛИТЕРАТУРА

 

  1. Ю. М. Лотман, Внутри мыслящих миров. Человек-текст-семиосфера-история.- М., Языки русской литературы, 1996.
  2. Umberto Eco, A Theory of Semiotics.-Indiana University Press, Bloomington, 1976.
  3. T. Miller, Visual Persuasion: A Comparison of Visuals in Academic Texts and the Popular Press//English for Special Purposes, 1998, vol. 17, N 1.
  4. Lemke, J. L, Multiplying Meaning: Visual and Verbal Semiotics in Scientific Text//Reading Science. Critical and functional perspectives on discourses of science., Eds. J.R. Martin and Robert Veel, London, Routledge, 1998.
  5. И. М. Зацман, Электронные коллекции полнотекстовых научных документов//Системы и средства информатики. Вып. 9. М., Наука, 1999.
  6. Ann M. Johns, The Visual and the Verbal: A Case Study in Macroeconomics//English for Specific Purposes, 1998, vol. 17, N 2.
  7. И. М. Зацман, Логико-семантические модели полнотекстовых научных документов//НТИ, Серия "Информационные процессы и системы", 1999, N 5.
  8. Е. Б. Козеренко, Когнитивно-лингвистическое моделирование полнотекстовых научных документов//Труды международной конференции "Искусственный интеллект 3'2000", Кецавели, 2000.
  9. В. Даль, Толковый словарь живого великорусского языка.- М., Русский язык, 1980, т. 4, стр. 384.
  10. С.И. Ожегов, Словарь русского языка.-М., Русский язык, 1981, стр. 699.
  11. В. И. Першиков, В.М. Савинков, Толковый словарь по информатике, М., Финансы и статистика, 1995, стр. 401.
  12. Большая Советская Энциклопедия.- М., 1976, стр. 471-472.
  13. Большой энциклопедический словарь по математике,-М., Большая Российская энциклопедия, 1998.
  14. Большой энциклопедический словарь по языкознанию,- М., Большая Российская энциклопедия, 1998.
  15. K.H. Lee, Y.C. Choy, and S.B. Sho, Geometric Structure Analysis of Document Images: A Knowledge Based Approach//IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, vol. 22, N 11.
  16. А. А. Лютый, Язык карты,- М., Институт географии РАН, 1988.
  17. И. П. Кузнецов, Семантические представления.- М., Наука 1986.
  18. И.П. Кузнецов, Е.Б. Козеренко, Поиск языковых универсалий для лингвистического моделирования на расширенных семантических сетях//Труды международного семинара по компьютерной лингвистике и ее приложениям "Диалог-99".-Таруса 1999.
  19. С. Ю. Семенова, Исследование языковых средств выражения параметрической информации и алгоритмизация ее поиска в тексте.// Автореферат диссертации, М., ВИНИТИ, 1994.
  20. Стратиграфический кодекс.- Санкт-Петербург, Межведомственный стратиграфический комитет, 1992.

 

 

[*]) Работа выполнена в рамках проекта РФФИ 00-06-80069