Средства извлечения геологических знаний из электронных хранилищ данных в геологических фондах
В.Я. Ковтун, Л.В. Москаленко
В условиях стремительного накопления электронных данных в отраслевых архивах основной задачей обработки данных становится обнаружение и извлечение знаний, для их использования в принятии деловых решений.
Для успешного ведения системных исследований требуются соответствующие инструментальные аналитические средства, позволяющие ежедневно анализировать гигабайты данных всевозможных типов. Качественная работа аналитика, таким образом, напрямую зависит от того, насколько эффективны технологии и инструментарий извлечения знаний.
Геологические знания имеют существенные отличия от знаний в других областях. Это определяется тем, что процесс получения геологической информации требует огромных затрат: бурение, проведение геологических и геофизических съёмок, аэрофотосъёмки, съёмки со спутников и т.д. территорий, на которых ищутся полезные ископаемые. Причём полученная различными способами информация должна затем синтезироваться с использованием известных на настоящий момент методик для создания геологических карт с подсчетом вероятных запасов того или иного полезного ископаемого.
На основании полученного знания делается вывод о возможности организации добычи полезных ископаемых, например, нефти в данном районе. Т.е. знания такого рода являются основанием для производства капиталовложений в освоение месторождений. Вся информация, полученная в результате поисковых работ, как правило, аккумулируется в отчетах о геологоразведочных работах (отчетов о ГРР), в которых содержится полученная фактографическая информация и аналитические выводы специалистов.
Другая особенность геологической информации – неизменяемость её во времени. Она может только дополняться за счёт дополнительных геологоразведочных работ, но никак не устаревает. А появляющиеся новые методики её обработки дают возможность получения новых уточнённых знаний о геологии той или иной территории.
Всё вышесказанное отводит особую роль отчётам о ГРР, как источнику информации для получения новых геологических знаний.
Однако огромное количество таких отчётов с графическими приложениями (картами, стратиграфическими разрезами и т.д.) в специализированных геологических фондах не даёт возможности их оперативного использования соответствующими аналитическими геологическими службами.
Всё вышесказанное поставило задачу компьютеризации геологических фондов с переводом отчётов о ГРР в электронный вид, что даёт возможность оперативной компьютерной обработки содержащейся в них геологической информации.
Решение данной задачи состоит из двух основных частей:
Перевод текстовой и графической части отчётов о ГРР в электронный вид с использованием современных технических и программных средств;
Предоставление оперативного доступа к содержимому отчётов геологам-аналитикам
Первая проблема решается применением современных сканирующих устройств и программ распознавания текста (OCR) для перевода текстов и графики в электронный вид с последующим хранением на определённых типах внешней памяти: винчестерах высокой ёмкости, CD-ROM, магнитной оптики, DVD-ROM.
Решение второй проблемы определяется наличием современных средств обработки текстовых данных для предоставления необходимой информации геологам-аналитикам, синтезирующим её в новые геологические знания.
Какими же качествами должна обладать такая система?
Средства поиска данных играют определяющую роль в обеспечении эффективности и производительности аналитической системы в целом.
Одним из наиболее простых и распространенных способов представления знаний является файл синонимов. Использование синонимов позволяет при ответе на запрос учитывать не только те термины, которые непосредственно указаны в запросе, но и все другие слова, близкие к ним по значениям.
Другой подход к системам, основанным на базе знаний, использует иерархию терминов и понятий, создаваемую самими пользователями.
Третий известен как подход на основе лингвистических правил. Разработчик создает систему лингвистических правил, которые используются для анализа или грамматического разбора текстовой базы данных. Этот метод анализа определяет ключевые слова и понятия, объединяющиеся в базу знаний, которая отражает содержание конкретной базы данных. Затем база знаний используется для поиска и ранжирования групп родственных документов. Процесс грамматического разбора и создания базы знаний должен проводиться для каждой предметной области.
И наконец, еще один подход - использование ссылочных документов, в том числе обычных словарей и словарей терминов. Этот подход основан на смысловых значениях слов и является семантической сетью. Как и словарь, семантическая сеть содержит множество определений для каждого хранимого слова. Однако определения родственных слов и понятий связываются между собой. Значения слов, наиболее подходящие для данного поиска, могут быть выбраны самим пользователем с целью повышения точности этого поиска.
Концептуальный поиск на основе семантических сетей привносит элементы искусственного интеллекта в информационно-поисковые системы. Однако, методы поиска, основанные на базах знаний, предназначены для работы в области текстовых данных. Преодолеть это удалось за счет совместного использования технологии семантических сетей и методики адаптивного распознавания образов APRP.
Метод адаптивного распознавания образов базируется на принципе биологических нейронных сетей - система функционирует как самоорганизующийся организм; анализируя данные, она выделяет и запоминает присущие этим данным двоичные конфигурации-шаблоны. APRP автоматически индексирует выделенные двоичные шаблоны, создавая тем самым структурированную память, оптимизированную в соответствии с внутренним содержанием данных. Наряду с идеологией нейронных сетей в APRP используется также методология нечеткого поиска, которая обеспечивает устойчивость поисковых процедур к ошибкам, содержащимся во вводимых данных или терминах запросов.
Такая технология поиска позволила кардинально изменить работу с текстовыми базами данных и предоставила возможность осуществления автоматического поиска информации с применением запросов на естественном языке.
Семантические сети объединяют синтаксис, морфологию и семантику языка, они используют полные словари, тезаурусы и другие семантические ресурсы, предоставляя в распоряжение пользователей встроенную базу знаний для ведения интеллектуального поиска информации. В процессе поиска информации пользователь может сформулировать свой запрос непосредственно на родном ему языке. Этот запрос автоматически дополняется набором связанных между собой терминов и понятий.
Алгоритмы морфологического разбора позволяют различать разнообразные формы слов, заданных в запросе, даже с учетом возможных орфографических ошибок. Для обеспечения более точного поиска проводится анализ, направленный на выявление идиоматических выражений, встретившихся в запросе. Кроме того, распознаются разные значения слов. Пользователь имеет возможность указать, в каком из множества значений употреблено слово в конкретном запросе. Базовая семантическая сеть поддерживает многоуровневые структуры словарей, которые объединяют специализированные термины по юридическим, медицинским, финансовым, техническим и другим дисциплинам. Конечный пользователь может также добавить свои определения и понятия, не нарушая целостности основной базы знаний.
Система также предоставляет специальные компоненты для обработки индексации и поиска произвольной мультимедийной цифровой информации. Это позволяет проводить сравнение цифровых данных и осуществлять ранжированный поиск изображений по шаблону-образцу. Каждому изображению, ставится в соответствие некоторый двоичный вектор признаков, называемый дескриптором. Дескриптор формируется в результате анализа изображения. Анализ осуществляется для выявления отличительных признаков. Дескрипторы хранятся в базе, связанной с базой основных изображений. Именно дескрипторы используются для индексации, сравнения и поиска цифровой информации; на их основе автоматически устанавливаются гиперссылки в базе изображений. В процессе поиска информации дескриптор шаблона сравнивается с дескрипторами данных, хранящихся в базе.
В качестве примера эффективного извлечения знаний можно привести применение описанной системы к электронным архивам текстовой и графической информации, фондируемой в хранилищах данных геологических организаций.
Геологические фонды содержат огромные массивы структурированной (базы данных, каталоги) и неструктурированной (отчеты, лицензии и др. текстовые документы) информации, а также карты, стратиграфические колонки, профили и прочие графические материалы.
Одной из проблем, возникающих при работе с такими архивами, является интегрированный поиск для принятия ответственных решений (например, в области лицензионной политики), а также поиск связанной по смыслу информации в разнородных документах.
Описанная система позволяет осуществлять смысловой поиск и поиск в документах, содержащих ошибки распознавания (нечеткий поиск). Кроме того, возможен поиск графических изображений для оперативного анализа информации, содержащейся в геологических картах.
В настоящее время выполнен цикл работ по переводу части фондовой геологической информации в электронный вид с погружением её в интеллектуальную информационно-поисковую систему на основе Excalibur EFS и проведены работы по поиску геологической информации в данной системе с последующим её анализом.
Ниже приведены примеры чёткого и нечеткого поиска с использованием методики адаптивного распознавания образов APRP.
Рис.1. Результаты четкого поиска.
Рис. 2. Результаты нечеткого поиска. Степень четкости поиска - 60%.
Как видно из Рис.1., четкий поиск по ключу «Перечень месторождений» даёт в результате список из 36 документов, содержащих точно данный ключ.
При использовании нечёткого поиска (Рис.2.) мы находим дополнительно документы, содержащие данный ключ, искажённый при распознавании (Например, «ПЕРЕ^НЬ МЕСТОРОЖДЕНИЙ» и «11 е и е ч е н ь месторождений»), что невозможно при обычном поиске.
Таким образом, с помощью инструментальных средств информационно-поисковой системы мы можем оперативно получить более точную информацию о том или ином месторождении, найти несколько источников информации о конкретном месторождении и, проанализировав эти источники, получить новые знания об этом месторождении.
ЛИТЕРАТУРА
Ковтун В.Я., Москаленко Л.В. Создание и ведение электронного архива геологических документов. //Труды международного семинара Диалог 99 по компьютерной лингвистике и её приложениям, Таруса, 1999,
стр. 113-115.