ON-LINE ИНТЕРФЕЙС НА ЕСТЕСТВЕННОМ ЯЗЫКЕ К БАЗЕ ДАННЫХ ПО МОЛЕКУЛЯРНОЙ БИОЛОГИИ
А. С. Писарев
Институт Высокопроизводительных Вычислений и Баз Данных, СПб ГТУ,
pisarev@fn.csa.ru
М. Г. Самсонова
Институт Высокопроизводительных Вычислений и Баз Данных, СПб ГТУ,
samson@fn.csa.ru
Ключевые слова: реляционная база данных, естественный язык, концептуальная схема, логическая схема, взвешенный граф, минимальный остов, SQL, java, молекулярная биология, адаптивность.
В сообщении рассматривается опыт разработки естественно - языкового (ЕЯ)
интерфейса к базе данных FlyEx [1] которая содержит информацию об
экспрессии генов in situ.
В основу разработки положен семантически - ориентированный подход,
развиваемый А.С. Нариньяни (РОСНИИ ИИ)[2]. К числу особенностей системы относятся:
применение концептуальной и логической моделей предметной области и
визуальных средств их разработки и использования в режиме on-line;
обработка запросов на русском и английском языках; реализация программных средств на языке Java. Прототип интерфейса доступен по адресу http://urchin.csa.ru/NLP/NLP2.htm.
- Введение
Создание информационных систем, основанных на реляционных базах данных, в настоящее время характеризуется повышением требований к обеспечению адаптивности пользовательских интерфейсов в условиях постоянного развития структур данных и интеграции распределенных баз данных.
В последнее десятилетие успехи молекулярной биологии привели к стремительному накоплению новых данных. Для анализа этих данных они должны быть доступными в такой форме, которая позволила бы понимать и интерпретировать информацию на уровне пользовательских представлений о предметной области. Для этого необходимо систематизировать и обобщить информацию в виде концептуальных схем предметных областей и обеспечить эффективные средства визуализации и поиска информации.
Нами создана база данных FlyEx, содержащая информацию об эеспрессии in situ генов, контролирующих сегментацию у плодовой мушки дрозофилы [1].
В данной работе обсуждается опыт построения адаптивного интерфейса к этой базе данных на основе ЕЯ запросов и использования средств разработки и on-line визуализации концептуальных и логических схем предметной области.
В основу системы обработки ЕЯ запросов к БД положен семантически - ориентированный подход, развиваемый А.С. Нариньяни[2].
- Методическое и программное обеспечение системы
Архитектура информационной системы является многоагентной и включает:
- агенты интерфейса пользователей;
- агенты доступа к базе данных (БД);
- агенты обработки ЕЯ запросов.
Агенты взаимодействуют между собой по протоколу HTTP, что позволяет применять Proxy – сервера и Fire Walls.
Java - реализация агентов обеспечивает возможность их применения на различных вычислительных платформах.
Агенты интерфейса пользователей позволяют визуализировать примеры ЕЯ запросов (рис.1), концептуальные и логические схемы предметной области, осуществлять навигацию по активным гиперсхемам, передавать запросы агентам доступа к БД и агентам обработки ЕЯ и визуализировать результаты запросов (рис.2).
Рис.1. Пример пользовательского интерфейса .
Рис.2 Результат выполнения ЕЯ запроса в виде таблицы.
Агент доступа к БД осуществляет SQL- интерфейс между другими агентами и БД через JDBC.
Агент обработки ЕЯ запросов преобразует ЕЯ запросы в SQL запросы, посылает их агенту доступа к базе данных и возвращает агенту интерфейса пользователя.
Математической моделью логической схемы является взвешенный граф, вершины которого отображаются на имена реляционных таблиц и их атрибутов, а ребра – отражают связи между таблицами через первичные и вторичные ключи. Веса ребер характеризуют мощность связанных таблиц и используются при оптимизации SQL запросов по критерию скорости извлечения данных из соединяемых пар таблиц.
Алгоритм обработки ЕЯ запроса включает следующие этапы:
1)поиск ключевых слов из ЕЯ запроса в словаре, содержащем словоформы и ссылки на соответствующие таблицы, атрибуты и агрегирующие функции; пометка вершин взвешенного графа логической схемы;
2)формирование SQL запроса, оптимизированного по минимальному времени обработки запроса на основе матрицы минимальных расстояний путем нахождения минимального остова графа, включающего помеченные вершины;
3)реализация запроса к реляционной БД через агенты доступа к БД и форматирование результатов.
В случае, если поиск в словаре не дает результатов, осуществляется поиск в словаре, содержащем словоформы концептуальной схемы; по найденным словам выполняется пометка соответствующих вершин концептуального графа и поиск путей к вершинам, которые являются связующими с графом логической схемы; найденные пути (в виде перечисления вершин и отношений, связывающих их) возвращаются пользователю в качестве объяснения ответа на его ЕЯ запрос; если в результате повторного поиска по графу логической схемы и SQL запроса получены данные, то они добавляются к ответу, после чего пользователю предоставляется возможность переформулировать запрос.
Система позволяет обрабатывать запросы вида:
"Какие эмбрионы сканированы для выявления экспресии гена bcd и относятся
к поздним временным классам?";
" How many embryos belonging to early temporal classes was scanned for expression of eve gene ?" и т.п.
Для создания концептуальных схем используется доработанный инструментарий для визуального структурирования информационных массивов в виде гиперсхем как системы ведущих идей и понятий [3] конкретных предметных областей, названный нами ПЕГАС (ПроЕктирование Гипертекстовых Активных Схем). При создании концептуальной схемы используются понятия (эмбрион, ген сегментации канал конфокального микроскопа и т.д.) и связывающие их отношения ( является частью чего, получен из чего, определяется чем, окрашен чем и т.п.) (см. рис 3).
Рис.3 Фрагмент концептуальной схемы предметной области о получении и анализе данных по экспрессии генов in situ
В число функций инструментария ПЕГАС входят:
- создание и редактирование гиперсхем; поиск, просмотр ресурсов, распределение гиперссылок в схемах; создание иерархии схем;
- гибкая генерация схем в виде, предназначенном для работы через ИНТЕРНЕТ;
- вспомогательные функции, которые позволяют непосредственно из БД получать метаданные о ее структуре, формировать модели логических схем БД в виде взвешенных графов и генерировать в автоматическом режиме необходимые для обработки ЕЯ запросов словари словоформ с проекцией на таблицы и атрибуты логических схем.
Для навигации по созданным с помощью редактора ПЕГАС гиперсхемам в режиме on line разработан Графический Навигатор гиперТекстовых схем ( ГРАНТ). Эта программа реализована в виде классов Java-агентов. Средствами ГРАНТ обеспечивается отображение графических схем, навигация по схемам в управляемом и автоматическом режимах, отображение связанных с узлами ресурсов (URL) (см. рис.4).
Рис.4 Фрагмент логической схемы предметной области, представленной в стандартном Web броузере средствами программы ГРАНТ.
В управляемом режиме пользователь может просматривать связанные с блоками ресурсы, в том числе ассоциированные с SQL запросами и переходить к другим схемам и блокам. Средствами навигатора может быть осуществлена гибкая публикация концептуальных схем предметных областей в ИНТЕРНЕТ.
- Заключение
Создан прототип адаптивного интерфейса к базе данных по молекулярной биологии на основе ЕЯ запросов и использования средств разработки и on-line визуализации концептуальных и логических схем предметной области.
Преимуществами данного интерфейса является многоязычность, наглядность представления информации, отсутствие необходимости перепрограммирования пользовательских интерфейсов при внесении изменений в предметную область.
Созданные нами программные средства ПЕГАС и ГРАНТ позволяют разрабатывать графические атласы предметных областей в виде концептуальных гиперсхем в режиме on-line доступа к ресурсам ИНТЕРНЕТ и публиковать их в сети с поддержкой функций дистанционного доступа и навигации.
Предложенный подход создания адаптивной многоагентной информационной системы обработки ЕЯ запросов может быть использован в других системах с реляционными базами данных, как распределенных, так и нераспределенных.
Работа выполнена в рамках гранта Комиссии ЕС IST-1999-11009 и гранта
Института здоровья США 2 R01 RR07801-11.
Литература
- http://urchin.csa.ru/FlyEx
2
. http://www.artint.ru/
- 3.Т.А. Гаврилова, Е.Е. Котова, А.С. Писарев, Т.В. Черниговская. Визуальное структурирование курсов дистанционного обучения как когнитивный инструмент: на примере нейролингвистики. // Труды международного семинара Диалог-2001. 2001г.
On-line natural language interface with molecular biology database
- S. Pisarev, M. G. Samsonova
Key words: relation data base, natural language, conceptual schema, ontology, logical scheme, weighted graph, minimal skeleton, SQL, java, molecular biology, adaptability.
At present observational information about gene expression patterns is becoming available in unprecedented amounts and scientific progress in developmental biology as well as improved understanding of genetically based diseases depends on the timely and full exploitation of this data. Thus it very important to have easily accessible databases storing this valuable information on line. We address the problem of a development of an environment for eficient management, retrieval and analysis of gene expression data in situ in the context of a particular biological system, namely the segment determination system in fruit fly Drosophila melanogaster. We show that natural language processing allows to extend the functionality of this database fast and eficiently and enables to take into account personal requirements of different user groups. This is especially important when designing a database open for inclusion of new data and query types. We demonstrate the advantages for application of this natural language processing approach for management of gene expression data in situ on several examples (http://urchin.csa.ru/NLP/NLP2.htm).