ИНТЕРАКТИВНЫЕ МЕТОДЫ ФОКУСИРОВКИ И РАСШИРЕНИЯ ПОИСКА В ИНТЕЛЛЕКТУАЛЬНОЙ ПОИСКОВОЙ МАШИНЕ
В. Н. Поляков
Московский Государственный институт стали и сплавов
vladimir_polyakov@yahoo.com
Д. А. Бодров
Московский Государственный институт стали и сплавов
danilb@sphaera.ru
А. В. Точин
Московский Государственный институт стали и сплавов
zalt@yandex.ru
Ключевые слова: поиск информации, поисковые машины, разрешение многозначности
В статье рассмотрены интерактивные методы повышения эффективности поиска. На примере интерфейсного блока проекта Интеллектуальная поисковая машина были рассмотрены методы фокусирования и расширения поиска, методы переформулирования запросов. Описан блок настроек ИПМ. Проект носит исследовательский характер, поэтому система снабжена широким спектром настроек и параметров, обеспечивающих возможность исследования различных методов поиска.
1. Введение
Рост объемов информации в сети Интернет и возможности доступа к библиотечным ресурсам средствами коммуникаций поставили задачу качественного поиска чрезвычайно остро. Несмотря на обилие поисковых систем в Интернет [1], современные технологии не предоставляют достаточно средств для организации эффективного поиска, поэтому результат поиска по-прежнему больше зависит от уровня подготовленности самого пользователя, нежели от поисковой системы.
В настоящей работе исследуются интерактивные методы фокусировки (сужения) поиска и его дефокусировки (расширения) в рамках проекта интеллектуальной поисковой машины (ИПМ) [2]. Большинство этих методов основано на технологиях разрешения многозначности и омонимии.
В проблеме разрешения многозначности необходимо различать два класса задач. Первый класс относится к выявлению значения лексемы в тексте в процессе его индексирования. Второй класс – это интерактивные методы выбора значения слова в тексте поискового образа, путем его явного или неявного маркирования. К последнему классу примыкает сравнительно большой спектр задач, связанных с переформулированием запроса. Переформулирование запроса не всегда лежит в области выявления значения, так как оно может быть связано с ошибкой в запросе, малым навыком пользователя при работе с поисковыми системами, нечетким представлением пользователя о предметной области. Однако эти задачи роднит интерактивный характер действий, что и послужило основанием их обзора в одной публикации.
Фокус статьи направлен на дополнительные функциональные возможности поисковых систем, а именно, на диалоговые методы переформулирования запросов в поисковой машине и способы их реализации. Проект носит исследовательский характер, поэтому система снабжена широким спектром настроек и параметров, обеспечивающих возможность исследования различных методов поиска.
2. Лингвистические технологии, основанные на лексическом значении
Проблема маркирования значения или проблема разрешения многозначности, является ключевой при решении многих прикладных задач, связанных с обработкой текстов на естественном языке. Существует несколько подходов к решению этой проблемы [3, 4], однако нельзя сказать, что эта задача решена полностью и включена в арсенал общедоступных лингвистических технологий наравне с морфологическими анализаторами, синтаксическими парсерами и т.п. продуктами.
В связи с этим имеет смысл говорить о новом направлении - лингвистических технологиях, основанных на лексическом значении (meaning-based language technology).
Суть этой технологии заключается в маркировании значения слов в тексте и использовании этой информации наряду с другой лингвистической информацией при решении прикладных задач, таких как машинный перевод, поиск, реферирование, диалоговое общение и т.д.
Предлагаемое исследование базируется именно на такой концепции. При этом надо понимать, что маркирование значения может носить и неявный (для пользователя) характер. Именно так происходит, например при выборе словосочетания, тематического кластера или словообразования. В этих случаях пользователь использует интерактивный метод фокусировки значения, основываясь на своей интуиции, при этом он может и не подозревать о реальном лингвистическом содержании того или иного действия. На наш взгляд, разработчик поисковой системы не вправе требовать от рядового пользователя глубоких лингвистических знаний, поэтому, чем меньше система пытается эксплицировать эти глубинные процессы, тем выше качество диалога.
Для задачи поиска, влияние лексического значения на релевантность поиска трудно переоценить. При среднем коэффициенте многозначности для многозначных существительных равном 2.76[1], можно оценить, что свыше шестидесяти процентов обнаруженных ресурсов в существующих поисковых системах представляют собой информационный шум.
3. Сортировка результатов поиска
Одним из фундаментальных вопросов, обеспечивающих высокую релевантность поиска, является продуманная стратегия сортировки обнаруженных ресурсов. При этом необходимо соблюдать баланс между объемом предоставляемой пользователю информации и возможностью её восприятия.
Согласно исследованиям [3], 58 процентов пользователей заканчивают сеанс работы с поисковой системой на первой же странице, просматривая обычно 10-20 ссылок. Можно также предположить, что значительная доля этих пользователей уходят с сайта неудовлетворенными результатами поиска.
Стандартный подход к сортировке результатов заключается в расчете рейтинга ресурса в соответствии с частотой использования слова в тексте. При этом могут использоваться дополнительные характеристики ресурсов, например, количество ссылок на ресурс, наличие экспертного заключения, наличие ресурса в директории и др. Для запросов по двум и более ключевым словам часто используют такую характеристику как расстояние между словами в тексте. Можно также ориентироваться на морфологические характеристики слова в тексте.
Ещё одна общая проблема, с которой приходится сталкиваться разработчикам поисковой системы, это ранжирование различных типов запросов, составленных на основе одного и того же списка ключевых слов.
Выделяют следующие типы запросов по двум и более ключевым словам:
фраза – предполагает, что поисковый образ ищется в тексте с абсолютно точным совпадением;
И-запрос – в тексте присутствуют оба слова запроса;
ИЛИ-запрос - в тексте присутствуют как минимум одно из слов запроса;
комбинированный И/ИЛИ-запрос – для количества слов свыше двух.
Наиболее продуктивным способом сортировки является такой, который совпадает с порядком их предыдущего перечисления, т.е. сначала список рассматривается как фраза, затем как И-запрос и т.д., однако существуют поисковые системы, в которых применяются другие способы. Например, в ПМ Google не предусмотрена возможность поиска по фразе, а в поисковой машине Go по умолчанию список ключевых слов рассматривается как ИЛИ-запрос.
Наш подход заключается в том, что в силу заведомой неоднозначности по лексическому значению список, отсортированный по частоте слова, будет иметь малую релевантность (примерно 30 процентов), следовательно, необходимо применить способ сортировки с предварительной группировкой по значениям слов (рис.1).
Рис.1. Сортировка результатов поиска
При этом предполагается, что существует база данных лексических значений, по которой проиндексированы все (или большинство) лексем в тексте. А уже затем, необходимо отсортировать эти группы в частотном порядке по частоте встречаемости лексемы. В рамках группы, ресурсы, объединенные одним значением, в свою очередь сортируются по частоте встречаемости. В качестве дополнительной информации такая группа ресурсов снабжается текстом толкования или в случае отсутствия такового значением гиперонима из онтологического дерева. Это дает пользователю возможность делать осознанный выбор из списка значений и переходить уже к просмотру списка внутри группы. Этот метод фокусировки можно рассматривать в качестве базового, так как его применение позволяет поднять релевантность поиска в несколько раз.
Возникает естественный вопрос: "А как быть в случае, если мы имеем дело с запросом по двум и более ключевым словам?" Применение группировки по всем сочетаниям значений входящих в запрос ключевых слов приведет к комбинаторному взрыву и резко ухудшит эффективность восприятия информации. В ИПМ было предложено элегантное решение указанной проблемы, которое состоит в том, что вводится понятие ядерного слова. По умолчанию, таковым считается первое существительное в тексте запроса. Кроме того, пользователь имеет возможность указания ядерного слова в явном виде с помощью синтаксических средств языка запросов.
Например, в запросе
семинар #диалог
слово диалог указано как ядерное.
В качестве обоснования этого подхода можно привести тот аргумент, что в силу контекстной связи слов в подавляющем большинстве запросов маркирование лексического значения одного слова неизбежно ограничит список возможных значений остальных слов в запросе.
С самого начала в ИПМ было введено осознанное ограничение на возможности распознавания значений слов по различным частям речи. Мы работаем только с многозначностью имен существительных, справедливо полагая, что, во-первых, существительные - это самые информативные части речи для поиска, и во-вторых, именно запросы с существительными составляют подавляющую долю от их общего числа[2]. Например, в результате частотного анализа запросов, полученных через прямой эфир ПС Yandex нами было установлено, что число несуществительных составляет 0,5 процента от общего число однословных запросов.
В случае отсутствия существительных в запросе, или слов, которые могут рассматриваться как существительные (таких, например, как рабочий, ученый, Блестящие, Циолковский), запрос рассматривается как обычный и обрабатывается стандартным способом без разрешения многозначности.
Кроме того, в ИПМ установлен гибкий порядок отображения типов запросов (фраза, И-запрос и т.д.), который определяется пользователем в настройках системы.
На рис 1 изображен пример запроса по ключевому слову аттестат, для которого существуют пять значений, два из которых в заголовках групп показаны на экране:
- Официальный документ об окончании учебного заведения, о присвоении звания
- В дореволюционной России: свидетельство о прохождении службы
- Рекомендация с места прежней службы, работы (устар.)
- Выдаваемый военнослужащему документ на право получения денежного или другого довольствия, а также члену его семьи, дающий право на получение части этого довольствия
- Документ, удостоверяющий породистость животного
4. Интерактивные методы преобразования запросов
По своему назначению интерактивные методы преобразования запросов можно разделить на три категории:
- фокусировка,
- расширение,
- переформулирование с целью изменения или исправления ошибки.
4.1. Фокусировка запроса
Основными характеристиками качества поиска является релевантность и полнота его результатов. [2] Предложить количественные характеристики релевантности довольно сложно, в силу субъективного характера оценки и несовершенства методики ее определения. Как правило, в качестве оценки релевантности используется понятие рейтинга, который является расчетной величиной и связан с частотой использования термина в слове. Обычно, к фокусировке запроса прибегают в случаях низкой релевантности или большого количества обнаруженных ресурсов. Принято считать, что большое количество обнаруженных ресурсов на запрос является следствием того, что он плохо сформулирован, связано с низкой квалификации пользователя или плохим знанием предметной области. Однако, здесь возможны варианты. Например, запрос по словосочетанию “natural language” на ПМ Infoseek находит свыше 100 тыс. ресурсов. Являясь абсолютно релевантным, это множество тем не менее недоступно обозрению рядовому пользователю и требует фокусировки. Кроме того, было бы наивно требовать от пользователя априорного знания результатов запроса. Тогда ему просто незачем обращаться к поисковой машине.
В ИПМ предусмотрено несколько механизмов разрешения лексической многозначности путем диалоговой фокусировки запроса. Наряду с отсортированным по значению списком результатов, пользователь на свой запрос получает список словосочетаний, образованных ядерной лексемой и список тематических кластеров, в которые входит ядерная лексема (рис. 1). Выбирая то или иное словосочетание, пользователь из-за контекстной связи слов в словосочетании уменьшает или даже разрешает лексическую многозначность ядерного слова, тем самым ограничивая область поиска.
Пример:
Для слова аттестат ИПМ формирует следующий список устойчивых словосочетаний: аттестат зрелости, аттестат профессора, квалификационный аттестат, продовольственный аттестат.
Методы формирования списка словосочетаний на корпусе текстов описаны в [6].
Аналогичным образом работает и кластерный механизм. Кластер представляет собой список слов наиболее часто встречающихся совместно в текстах определенной тематики. Ограничив темой направленность поиска, пользователь неизбежно ограничивает количество возможных толкований ядерной лексемы. Обычно тематическому кластеру можно поставить в соответствие название некоторой предметной области.
Пример:
Для слова аттестат в БД ИПМ было обнаружено две предметные области: военная служба, коневодство.
В качестве альтернативы названию предметной области можно использовать непосредственно часть списка слов, входящих в кластер, таким образом, вызывая интуитивные ассоциации у пользователя.
Пример:
Для одного из значений слова аттестат можно предложить такой список:
аттестат, сбруя, ипподром, жокей, порода …
После решения проблемы лексической многозначности встает другая, не менее острая проблема. Она заключается в том что, обращаясь к поисковой машине, зачастую пользователь жаждет получить конкретную, специфическую информацию по интересующей его тематике. Поисковая машина же возвращает весь объем, имеющейся у нее информации на заданную тему, сортируя ее не всегда лучшим образом. Из-за этого желаемая информация может оказаться на второстепенных страницах результатов поиска. Эта проблема называется коммуникативной многозначностью запроса. Проблема коммуникативной многозначности запроса, в отличие от проблемы лексической многозначности сравнительно мало изучена и сам термин коммуникативная многозначность запроса был введен впервые в рамках проекта ИПМ [2].
ИПМ содержит интерактивные механизмы разрешения коммуникативной многозначности запроса, позволяя пользователю уточнить свой запрос с помощью списка коммуникативных кластеров и списка целевых вопросов. Список коммуникативных кластеров представляет собой перечисление видов деятельности, связанных с найденными документами. Каждому виду деятельности соответствует кластер ключевых лексем, наличие которых позволяет отнести к данной области выбранный текст. Список целевых вопросов состоит из уточняющих вопросов, на которые можно найти ответ в обнаруженных документах. Как правило вопросы формируются путем анализа синтаксических и семантических предикативных структур, актантами которых выступают существительные.
Пример:
Предположим, что пользователь ввел запрос по слову борт и выбрал из списка значение: 6.Кристаллы и агрегаты алмаза низкого качества, непригодные для огранки. Используются как абразивные материалы
Для семантической категории сырье, к которой относится это значение, в системе хранятся следующие коммуникативные кластеры: бизнес, наука, образование, производство, работа.
Также пользователю предоставляется список вопросов, позволяющих уточнить цель, для которой ищется информация:
Где добывается? Как обработать? Где продается? Какие цены?
Таким образом достигается еще большее сужение круга документов, оставшихся после разрешения лексической многозначности. Разрешение коммуникативной многозначности полезно, если предмет поиска рассматривается в Интернет с разных точек зрения. Оба метода позволяют еще больше поднять релевантность выводимых данных. Ещё одним способом фокусировки является фрагмент онтологического дерева, с помощью которого пользователь может сузить свой запрос.
4.2. Расширение
Причиной выполнения действий по расширению полноты запроса обычно является малое количество обнаруженных ресурсов. В ИПМ эта граница задается пользователем. Как правило, неполнота или небольшое количество ресурсов связаны либо с очень узкой формулировкой запроса, либо с редкой, специфичной предметной областью запроса.
В ИПМ есть четыре основных способа расширения полноты запроса. Это список словообразований, список синонимов, список аббревиатур и фрагмент онтологического дерева.
Механизм расширения, основанный на словообразовании предоставляет пользователю список из однокоренных с ключевым слов. На основании этого списка пользователь может переформулировать свой запрос или выбрать одно из однокоренных слов и попробовать осуществить поиск по нему.
Вместе со списком однокоренных слов пользователю также предоставляется список синонимов ключевого слова. Он может выбрать все или наиболее подходящий из списка и продолжить поиск в соответствии со своим выбором. Список аббревиатур во многом напоминает по своему действию список синонимов.
Пример:
Для ключевого слова борт в значениии
В сочетаниях «на борт», «на борту», «с борта» - о самом судне, а также о летательном аппарате
в качестве списка словообразовательных морфоформ будет предложен следующий вариант:
бортинженер, бортмеханик, бортрасширитель, бортпроводник, бортпроводница, бортрадист, бортсеть
в качестве списка синонимов будет предложен список из одного слова: судно[3]
Механизм онтологий основывается на использовании онтологических деревьев и сводится к предоставлению пользователю списка слов, находящихся в тесной семантической связи с ключевым словом запроса. Его действие будет рассмотрено ниже.
Также в качестве средств расширения полноты поиска могут выступать рассмотренные ранее средства фокусировки: список словосочетаний и список тематических кластеров. Это достигается возможностью множественного выбора словосочетаний, кластеров, вопросов и т. д.
4.3. Переформулирование
В процессе использования ПС возникают ситуации, когда пользователь некорректно формулирует запрос, не подозревая об этом. Часто эта ситуация приводит к отсутствию результатов поиска. Причиной необходимости переформулирования запроса может быть орфографическая ошибка, раскладка клавиатуры или использование пользователем иностранного языка, слабые навыки в поисковых технологиях, сложный характер предметной области или запроса. В этом случае пользователю требуется помощь «компьютерного интеллекта».
Такие возможности, как орфокоррекция и транскрибирование уже стали средствами стандартного арсенала поисковых технологий, поэтому мы не будем на них подробно останавливаться.
Несколько особняком стоит видоизменение логической формулы, например смена И-запроса на ИЛИ-запрос (или наоборот). В зависимости от направления этого изменения такое переформулирование может служить как средством расширения поиска, так и средством фокусировки. В сложных запросах с использованием синтаксических средств языка запросов пользователь может допустить ошибку, которую ему поможет исправить блок переформулирования запросов, предлагая альтернативные варианты формулировок.
4.4. Лексические онтологии
Онтологии в системе представляют самостоятельный механизм, который можно использовать самым разнообразным способом: для фокусирования/дефокусирования или переформулирования запросов специфическим для онтологий способом.
В проекте ИПМ используются так называемые лексические онтологии. Лексические онтологии - это лексико-семантические структуры, в которых установлены семантические связи между словами и словосочетаниями. При этом отличительной чертой онтологий, является то, что узлами этой сети являются не сами слова (лексемы), а их семантические значения. Кроме того в нашей системе каждой связи приписывается определенный тип. Самым распространенным типом семантической связи в онтологиях является родо-видовая связь. Общее количество типов связей насчитывает свыше 60 типов. Как показали первые опыты работы с онтологиями, настройка допустимых связей в онтологиях также может служить средством фокусировки или таргетинга. В настоящее время в системе проконвертировано свыше 50 тыс. онтологических связей.
Для того, чтобы лучше понять особенности этой разновидности лексико-семантических структур, необходимо рассмотреть их в сравнении с такими, ставшими уже традиционными механизмами обработки текстов для поиска и классификации, как рубрикаторы и тезаурусы.В последних также устанавливаются связи, однако связи эти маркируются между словами и словосочетаниями, а не между значениями. Иногда в тезаурусах предусмотрено использование понятия типа связи, но разновидность типов связей, как правило, сильно ограничена. В рубрикаторах доминирующим типом связи является связь "область-подобласть", в силу того, что рубрики маркируют предметные области. Кроме того, в поисковых системах по рубрикам классифицируются не слова, а сами тексты, в то время как в онтологической системе связи осуществляются на уровне слов, входящих в тексты.
В системе формируется три фрагмента онтологического дерева для ядерного слова в запросе:
- список гипонимов, т.е. терминов, подчиненных ядерному;
- список когипонимов, т.е. терминов, находящихся с ядерным на одном уровне;
- фрагмент онтологического дерева в виде пути от ядерного термина до вершины онтологии.
Рассмотрим на примере запроса по слову топливо, как работает механизм фокусировки/дефокусировки запроса с помощью фрагмента онтологического дерева.
Пример:
Система формирует список гипонимов для исходного значения
Топливо-> (кокс, мазут, дрова, газ)
Далее пользователь имеет возможности:
1.выбрать один из гипонимов и сделать запрос по данному ключевому слову, например: кокс;
2.сформировать комбинированный И-запрос, например: (топливо & мазут);
3.сформировать комбинированный ИЛИ-запрос, например: (топливо | кокс | мазут | дрова | газ).
В примере рассматривался случай перехода по онтологическому дереву от гиперонима к гипониму, примерно также работает переход от гипонима к гиперониму или списку когипонимов. Обратим внимание, что переформулирование запроса осуществляется путем добавления новых значений из списка когипонимов, гипонимов или гиперонима.
5. Настройки интеллектуальной поисковой машины
Так как проект носит исследовательский характер в ИПМ позволено менять большинство настроек. Это сделано для того, чтобы иметь возможность исследовать разные режимы поиска, с одной стороны, и, чтобы удовлетворить самым разнообразным вкусам пользователя, с другой стороны.
Проект ориентирован на работу с научно-техническими и новостными текстами в первую очередь и более высокие требования к квалификации пользователя в режиме настроек вполне оправданы. В то же время имеется пять стандартных базовых настроек (профилей), которые облегчают настройку ИПМ, устанавливая все режимы по-умолчанию. Эти профили названы так, чтобы пользователь смог быстро сориентироваться в выборе подходящего: Профи, Исследователь, Завсегдатай, Аскет, Новичок.
В таблице 1 приведено описание назначения параметров настройки.
Таблица 1. Параметры настройки ИПМ
Параметр настройки |
Назначение |
Палитра |
Устанавливает цветовую палитру из списка |
Сортировка результатов |
Задает порядок сортировки результатов поиска (по релевантности/по дате) |
Списки фокусировки и расширения поиска |
Включают/отключают списки фокусирвоки и расширения поиска, оределяют порядок их сортировки (по количеству/по алфавиту/по частоте использования) |
Стратегия расчета рейтинга |
Выбор из списка стратегий расчета рейтинга ресурсов |
Грамматическое число |
Дает пользователю возможность ограничить поиск одним из грамматических чисел (ед/мн/оба). Это оказывается полезным при поиске слов с усеченной парадигмой (например:очки, леса) |
Уровень отсечения по рейтингу |
Задает уровень рейтинга, ниже которого ресурсы не включаются в отчет о результатах запроса |
Установка приоритетов по целевому списку |
Задает порядок отображения коммуникативных кластеров |
Ограничение числа выдаваемых документов |
Задает максимальное число ресурсов на странице |
Уровень включения сценария расширения полноты поиска |
Задает максимальное количество ресурсов, для которого автоматически включается сценарий расширения полноты поиска, т.е. отображаются списки морфоформ, синонимов и аббревиатур. В принципе пользователь может вызвать этот сценарий с любой страницы., также как и блок переформулирования запросов |
Обрабатывать стоп-слова и стоп-словосочетания |
Отключает опцию обработки стоп-слов и стоп-словосочетаний |
Обрабатывать элементы языка запросов |
Отключает опцию обработки синтаксиса языка запросов |
Работа с онтологиями - подключить рубрикатор - типы связей - подключить абстрактные понятия онтологий - установить предел сужения поиска - установить предел расширения поиска
|
Позволяет настраивать механизм онтологий, в том числе - устанавливает возможность объединения онтологий и рубрикатора; - ограничивает типы семантических связей в онтологиях; - позволяет исключить абстрактные понятия, оставив только имена собственные; - устанавливает пределы сужения/ расширения поиска при переформулировании путем использования онтологий. |
Работа со словообразованиями - показывать только связанные по значению - установить предел сужения поиска - установить предел расширения поиска |
Позволяет настраивать модуль работы со списком словообразований. |
Отображать ресурсы с неопределенными значениями |
Позволяет включить в список специальной группы: "Неопределенное значение", куда попадают ресурсы с нераспознанными значениями. |
Работа с именами собственными - отображать/только ИС/не отображать - разбивать ИС на значения |
Настраивает режимы отображения имен собственных. |
Работа с малоинформативными значениями - отображать/только МИЗ/не отображать - разбивать МИЗ на значения |
Настраивает режимы отображения малоинформативных значений. |
Игнорировать фразеологизмы и обороты |
Задает порядок отображения фразеологизмов |
Одной из особенностей блока настройки ИПМ является его максимальная гибкость и стремление учесть широкий спектр потребностей пользователя, которые могут возникнуть при поиске. Интерфейс блока настройки показан на рис. 2
Рис. 2. Настройки ИПМ
6. Проблемы и будущие разработки
В статье представлен интерфейсный блок проекта интеллектуальная поисковая машина. В общем объеме работ по исследованиям и разработке проекта ИПМ этот блок составляет около 10 процентов. Для полной реализации проекта ИПМ, описанного в [2], потребуется разработка десятков процедур индексирования текстов, часть из которых уже реализовано и проходит стадию тестирования.
В процессе работы над интерфейсной частью ИПМ был выявлен и сформулирован ряд проблем, с которыми придется столкнуться и другим разработчикам. Если индексирование по существующим значениям не представляет значительных трудностей, то выявление новых значений пока реализуется в полуавтоматическом режиме.
Отдельную проблему представляют имена собственные, которые составляют самостоятельные значения слов и словосочетаний. Также пока большие трудности вызывает процесс выявления метафорических значений слов, процедуры для индексирования которых плохо поддаются формализации.
7. Сходные исследования
В сходном направлении работает несколько исследовательских групп. Мы не будем перечислять поисковые системы, имеющие в своем арсенале рубрикаторы или директории, позволяющие ограничивать поиск тематическими категориями, в силу их большой распространенности. Также существует ряд систем, имеющих фокусировку по региональному признаку. Кроме того, во многих поисковых системах существует фокусировка по целевым признакам: товары, новости, музыка, графика, что можно рассматривать как простейшую целевую фокусировку.
Среди поисковых систем, целенаправленно подходящих к проблеме лексической многозначности можно выделить проект Oingo (http://www.oingo.com) (США).
В системе Галактика-Зум (http://zoom.galaktika.ru/content.htm) предложен эффективный метод фокусировки запросов по тематически связанным спискам слов и словосочетаний.
В разработках фирмы Гарант-Парк-Интернет (http://research.metric.ru/) используются новые методы визуализации связей между понятиями.
На портале Go (go.com) используется метод маркирования имен собственных, относящихся к сфере области шоу-бизнеса, в соотвтетствии с тематической ориентацией системы.
Значительный прогресс в деле разрешения лексической многозначсности был достигнут в разработках систем машинного перевода [4, 5].
В целом можно сказать, что в ближайшем обозримом будущем (через 3-5 лет) в поисковых системах методы разрешения лексической и коммуниктивной многозначности будут занимать не меньше места, чем методы морфологического анализа в современных.
Литература
[1] Search Engines Worldwide Collection. www.twics.com/~takakuwa/search/search.html
[2] Поляков В.Н. Интеллектуальная поисковая машина. Концептуальный проект. Труды Казанской школы по компьютерной и когнитивной лингвистике. TEL-2000. Вып. 5. Казань. 17-20 октября. 2000 г. Казань. Изд-во Сэлэт. 2000.
[3] Jansen, B. J., Spink, A., and Saracevic, Real life, real users, and real needs: A study and analysis of user queries on the web. Information Processing and Management. 36(2), T. 2000. 207-227.
[4] Марчук Ю.Н. Основы компьютерной лингвистики. Москва, 2000
[5] Evaluating Word Sense Disambiguation Systems. www.itri.bton.ac.uk/events/senseval
[6] Поляков В.Н., Павлов О.А. Частотный метод выявления устойчивых словосочетаний // Труды Казанской школы по компьютерной и когнитивной лингвистике. TEL-2001. Вып. 6. Казань. 22-28 октября. 2001 г. Казань. 2001.
Interactive methods of focusing and expansion of search
in the intelligent search engine
- N. Polyakov, D. A. Bodrov, A. V. Tochin
Keywords: information retrieval, search engine, sense disambiguation
Interactive methods of increasing of effectiveness are developed in the article. The methods of focusing and expansion of search and methods of reformulating of queries are discussed on the example of interface module of Intelligent Search Engine. Module of tuning of ISE is described. The system is provided with wide spectrum of tunings and parameters. This allows possibility of investigation of various methods of search.
[1] Данные по среднему количеству значений взяты из статистики проекта WordNet (http://www.cogsci.princeton.edu/~wn/). При этом можно заметить, что приведенные данные не учитывают имен собственных.
[2] Второе обстоятельство является в какой-то степени следствием первого.
[3] При ссылке на синоним, его значение маркируется таким же образом, как и в онтологическом дереве.