Интернет-версия Каталога российских коллективов и разработок в области автоматизированной обработки речи и текстов на естественном языке
А.Л. Воскресенский, В.А. Воскресенский, В. Флюр-Семенова
Полный текст третьей редакции Каталога "Автоматизированная обработка речи и текстов на естественном языке" можно найти в сети Интернет по соответствующей ссылке на странице http://www.elsnet.org/pubslist.html .
Третья редакция Каталога была выпущена в феврале 2000 г. Ее основные отличия от двух предыдущих версий состоят в следующем:
- впервые текст представлен на английском языке (предыдущая, вторая редакция (Semenova, Fluhr97), а также самая первая редакция, были написаны на французском языке);
- включены только российские коллективы (в предыдущие версии включались также и коллективы из других бывших республик СССР);
- впервые предложена типология лингвистических ресурсов; впервые поиск лингвистических ресурсов организован не только по коллективам-разработчикам, но и по типам ресурсов;
- впервые, параллельно с книжной версией каталога создана также и его Интернет-версия.
В настоящей статье речь пойдет об Интернет-версии и о проблемах, связанных с ее созданием. Но прежде хотелось бы сказать несколько слов о проекте в целом и о роли Интернета в нем.
1 "Интернет: чем он может нам помочь?"
Настоящий проект (для краткости именуемый просто – проект "Каталог") стартовал в конце 1993 года, когда взаимоотношения между российским научным сообществом и Интернетом были совершенно иные, нежели сегодня. А если точнее, то без особого преувеличения можно сказать, что их тогда не было вовсе.
И поэтому одним из первых мероприятий в рамках проекта "Каталог" стал проведенный в ноябре 1995 г. в Москве семинар "Интернет: чем он может нам помочь?" (Semenova, 1995). Этот семинар был проведен в стенах факультета теоретической и прикладной лингвистики РГГУ, - там же, где в июне 1994 года состоялось первое собрание представителей российских коллективов, перечисленных в Каталоге. К тому времени в Каталоге насчитывалось уже более 60 коллективов (правда, некоторые из них позже прекратили свое существование, но об этом ниже).
В ту пору, когда ни у кого не было даже не только Web-сайта, но даже электронной почты, сбор информации для Каталога происходил в основном путем личных бесед типа "интервью". Поиск же нужных коллективов происходил по принципу "кто кого знает", в условиях полной неопределенности и полнейшего отсутствия какой-либо, хотя бы формальной или предварительной, справочной информации.
С тех пор ситуация настолько изменилась, что сейчас уже даже нам трудно мысленно перенестись в те условия. Так что же тогда говорить о первом заказчике Каталога – французском Министерстве Науки, которое и помыслить себе не могло, сколь трудную задачу оно поставило. Ведь во Франции задолго до появления Интернета существовал, да и сейчас существует его аналог (доступный с любого, даже домашнего, телефона) – Минитель, где можно найти справочную информацию о ком и о чем угодно. В России же, да тем более в начале 90х годов, найти нужную для Каталога информацию было исключительно трудно.
Призыв о помощи, прозвучавший даже в названии семинара об Интернете, отражает российские реалии того времени, когда многие научные коллективы, внезапно лишились привычного финансирования, были поставлены на грань выживания, распадались или вовсе исчезали. Кроме того, в те годы практически перестали проводиться научные и научно-технические конференции, а также резко снизился поток научных публикаций. То есть, профессиональное сообщество в России было разобщено как никогда. И, несмотря на "падение железного занавеса", оно было по-прежнему изолировано от мирового сообщества – по причинам не столько политическим, сколько экономическим.
Поэтому, с самого начала и по сегодняшний день Каталог российских коллективов, задуманный и создаваемый для западных пользователей, исправно служит также и российским пользователям и в первую очередь представленным в нем российским коллективам – как для установления связей и взаимодействия, как с западными коллегами, так и между собой.
2 Месторасположение и роль Каталога
Конечно, теперь, когда практически у всех российских разработчиков есть персональные электронные адреса, а, кроме того, у многих из них есть сайты и/или личные странички в Интернете, то соответственно видоизменилась не только деятельность по сбору информации для Каталога, но и осмысление его структуры и роли.
Конечно, хорошо, что коллективы представили в Интернете информацию о себе. В таких условиях Интернет-версия Каталога может служить сводным указателем, содержащим ссылки на все эти Web-страницы. Но при этом не теряет своей важности и описательная часть Каталога. Это относится как к описаниям коллективов, так и к описаниям программных продуктов. Во-первых, эти описания составлены по единой схеме и поэтому дают возможность сравнивать между собой как продукты, так и коллективы. Во-вторых, это объективная информация, в то время как сведения, которые рассказывает сам коллектив о себе – всегда субъективны. В третьих, в Каталоге подробно описаны именно технологии и алгоритмы обработки языка и речи, и эти описания предназначены в первую очередь для специалистов, в то время как сами коллективы обычно составляют описания своих продукты для конечного пользователя (т.е. описывают не столько алгоритмы и технические решения, сколько потребительские свойства продукта). Описание такого рода дает, конечно, представление о том, что программная система способна делать, но не рассказывают, при помощи каких алгоритмов и технических решений это достигнуто.
Таким образом, Каталог не дублирует информацию, представленную на сайтах коллективов, а объединяет и дополняет ее.
Как было сказано выше, Каталог с самого начала создавался с целью помочь западным коллективам найти российских партнеров для сотрудничества. Но возникает вопрос, а каким образом иностранный пользователь, не знающий ни названий российских исследовательских, производственных или внедренческих коллективов, ни имен их руководителей, ни основных продуктов российского рынка программных продуктов (а Каталог рассчитан именно на таких пользователей), сможет найти тот продукт, в котором он нуждается, и, соответственно, разработавший или распространяющий его коллектив для установления рабочих связей? Какая-либо поисковая система в этом случае бесполезна: не зная ничего о российском лингвистическом рынке, пользователь не сможет сформулировать запрос. Ситуация также усложняется тем, что на многих российских сайтах информация представлена в основном по-русски, а англоязычная часть либо вовсе отсутствует, либо кратко составлена, редко обновляется и т.д.
В то же время, и российский разработчик (особенно из нового, мало “раскрученного” коллектива), не зная соответствующих адресов, не может найти возможных партнеров, заинтересованных в сотрудничестве с ним.
Подобная ситуация описана Робертом Шекли: “...Представьте себе, что двое ловят друг друга по бесконечным многолюдным анфиладам универсального магазина; и сравните такой метод с усовершенствованной стратегией, когда один ищет, а другой стоит на месте и спокойно ждет, пока его найдут. ... С наибольшей вероятностью вы разыщете девушку или она разыщет вас, если кто-то один будет разыскивать, а другой — позволит себя разыскать” (Шекли Р. Обмен разумов, гл. 18,http://www.high.ru/library/shekley/obmen.html ).
Опираясь на предложенную Р. Шекли стратегию, можно сказать, что наилучшим решением проблемы популяризации продукции и деятельности российских разработчиков, в частности, в сфере лингвистических и речевых технологий, является доступный для потенциальных потребителей хорошо структурированный каталог, расположенный в “правильном” месте, т.е. там, где его будут (или могут) искать в первую очередь.
В нашем случае, проблема выбора “правильного места” была решена путем размещения ссылок на наш Каталог на страницах ведущих европейских сайтов, посвященных соответствующей тематике - в частности, на вышеупомянутом сайте ELSNET (European Network of Excellence in Human Language Technologies), а также ELRA (European Language Resources Association).
3 Классификация и идентификация коллективов
Как уже было сказано, в начале 90х годов, (и даже раньше - начиная с конца 80х годов) происходила реорганизация и реструктуризация российского сообщества разработчиков лингвистических и речевых технологий. Научные коллективы видоизменялись, уменьшались, сливались, меняли свой статус или вообще распадались. В то же время интенсивно появлялись коллективы нового типа: сначала под видом ЦНТТМ, потом как кооперативы, чуть позднее - частные фирмы. Впервые в стране возник рынок программных продуктов, и на нем были широко представлены системы, относящиеся к области обработки естественного языка – корректоры, переводчики, машинные словари и т.д. Надо добавить, что все это произошло одновременно с всеобщим переходом на персональные компьютеры, а это, в свою очередь, повлекло за собой переход на другие языки программирования и, что очень важно, новые технические и системные решения.
В те годы на рынке программных продуктов появились и широко продавались продукты индивидуальных разработчиков или небольших программных коллективов. Строго говоря, в большинстве случаев это были не продукты, а так называемые прототипы, распространяемые в копиях на дискетах, с минимальной документацией или вовсе без документации. Позже они либо исчезли с рынка, не выдержав конкуренции с настоящими коммерческими продуктами, либо сами развились в настоящие коммерческие продукты, имеющие мощную группу поддержки, развитую дистрибуторскую сеть, четкий менеджмент и т.д.
Но тогда, в начале 90х, оказалось, что адекватно представить в Каталоге российских разработчиков интеллектуальных компьютерных технологий невозможно, если не принимать в расчет неформальные коллективы и индивидуальных разработчиков. Такой подход поначалу вызвал довольно резкое неприятие западного заказчика, и понадобилось доказывать его правильность. Даже и сейчас в Каталоге (и что самое главное – в реальной действительности) сохранилось некоторое количество неформальных коллективов, хотя количество их заметно убавилось.
Впрочем, точка зрения составителей Каталога по этому поводу такова: на самом деле, более половины представленных в Каталоге коллективов (кроме частных фирм), хоть формально и действуют в рамках тех или иных госcтруктур, тем не менее, обладают определенно выраженными чертами неформальных коллективов – например, они считают свои программные разработки своей собственностью, а не собственностью тех государственных учреждений, где они состоят в штате, чьими компьютерами и помещениями пользуются, и т.д.
Вообще, оказалось, что в условиях, когда все в стране пришло в движение и бурно меняется, неформальные коллективы – это чуть ли не наиболее стабильная форма существования коллектива. И нередко оказывается так, что коллектив из формального становится неформальным, или наоборот, но при этом почти не меняет своего состава.
При этом одним из наиболее информативных способов идентификации коллектива является указание его руководителя (называется он в разных случаях по-разному - начальник, директор, шеф, лидер и т.д. – но суть не в названии). Поэтому в предыдущие версии Каталога, изданные в виде книги, всегда был включен указатель руководителей коллективов. Естественно, это нашло свое отражение и в Интернет-версии, где поиск коллектива по имени его руководителя фигурирует наряду с поиском по типу и названию коллектива. Окно поиска с соответствующими кнопками представлено на рис. 1 - поиск по типу и названию коллектива, а также на рис. 2 - поиск в том же окне, но по имени руководителя.
Рис. 1. Поиск по типу и названию коллектива
Что касается типологии коллективов, то она такова:
- коллективы, работающие в учреждениях РАН
- коллективы, работающие в других НИИ (отраслевых и т.д.)
- коллективы, работающие в других госучреждениях (например, в библиотеках)
- коллективы, работающие в вузах
- неформальные коллективы и индивидуальные разработчики
- частные фирмы.
4 Типология программных продуктов
Помимо двух способов, представленных в предыдущем разделе, есть еще и третий способ поиска коллектива – по его продуктам.
Как уже неоднократно говорилось (Semenova &al., 1995; Semenova, 1998), к отличительным чертам Каталога следует, во-первых, отнести то, что он составлен прежде всего как каталог коллективов, а не как каталог продуктов, и во-вторых, то, что слово "продукт" в нем понимается в расширительном смысле, охватывая не только коммерческие продукты, но и проекты, прототипы, разработки академических коллективов, технологии для внутреннего использования, и многое другое.
Рис. 2. Поиск коллектива по имени его руководителя
Кроме того, к продуктам коллектива в Каталоге относятся не только программные продукты, но и лингвистические ресурсы (словарные базы данных, фонетические базы данных, текстовые корпуса, и т.д.).
Расширительное понимание термина "продукт" соответствует общей концепции Каталога, нацеленного не на продажу произведенной продукции, а на установление сотрудничества и различного рода контактов между коллективами. Поэтому продукция коллективов представлена в Каталоге как дополнительная информация, характеризующая в первую очередь потенциальные возможности и заделы коллектива. Конечно, описания продуктов сгруппированы не только по коллективам, но и по типам, и это дает возможность использовать эти данные для других целей – в частности, для изучения общего уровня развития технологий.
О выборе типологии программных продуктов для Каталога, о проблемах ее использования в каждом конкретном случае, а также о ее эволюции за период работ по проекту следовало бы написать отдельную статью – здесь есть что обсудить и о чем подумать. Совершенно очевидно, что никакая типология не охватит полностью все имеющиеся программные продукты – всегда будут такие, которые не уложатся (или не полностью уложатся) в принятую схему. Вся проблема в том, чтобы выбрать разумное соотношение между общим количеством классов и количеством отдельных продуктов, "не укладывающихся" в эту классификацию.
Для первой редакции Каталога была принята следующая типология продуктов:
- системы поиска текстовой информации,
- словарные системы,
- лингвистические процессоры,
- системы машинного перевода,
- системы проверки правописания,
- системы оптического распознавания текстов,
- лингвистические ресурсы.
Для каждого типа продуктов был составлен свой, очень подробный вопросник. Эти вопросники использовались для опроса разработчиков, т.е. для сбора информации о продуктах.
Рис. 3. Поиск программных продуктов в Каталоге
Вторая редакция Каталога охватила сферу обработки не только письменного языка, но также и устного (т.е. речевые технологии). Соответственно, были добавлены три новых типа продуктов:
- системы анализа и обработки речи,
- системы синтеза речи,
- диалоговые системы.
Кроме того, были составлены разные вопросники для разных типов ресурсов. Но в окончательном тексте второй редакции Каталога лингвистические ресурсы были сгруппированы только по коллективам-производителям.
Эта же типология была в целом сохранена и в третьей редакции Каталога, но были несколько видоизменены формулировки названий классов. Например, класс "Словарные системы" теперь расширен и название его сформулировано как "Системы управления лингвистическими ресурсами". Соответственно, теперь в этот класс входят не только системы управления словарными базами, но и, например, системы управления акустическими базами данных, и т.д.
Как видно на рис. 3, поиск по типу и названию продукта предоставлен в том же окне, что и поиск коллективов. Т.е. тем самым как бы создан единый "движок", предоставляющий потенциальному пользователю возможность найти нужную ему информацию (о существовании которой он априори ничего или почти ничего не знает) наиболее быстрым и удобным для него способом, двигаясь по трем различным траекториям:
- по типу и наименованию коллектива,
- по фамилии руководителя и наименованию коллектива,
- по типу и наименованию продукта.
5 Наполнение классов, сопоставление продуктов внутри класса
Очевидно, что выбор продукта для его дальнейшего использования (приобретения, лицензирования, участия в совместной разработке) требует сопоставительного анализа всех или большинства продуктов подобного класса. Как можно видеть на примере, приведенном на рис. 3, для облегчения пользователю этой задачи любая страница каталога с описанием продукта позволяет:
- просмотреть перечень однотипных продуктов, включенных в Каталог (как этого, так и других коллективов), чтобы оценить место данного коллектива в данной предметной подобласти;
- просмотреть перечень всех описанных в каталоге продуктов данного коллектива, чтобы получить представление об основных направлениях работы данного коллектива.
Указанные перечни позволяют просмотреть не только наименования продуктов, но и их описания.
Следует также заметить, что Каталог, конечно, не полон (никакой каталог в такой большой стране, как Россия, не может быть полным), и одна из причин этого заключается в том, что он включает в себя только те описания, которые подтверждены авторами. Например, по настоянию авторов, из третьей редакции Каталога были исключены описания ряда продуктов, присутствующие в первой и второй редакциях. Нам представляется, что некоторые разработчики проявили чрезмерную торопливость, удаляя из каталога описания тех продуктов, которые, по их мнению, потеряли актуальность. Многие из этих продуктов присутствуют на российском рынке, хотя уже и не поддерживаются своими авторами.
Например, на распространяемом в Москве “пиратском” диске (Современное сканирование, 2000), наряду с самыми последними версиями OCR FineReader 5.0 и CuneiForm 2000 (также не представленными в каталоге, поскольку разработчики дали описания предшествующих версий, например, FineReader 4.0), можно найти и Autor 2.2 для DOS. Это самая первая российская OCR-система, и несколько лет назад она считалась самой лучшей для распознавания русских машинописных текстов. Очевидно, что она до сих пор находит спрос – вряд ли “пираты” станут тратить силы на распространение невостребованных программ. Поэтому нам кажется, что разработчик системы Autor (фирма OCRUS) явно поторопилась, изъяв из Каталога ее описание.
Вообще, по сравнению со второй, и особенно с первой редакцией Каталога, в третьей редакции класс OCR-систем заметно "похудел": в нем теперь всего 7 систем, в то время как в предыдущей версии было 16. Причины этого известны – из общего числа примерно равноценных программных продуктов выделились два лидера – FineReader иCuneiForm , а также сохранилось несколько других – для специальных приложений. Все остальные были оставлены разработчиками как не имеющие перспектив.
Примерно то же самое произошло и с классом корректоров правописания – в нем теперь всего 5 продуктов вместо 21. Причины очевидны – после того, как в MicroSoft Word был вмонтирован корректор правописания для русского языка, надобность в других системах этого типа практически отпала.
В то же время, очень "разбух" класс "Лингвистические процессоры", в нем сейчас 36 систем. Вообще, этот класс содержит довольно разнородные системы и потому с трудом может быть использован для сопоставительного анализа. Он явно нуждается в разбиении на более мелкие и однородные классы.
6 Типология лингвистических ресурсов
В третьей редакции Каталога, как и в предыдущих, лингвистические ресурсы сгруппированы по коллективам. Но в отличие от предыдущих редакций, здесь впервые предложен также и второй способ поиска ресурсов - по типам. Надо заметить, что применение заимствованного из английского языка термина "лингвистические ресурсы" (lingustic resources) нам не кажется здесь особенно удачным, поскольку речь идет о ресурсах не только письменного языка, но и устной речи, а также жестового языка. Возможно, правильнее было бы употреблять термин "языковые ресурсы" (language resources).
В настоящее время, в Каталоге принято следующее разделение ресурсов на классы:
- Речевые ресурсы (Speech related resources)
- Текстовые корпуса, сборники текстов (Corpora, text collections)
- Одноязычные словари (Monolingual lexicons)
- Терминология (Terminology)
- Многоязычные словари общей лексики (Multilingual lexicons: general lexis)
- Двуязычные словари для предметных областей (Bilingual dictionaries for domains)
- Ресурсы жестового языка (Sign language resources)
- Другие ресурсы (Other resources)
Конечно, такое деление в известной степени условно. Например, многие терминологические базы содержат эквиваленты на других языках, т.е. весьма близко примыкают к классу двуязычных словарей для предметных областей. С другой стороны, класс ресурсов устной речи явно нуждается в дальнейшей детализации. Но это проблемы всякой типологии, аналогичные тем, которые были упомянуты выше при обсуждении типологии программных продуктов.
Прнятая в настоящий момент типология, как мы надеемся, позволит пользователям глубже изучить российские лингвистические ресурсы, а также найти всех разработчиков, производящих однотипные ресурсы.
7 Программная реализация Интернет-версии
В настоящее время так называемый "движок" Каталога, позволяющий осуществлять все вышеописанные виды поиска, выполнен в виде Java-апплета. Такое решение имеет свои преимущества, основным из которых является то, что вся предварительная обработка (выбор описания коллектива или продукта) производится на клиентской машине, а с сервера только запрашиваются необходимые html-файлы с соответствующими описаниями. Сокращение числа запросов к серверу актуально в условиях работы по российским коммутируемым линиям с их малой пропускной способностью. Выбранное решение позволило устранить затраты времени на ожидание реакции сервера при переносе обработки запросов на сервер и, тем самым, ускорило и облегчило для пользователя работу с Каталогом.
Однако в процессе предварительной отладки апплета выяснилось, что он, работая в MS Internet Explorer, в то же время не функционирует в броузере Netscape. Это повлекло за собой необходимость внесения в апплет изменений, вплоть до разработки собственных вариантов, работающих в большинстве наиболее популярных броузеров классов Java для прорисовывания кнопок и прокручиваемых списков. Все это было сделано для того, чтобы сохранить внешний вид и функциональность Каталога независимо от используемого пользователем броузера. Это особенно актуально для западных пользователей, т.к. там достаточно широко распространены версии Netscape с необновленной Java-машиной. Как оказалось, наше предложение обновить Java-машину (даже с сайта Netscape или Sun) не всегда принималось, а нередко встречало и очень недовольную реакцию. Все это могло снизить заинтересованность западных пользователей в использовании Каталога. Поэтому все необходимые изменения в апплет были внесены.
Таким образом, можно сказать, что на создании Интернет-версии Каталога отразились шедшие с 1997 года распри между Microsoft и Sun Microsystems по поводу неправомерного (как показало решение суда, состоявшееся в январе 2001 г.) внесения фирмой Microsoft в язык Java расширений, специфичных для ОС Windows, в результате чего возникла несовместимость диалектов языка. Но, т.к. одним из результатов достигнутого соглашения между Microsoft и Sun Microsystems является отказ от поддержки Java в новых разработках Microsoft (Колесов, 2001), то возможно, что при создании следующих версий Каталога надо будет отказаться от использования языка Java и перейти к варианту обработки запросов пользователей непосредственно на сервере, чтобы, независимо от внешних изменений, Каталог оставался удобным для пользователей кросс-платформенным приложением.
8 Литература
Semenova, V., 1995. Networking Awareness Day Held for the Russian Language and Speech Community. ELSNews, N° 4.6, pp. 3-4.
Semenova, V., 1998. On Russian Resources for Language Engineering. ELRA Newsletter, Vol.3, n.2, pp.6-7
Semenova, V.,1998. Russian Resources in Language Engineering: Evaluation and Description. In LREC Proceedings. Granada, Spain.
Semenova, V., Arapov, M., Voskresenskij, A., Gursky, A., Gursky, T., Reznik, K., 1995. Survey on Russian Teams and Products in Language Engineering : Impressions, Facts, Conclusions. In ELSNET Goes East and IMACS Workshop Proceedings, pp. 164-168, Moscow.
Semenova, V., Fluhr, C., 1996. Les Industries de la Langue dans les Pays de l’ex-URSS: Repertoire des Acteurs et des Produits. Version 1. Paris, France: MESR (DISTNB).
Semenova, V., Fluhr, C., 1997. Les Industries de la Langue dans les Pays de l’ex-URSS: Repertoire des Acteurs et des Produits. Version 2. Paris, France: SCIPER.
Современное сканирование, 2000. CD-ROM Серия “Навигатор: удачная покупка”. (http:// www.cdboom.com).
Колесов А., 2001. Прыжок от Java к NET. PC WEEK/RE, N 8, 6-12 марта 2001, с. 45.