ЛИНГВИСТИЧЕСКИЕ ЗНАНИЯ И НОВЫЕ ТЕХНОЛОГИИ (К РЕШЕНИЮ НЕКОТОРЫХ ПРАКТИЧЕСКИХ ЗАДАЧ СПЕЦИАЛЬНОГО НАЗНАЧЕНИЯ)
Р. К. Потапова
Московский Государственный Лингвистический университет
Ключевые слова: прикладная лингвистика, лингвокибернетика, речеведение, фонетика, фонология, физиология, психология, электроника, техника связи, новые информационные технологии, общение на естественном языке "человек – ЭВМ", автоматические системы управления, анализ и синтез речи, методы анализа и синтеза речи, системы языкового интерфейса, автоматизированный перевод, экспертные системы, управляющие системы, организация знаний, информационно-поисковые системы, информационный поиск, идентификация и верификация личности и его эмоционального состояния.
В докладе проанализировано современное состояние проблемы симбиоза «Лингвистика и речеведение», «Лингвистика и речевые технологии». Освещаются такие области применения, как информационно-поисковые системы, управляемые голосом, системы идентификации и верификации говорящего, системы автоматического распознавания и понимания устной речи, обучающие и контролирующие системы, системы преобразования «текст–речь». Приводятся конкретные данные, характеризующие ряд речевых систем. Формулируются требования к разработке вышеперечисленных систем. Указывается на специфику трудностей, с которыми сталкиваются при разработке этих систем.
Усиление интеграционных процессов в науке составляет одну из наиболее характерных особенностей современного научного прогресса. Соответственно и проблема синтеза научного знания, междисциплинарного взаимодействия наук выдвигается на одно из первых мест. Возникновение и развитие речеведения на базе фонетики, фонологии, физиологии, психологии, электроники, техники связи, новых информационных технологий и т. д. представляет собой образец междисциплинарности, взаимного обмена научными достижениями и взаимосвязанного развития тех или иных научных направлений.
Речеведение как специальная область лингвистических знаний зародилось сравнительно недавно. Существенную роль в успешном развитии вышеуказанной междисциплинарной области знаний сыграл вклад различных научных коллективов в нашей стране и за рубежом.
Речеведы участвуют в решении проблем, имеющих прямое народнохозяйственное и оборонное значение [1]. Силами специалистов в данной области знаний разрабатывались и разрабатываются следующие проблемы: автоматическое распознавание и понимание речи, искусственный интеллект, эффективное общение на естественном языке "человек – ЭВМ", автоматические системы управления, анализ и синтез речи, вариативность речи человека в акте коммуникации, паралингвистические характеристики речи, методы определения качества каналов связи для слитной речи, методы автоматической проверки качества и передачи речи по каналам связи, восприятие акустических и фонетических признаков речевых элементов при наличии помех и искажения при передаче по каналам связи, межъязыковая интерференция на уровне звукового состава и интонационного строя, кибернетические системы речевого общения, аппаратурно-программные средства для объективизации контроля в процессе обучения иностранным языкам и обнаружения иноязычной имитации, взаимодействие вербальных и невербальных компонентов в акте коммуникации, функциональное и системно-типологическое изучение языков России, Ближнего и Дальнего зарубежья, информационный поиск, идентификация и верификация личности говорящего и его эмоционального состояния.
Для решения вышеперечисленных задач необходимо использование лингвистических знаний, несущих необходимую информацию о рассматриваемом объекте и среде применительно к различным аспектам науки, промышленности и обороны, защиты интеллектуальной и иной собственности, обеспечения безопасности и т.д.
В связи с этим особое значение приобретает прикладная лингвистика, занимающаяся разработкой компьютерных систем, функционирующих на базе естественного языка: систем автоматического распознавания и понимания речи (как письменной, так и устной), систем естественно языкового интерфейса, систем, моделирующих естественные способности человека, лингвистических компонентов экспертных систем, лингвистического обеспечения информационно-поисковых систем, автоматизированных систем перевода, автоматизированных лексикографических систем и т.д. [2; 3].
Коммуникация "человек-машина" посредством речи экономна, эффективна и удобна. Современные системы распознавания речи (в том числе и военного назначения) включают различные языковые уровни, каждый из которых несет свою функциональную нагрузку: акустический, параметрический, лексический, лексический, синтаксический, семантический и прагматический. Целью современных систем распознавания речи является использование как можно больше неакустической информации, особенно, информации более высоких –уровней, т.е. семантической и прагматической.
Распознавание речи, основанное на анализе акустического сигнала, требует подробной акустической характеристики сигнала. Идентификация конкретных слов требует выделения внутри обобщенных классов дополнительных фонетических подклассов, так что в окончательном виде иерархия фонетических классов имеет форму бинарного дерева решений. Исходя из имеющейся обобщенной классификации предлагается процедура построения оптимального дерева решений.
На первом этапе строятся терминальные цепочки – минимальные фонетические классы, необходимые для идентификации всех слов словаря. При выборе терминальных цепочек используются следующие критерии: множеству фонетических противопоставлений должны соответствовать максимально простые акустические средства; результатом должно быть минимальное число фонетических противопоставлений.
На втором этапе формирования дерева решений производится объединение двух классов низкого уровня (начиная с терминальных) в один класс более высокого уровня, и так до уровня обобщенных классов.
Улучшение точности распознавания речи осуществляется посредством двух методов, в основе которых лежат: а) разработка более совершенной фонетической системы, состоящей из контекстных вариантов фонем, полученных в результате релевантной классификации возможных контекстов; б) адаптация по отношению к фонетическим моделям обучения, использующего максимальную общую информацию.
Метод, использующий контекстные варианты фонем, основан на коррекции звучания фонем в зависимости от последующего гласного, а метод обучения с помощью максимальной общей информации использует языковую модель частей речи и многоуровневую стратегию декодирования. Применение каждого из описанных методов в отдельности повышает эффективность распознавания по сравнению с существующими методами, а комбинация двух предложенных методов характеризуется максимальной эффективностью.
Распознавание речи с использованием динамической трансформации фонемных эталонов, учитывающей акустическое (фонетическое) окружение, основано на методе, разработанном на материале вариативности акустических реализаций, обусловленных эффектом коартикуляции звуков в потоке речи. Метод рассчитан на системы распознавания с большим словарем и с использованием фонемных эталонов. Ведущим принципом при построении системы является динамическая трансформация фонемных эталонов в зависимости от акустического/фонетического контекста, заданного коартикуляторными параметрами.
При разработке систем автоматического распознавания устной речи продуктивно использование моделей, основанных на марковских цепях. Данная модель включает четыре основных компонента: выделение и анализ дифференциальных признаков; акустико-фонетическое декодирование; лексический анализ; синтаксический анализ.
Известны методы распознавания, основанные на ключевых словах. На каждом этапе определяется список ключевых слов. Каждое слово представлено в виде своей фонетической транскрипции, которая дается либо непосредственно, либо может быть получена из графемной транскрипции при помощи графемо-фонемного транскриптора, который используется при синтезе речи из текста. Система соотносит каждое слово в списке с частью фонемной матрицы. Если число соотнесений достаточно высоко, слово распознается. Задачей прагматического уровня является распознавание одного или нескольких ключевых слов на каждом этапе диалоге.
В настоящее время существует ряд диалоговых систем [4]. Например, диалоговая система KEAL. Данная система предназначена для решения конкретных задач (запроса информации, приказа или ввода информации). Режим диалога предполагает постановку вопроса пользователем. Каждый цикл работы устройства включает: посылку устного сообщения, прием устного сообщения, выработку ответа, выполнение действий, определяемых ответом, переход к следующему циклу.
Система состоит из следующих модулей: фонетического анализатора, детектора фонетических слов, детектора акустических слов, синтаксического анализатора, интерпретатора анализа, программы просодической сегментации, программы фонетико-орфографической транскрипции, генератора речи, диалогового автомата.
Фонетический анализатор позволяет прейти от реального речевого сигнала к его фонетической репрезентации. Каждому сегменту, выделенному фонетическим анализатором, соответствует множество упорядоченных ответов, расположенных в порядке уменьшения их вероятности. Само множество ответов носит название фонетического спектра фразы. Фонетический анализ проводится поэтапно: на первом этапе производится кодирование звукового сигнала в цифровой форме, что осуществляется с помощью вокодера, на втором этапе производится сегментация цифрового сигнала, на последнем этапе происходит идентификация фонем. Центральной частью всей системы является диалоговый автомат, который выполняет две функции: определяет, какие типы фраз имеют наибольшую вероятность быть произнесенными оператором в соответствии с контекстом диалога, решает, какую направленность будет иметь диалог (запрос информации, ответ на вопрос и т.д.).
В настоящее время известна многоцелевая система распознавания речи. Эта система может быть легко приспособлена без существенных модификаций для различного род применения в области общения "человек-ЭВМ". Передача информации в данной системе может быть разделена по уровням следующим образом: 1) в процессе диалога малая база данных позволяет осуществлять коммуникацию между моделями высшего уровня; 2) общая база анализа обладает набором языковых констант, которые используются в процессе распознавания. Особый интерес представляет просодический анализатор, действие которого основано на предположении о значимых модификациях частоты основного тона.
Наиболее продвинутой и отвечающей современным требованиям к автоматизированным распознающим системам является система "DRAGON". Система "DRAGON DICTATE" с голоса распознает дискретные речевые высказывания, отделенные друг от друга паузой. При общении с "DRAGON DICTATE" начинающий пользователь произносит 15 слов в минуту, опытный – до 60. К семейству подобных систем, работающих с голоса, относится также система фирмы IBM "TANGORA", которая распознает словарь, объемом в 20000 слов и словосочетаний, произнесенных раздельно. Преимуществом данной системы является дикторонезависимое распознавание. Настройка на пользователя реализуется в течение 20 минут.
Технологическая разработка большинства современных систем синтеза речи основана на одном из трех подходов:
- синтез заключается в воспроизведении заранее закодированной речевой волны;
- моделируется голосовой тракт, и эта модель контролируется при помощи параметров, значения которых получены на основе анализа входного текста;
- используется метод КЛП (коэффициента линейного предсказания), при котором контроль осуществляется при помощи заранее полученных параметров, не "выводимых" из входного текста и выделяемых из речевой волны.
Расходы на разработку синтезаторов зависят напрямую от применяемого метода. В случае заранее закодированного речевого сигнала каждое новое высказывание должно быть закодировано и отправлено в память устройства. Следовательно, стоимости синтеза находится в прямой зависимости от стоимости страницы, хранящейся в запоминающем устройстве, и длины текста.
Стоимость синтеза, основанного на применении метода КЛП, зависит от тех же параметров, но поскольку в данном случае модель контролируется и речь непосредственно не зависит от входного текста в каждом конкретном случае, стоимость памяти меньше (до величины до двух порядков). Стоимость синтеза, основанного на контроле определенных акустических (или артикуляторных) параметров речи, практически не зависит от длины текста и стоимости памяти.
При этом основная часть расходов приходится на те модули программы, которые касаются правил и отклонений от правил орфографии, фонологии и фонетики того языка, на котором подается текст на входе устройства. Для каждого конкретного языка эти модули приходится создавать заново.
Классической базой акустических параметров служат данные, полученные в результате формантного анализа речи с включением информации относительно частот формант, частоты и амплитуды импульсного голосового генератора, амплитуды генератора шума и частоты генератора шума. Сложность задачи не может быть упрощена настолько, чтобы использовать только лишь фонетический алфавит (в смысле необходимости установления соответствия между орфографией и фонетической транскрипцией). Следует отметить, что существующие алфавиты недостаточно качественны, чтобы обеспечить удовлетворительный синтез. Поэтому необходима разработка дополнительных критериев при создании правил преобразования "буква-звук".
Разработка математического обеспечения для микропроцессора, контролирующего синтезатор, представляет собой трехступенчатый процесс.
- Во-первых, необходимо получить описание произношения (сегментная и супрасегментная информация) рассматриваемого языка.
- Во-вторых, это описание должно быть сформулировано как набор правил.
- В-третьих, эти правила должны быть максимально экономными.
Анализ речевого сигнала на основе линейного предсказания заключается в разложении его спектра на две составляющие: сглаженного спектра, представленного в виде модели спектра, характеристика которого содержит только полюсы, и спектра функции возбуждения, содержащего информацию о погрешности предсказания. В идеальном случае порядок фильтра должен быть выбран таким образом, чтобы сигнал погрешности предсказания представлял собой некоррелированную последовательность в случае невокализованных звуков или последовательность равномерно следующих с периодом основного тона импульсов для вокализованных звуков.
В некоторых применениях линейного предсказания, где интерес представляет детальное поведение спектра как вокализованных, так и невокализованных звуков (в частности, в синтезе речи), необходимо рассматривать диапазон частот от 0 до 10 кГц. Чтобы гарантировать высокую степень согласования сглаженного спектра, следует выбрать частоту дискретизации не менее 20 кГц, а затем использовать обратный фильтр, порядок которого не меньше 20.
Так как на практике точное спектральное представление невокализованных звуков не требует большого числа коэффициентов, необходимых для вокализованной речи, то целесообразно отдельно анализировать низкочастотный и высокочастотный диапазоны с меньшим количеством коэффициентов, позволяющим, тем не менее, точно описать спектр.
Для получения с помощью линейного предсказания высоких результатов важно учесть анализируемые соотношения и влияние на них выбора метода, частоты дискретизации, порядка модели, типа временного окна и предыскажений сигнала.
Существующая разница между естественной и синтезированной речью, полученной на основе методов линейного предсказания, частично определяется ограничениями модели, имеющей только полюса, что наиболее заметно для назальных звуков. Потому представляется целесообразным использование полюсной модели линейного предсказания с включением в нее нулей. При использовании КЛП-метода все отобранные спектральные параметры речевого сигнала включены в значения коэффициентов, просчитываемых автоматически в процессе анализа речи. Преимущества использования КЛП-метода в синтезе речи связаны, главным образом, с более доступной и полностью автоматизированной процедурой анализа, а также менее сложной структурой по сравнению с другими методами.
Применение КЛП-метода с привлечением формантных параметров позволяет получить более качественную (естественно звучащую) синтезированную речь. Применение специальной программы кодирования лингвистических и технических характеристик на базе TMS в комбинации с КЛП-методом позволяет генерировать более качественную речь.
Характеризуя роль лингвистики в разработке экспертных систем (ЭС), следует подчеркнуть, что в основе экспертной системы лежит обширный запас знаний о конкретной области. Такой подход к конструированию систем, опирающийся на использование знаний, представляет собой революционное изменение с последствиями революционного характера, поскольку традиционное соотношение
ДАННЫЕ + АЛГОРИТМ = ПРОГРАММА
заменяется на новую архитектуру, основу которой составляет база знаний и "машина логического вывода", так что мы теперь имеем
ЗНАНИЯ + ВЫВОД = СИСТЕМА
Если для ЭС первых поколений важно было получить правдоподобные рассуждения, то на сегодняшний день актуальна проблема самообучения экспертных систем. В любой ЭС должна быть база знаний, машина логического вывода, лингвистический процессор и интерфейс, связанный с объяснением.
База знаний содержит факты, утверждения и правила. Факты представляют собой краткосрочную информацию в том отношении, что они могут изменяться, например, в ходе консультации. Правила представляют более долговременную информацию о том, как порождать новые факты или гипотезы из того, что уже известно. База знаний обладает большими "творческими возможностями", так как активно старается "пополнить" недостающую информацию.
Лингвистический процессор осуществляет диалоговое взаимодействие с пользователем (экспертом) на естественном для него языке (естественный язык, профессиональный язык, язык графики, тактильное воздействие и т.п.).
Назначение компоненты взаимодействия состоит в следующем:
а) организовать диалог пользователь – экспертная система, т.е. распределить функции участников общения в ходе кооперативного решения задачи;
б) осуществить обработку отдельного сообщения с учетом текущего состояния диалога, т.е. осуществить преобразование сообщения из естественноязыковой формы в форму внутреннего представления или обратное преобразование.
Важность объяснений в ЭС вызвана рядом факторов. Во-первых, трудно ожидать, что пользователи будут знать все возможности и понимать все действия экспертной системы. Во-вторых, значимость обусловлена тем, что экспертные системы предназначены для использования в слабо формализованных областях, то есть для решения задач, не имеющих алгоритмических решений. В условиях отсутствия теории, являющейся надежной гарантией правильности полученных результатов, возникает особая необходимость в разработке средств, дающих пользователям возможность убедиться в достоверности методов и знаний, используемых экспертной системой для получения решения.
В соответствии с общей схемой ЭС для ее функционирования требуются следующие знания:
1) знания о процессе решения задачи, то есть управляющие знания, используемые интерпретатором,
2) знания о языке общения и способе организации диалога, используемые лингвистическим процессором,
3) знания о способе представления и модификации знаний, используемые компонентой приобретения знаний,
4) поддерживающие структурные и управляющие знания, используемые объяснительной компонентой.
Зависимость состава знаний от требований пользователя проявляется в следующем:
- какие задачи и с какими данными хочет решать пользователь,
- каковы предпочтительные способы и методы решения,
- при каких ограничениях на количество результатов и способов их получения должна быть решена задача,
- каковы требования к языку общения и организации диалога,
- какова степень общности/конкретности знаний о проблемной области, доступная пользователю,
- каковы цели пользователя.
Все многообразие моделей представления знаний можно разбить на два типа: логические и эвристические. В основе логических моделей представления знаний лежит понятие формальной системы. Примерами формальных теорий могут служить исчисления предикатов и любая конкретная система продукций. Особенно активизировалось использование исчисления предикатов после создания мощных процедур поиска вывода: метода резолюций и обратного метода. Эти методы были обогащены эвристическими процедурами, которые существенно повысили эффективность вывода. Перечисленные методы являются системами дедуктивного типа, то есть в них используется модель получения вывода из заданной системы посылок с помощью фиксированной системы правил вывода.
Дальнейшим развитием предикатных систем являются системы индуктивного типа, в которых правила вывода порождаются системой на основе обработки конечного числа обучающих примеров.
В логических моделях представления знаний отношения, существующие между отдельными единицами знаний, выражаются только с помощью тех средств, которые представляются синтаксическими правилами используемой формальной системы. В отличие от формальных моделей эвристические модели имеют разнообразный набор средств, передающих специфические особенности той или иной проблемной области. Именно поэтому эвристические модели превосходят логические как по возможности адекватно представлять проблемную область, так и по эффективности используемых правил вывода. К эвристическим моделям, используемым в экспертных системах, можно отнести сетевые, фреймовые и продукционные модели.
В качестве иллюстрации к использованию лингвистических знаний в прикладных целях приведем некоторые примеры систем, функционирующих за рубежом [5].
- Информационно-справочная служба на авиалиниях. Голосовой запрос в этой автоматической системе относится к резервированию билетов и расписанию рейсов. Входной язык системы – свободный английский, но ограниченный данной тематикой. Предлагаемый речевой вывод использует в основном слова входного языка.
- Электронный кассовый аппарат с устным заданием вычислений. Входной язык определяется характером операций. Система снабжена визуальной обратной связью.
- Задача контроля воздушных полетов. Входной язык полностью определяется техническим подъязыком, однако, при этом учитываются отклонения в произношении под влиянием нервных перегрузок. Задача эта чрезвычайно важна, но и исключительно сложна из-за необходимости работать в реальном масштабе времени, в шумах и с высокой надежностью (не ниже надежности диспетчера-человека).
- Задача проверки готовности ракеты. Человек вводит в ЭВМ информацию о состоянии тех или иных узлов ракеты и отвечает на вопросы машины, анализирующей эту информацию. По сравнению с другими системами в этой системе человек и машина как бы меняются местами. Используется семантически ограниченный язык и специально подготовленный диктор.
- Наговаривание в ЭВМ медицинской информации (истории болезни). Система не включает постановку диагноза, но связана с этой задачей. Входной язык – свободная речь, но, главным образом, короткие фразы, содержащие сжатые сведения по истории болезни.
- Ввод информации с голоса о задачах искусственного интеллекта – моделирование поведения человека в незнакомой среде, принятия решения и т.д. Входной язык – свободный английский (предпочтительно краткие простые предложения). Развитая семантическая модель. Речевого выхода нет. Требования на реальный масштаб времени сняты.
- Задача инвентаризации. Человек, передвигаясь по помещению, наговаривает в реестр данные о предметах. Речевой ввод освобождает руки, чтобы перемещать предметы и делать необходимые измерения. Для повышения надежности в систему включены сведения о размещении предметов.
- Управление поведением роботов с помощью устных команд. Речевое управление особенно привлекательно при выполнении человеком и роботом совместных задач. В перспективе все роботы будут оборудованы устройствами речевого ввода и вывода информации.
В фирме BBN на первом этапе разрабатывалась система понимания речи SPEECHLIS. В качестве языка этой системы использовался язык информационно-поисковой системы LUNAR, которая давала возможность анализировать образцы лунных пород, привезенные во время космического рейса "Апполо-11". Система LUNAR отвечает на вопросы типа "Какова средняя концентрация рубидия в высокощелочных образцах?" или воспринимает команды типа "Отпечатать список отношений калий/рубидий для образцов пород, не содержащих кремния". Словарный состав системы LUNAR содержал около 3500 слов, а грамматика языка являлась подмножеством общей английской грамматики.
Приведем еще один пример системы понимания речи, которая вначале разрабатывалась фирмой SPC (Санта-Моника, Калифорния), а на завершающем этапе – Стэндфордским научно-исследовательским институтом. Основное отличие системы VDMS (Voice Controlled Data Management System) от систем, например, SPEECHLIS, HWIM и HEARSAY-II заключается в том, что в ее основе лежит синтаксис спонтанного английского диалога, что позволяет использовать при общении с системой сильно "усеченные" эллиптические выражения. СПР VDMS использовал проблемно-ориентированный язык доступа к информационно-поисковой системе данных о подводном флоте США, Великобритании и СССР. Общий словарь языка составлял 450 слов. Система имела возможность запоминать информацию о ранее произнесенных фразах и декодировать текущие, имея результаты распознавания предыдущих высказываний. В системе VDMS при интерпретации предложений наиболее полно использована идеология искусственного интеллекта.
В общую структуру VDMS входят три основные компоненты: 1) акустико-фонетический процессор, в результате работы которого формируется массив данных, содержащих информацию о фонетическом строении высказывания; 2) процедура лексического сравнения, которая производит сравнения предсказываемых слов, опираясь на слоговой уровень и используя акустико-фонологические правила; 3) лингвистический процессор, который содержит блок грамматического разбора (парсинг) и управляющий блок диалогового уровня (discourse level controller), включающий модель пользователя и семантическую память. Речевой сигнал ограничивался по полосе на частоте 9 кГц и поступал на 12-разрядный аналого-цифровой преобразователь, где квантовался с частотой 20 кГц. Затем оцифрованная речь проходила через цифро-аналоговый преобразователь, и результирующая аналоговая речь поступала на три полосовых фильтра, имеющих полосы пропускания 150-900 Гц, 990-2200 Гц т 2000-5000 Гц. Через интервалы в 10мс с фильтров снимались два параметра – максимальная амплитуда и число нулевых пересечений. Полученные шесть параметров использовались для грубой акустической маркировки каждого десятимиллисекундного отрезка. В системе учтено, что различные контекстные слова, предсказанные тематической памятью, "стареют" от высказывания к высказыванию и вероятности их использования уменьшаются. Если вероятность предсказанного слова падает ниже заданного наперед порога, то это слово на какое-то время выбрасывается из рассмотрения. Все это в VDMS выполняет блок диалогового уровня Discourse, являющийся наиболее оригинальным блоком системы. Процедуры, которые реализуют Discourse, основаны на изучении диалога между людьми, совместно выполняющими некоторую работу. Найдено и формализовано влияние контекста на характер диалога, причем рассматриваются два вида контекстного влияния. Глобальный контекст обеспечивает один вид ограничений при интерпретации высказывания. Эти ограничения используются при идентификации группы существительного. Второй вид ограничений связан с текущим контекстом соседних высказываний. Они используются при интерпретации сокращенных, эллиптических выражений и, в частности, добавляют дополнительные фрагменты к сокращенному высказыванию. В качестве примера высказывания, которое может воспринять система VDMS, можно привести такое: "Напечатайте типы подводных лодок, на которых больше семи ракет".
В настоящее время главные работы по построению больших систем, способных распознать речь, проводятся в фирмах IBM, Sperry Univac. Причем эти исследования принимают все более прикладной характер. В Bell Laboratories разрабатывают системы распознавания как изолированных слов, так и слитной речи. В IBM и Sperry Univac работают со слитной речью. Как правило, информация о синтаксисе и семантике естественного проблемно-ориентированного языка в этих системах для распознавания не применяется. Вводимые для анализа фразы не содержат стилистических ошибок, пропусков, междометий, ложных вставок и т.д.
Таким образом, лингвокибернетика, рассматриваемая как наука об общих законах получения, хранения, передачи и преобразования лингвистической информации в сложных управляющих и управляемых системах, охватывает не только технические, но также и любые биологические и социальные системы.
Лингвокибернетические системы будущего, предназначенные для выполнения широкого класса функций управления и реализуемые с помощью ЭВМ, должны будут обладать некоторыми особыми свойствами, характерными для систем управления, имеющихся в живых организмах.
Созданные в настоящее время устройства во многом уступают человеку, хотя они и начинают уже выполнять некоторые функции интеллекта человека.
Современными ЭВМ может восприниматься и перерабатываться различная информация (числовая, символьная), в том числе и информация, необходимая для создания образов окружающего мира. В связи с этим особое значение приобретает отрасль кибернетики, связанная с языком и речью, развитие которой намечается в наши дни и провоцируется продвинутым уровнем новых информационных технологий.
Распознавание, синтез, кодирование и декодирование речи должны сыграть важную роль в мультимедийном обществе будущего с легкими в обращении интерфейсами "человек-машина". Системы распознавания речи включают не только то, что распознает сообщения, но также и то, что распознает индивидуальность говорящего. Службы, использующие эти системы, будут включать подбор голоса, доступ и управление базой данных, оговорки, различные службы упорядочивания, диктовку и редактирование, автоматизированный перевод, телефонизацию, контроль безопасности, цифровое сообщение, помощь для инвалидов (например, помощь в чтении для слепых и в говорении для немых). Наиболее перспективной областью применения речевых технологий являются телекоммуникации. Некоторые технологии сыграют огромную роль в этой коммуникационной революции, но одним из ключевых моментов станет развитие речи. Благодаря использованию синтеза речи/технологии распознавания, телефонные станции будут использоваться как личные терминалы для связи с компьютерными системами. Ожидается, что в будущем техника распознавания говорящего будет широко использоваться как метод проверки идентичности в банковском деле, сферах обслуживания, службах информации и т.д.
Будущие системы распознавания речи должны быть помехоустойчивы, должны уметь распознавать слитную речь. Необходимо разработать методы, устойчивые к изменениям голоса, физического состояния говорящего, стилю говорения, аддитивному фоновому шуму; к характеристикам локальной сети, помехам телефонной сети, микрофонов и т.д. Для систем также важно наложение ограничений на задания и словарь. Для решения этих проблем необходимо развитие техники автоматической адаптации. Одной из важнейших проблем является выделение и нормализация (адаптация) индивидуальных характеристик голоса.
В последнее время исследования в области распознавания (идентификации и верификации) говорящего направлены на разработку новых подходов и технологий, которые включают методы распознавания, независимые от текста, основанные на векторном квантовании и марковских цепях, нормализации параметров/расстояния, модельной адаптации.
Проблемы распознавания речи включают динамические спектральные характеристики, помехоустойчивость, технику адаптации/нормализации, языковое моделирование, использование слуховых и перцептивных ограничений и подход к распознаванию спонтанной речи, основанный на обнаружении.
Несмотря на то, что исследования в области распознавания, синтеза и индексирования речи большей частью проводятся независимо друг от друга, в дальнейшем будет наблюдаться все большее взаимодействие между этими аспектами. Необходимость исследований человеческого мозга будет возрастать в соответствии с необходимостью решения фундаментальных проблем в распознавании и синтезе речи.
Коммуникация человека и машины посредством речи эффективна и удобна. Более того, проведено большое количество исследований в области автоматического распознавания речи с помощью ЭВМ. По результатам этих исследования установлено, что автоматическое распознавание речи очень сложно, за исключением того случая, когда словарь распознаваемых слов ограничен. Целью современных систем распознавания речи является использование как можно больше неакустической информации, особенно информации более высоких уровней, т.е. семантической и прагматической. Для целей эффективного использования лингвистической информации на входе должны быть только те предложения, которые описывают определенную ограниченную предметную область.
Устная речь – одна из самых быстрых форм общения. Кроме того, речь позволяет вести общение одновременно в различных формах. Вероятно, одной из основных причин, побудивших использовать речевые устройства, была их способность осуществлять общение на промышленных предприятиях и в других сферах специальной коммуникации.
Одним из приоритетных направлений современного речеведения является судебная (криминалистическая) фонетика. Тематический охват проблем характеризуется обращением не только к звучащей (устной), но также и к письменной речи. Применительно к последней разработана, например, компьютерная программа для обнаружения плагиата и установления авторства. Основной данной программы является автоматический сопоставительный анализ лексико-синтаксических особенностей текстов.
Современное состояние судебной фонетики характеризуется наличием трех основных направлений: оценкой показаний лиц, не являющихся профессионалами-экспертами, вопросами методологии в области идентификации говорящего, средствами технологий обработки (анализа) речи и интерпретации полученных данных.
Методологическое направление охватывает такие проблемы, как стратегия разработки специальных вопросников для эксперта, математическая база для решения задачи обработки акустических данных и корреляции между последними и идентифицируемыми признаками, соотношение перцептивно-слуховых и акустических методов оценки частоты основного тона F0, усредненных значений формант и др., методика исследования различного рода маскировки голоса, учет в практике криминалистической экспертизы характеристик каналов связи (ортофонной, телефонной, цифровой), специфика экспертной деятельности при работе с иноязычным материалом (на примере албанского языка в Македонии в контексте экспертизы материала австрийскими специалистами), проблема зависимости акустико-фонетических параметров от ряда экстралингвистических факторов (фонового шума, алкогольного и других видов опьянения, характеристик передаточного тракта, степени физического напряжения говорящего, например, после бега на различные дистанции и т.д.), проблема изучения влияния компрессии и кодирования речевого сигнала на индивидуальные признаки голоса, ценность информации о специфике консонантизма и вокализма, полученной в ходе перцептивно-фонетического анализа и др.
Технологическое направление (обработка речевого сигнала и интерпретация данных) включает разработку базы лингвистических данных для электронной энциклопедии, предназначенной для экспертов-фоноскопистов применительно к русскому языку и охватывающей как различные теоретические аспекты, так и практические рекомендации по ее использованию [6]. Кроме того продолжена разработка основных принципов и процедур, применяемых при шумоочистке особо сложных в техническом отношении фонограмм, а также технологии фильтрации речи.
Резюмируя вышесказанное, можно наметить определенные тенденции в развитии современного речеведения и прикладной лингвистики [7; 8; 9], ориентирующих на стохастическую модель речи, новые информационные технологии, семантические сети в диалоговых системах в реальном времени, мультимодальный подход, статистические и комбинированные методы обработки речевого материала и стохастические концепции понимания речи, нейронные сети в системах диалога в реальном масштабе времени, дистанционное обучение на базе гипертекстового подхода и новых информационных технологий (мультимедийные системы, интернет, e-mail, электронные энциклопедии [10] и др.), конкатенативную концепцию преобразования "текст-речь", экспертные речевые системы многоцелевого назначения, формирование баз речевых данных и речеведческих знаний, многоязыковые системы распознавания и понимания речи с использованием различных каналов связи и включением элементов автоматизированного перевода, разработку систем идентификации говорящего и его состояния.
Литература
- Потапова Р.К. Речевое управление роботом. М., Радио и связь. - 1989.
- Потапова Р.К. Введение в лингвокибернетику. М., МГЛУ, 1990.
- Потапова Р.К. Тайны современного Кентавра. Речевое взаимодействие "человек-машина". М., Радио и связь. – 1992.
- Потапова Р.К. Технологии обработки естественного языка в науке и промышленности. М., ИНИОН РАН, 1992.
- Потапова Р.К. Речь: коммуникация, информация, кибернетика. М., Радио и связь. – 1997.
- Потапова Р.К. Лингвистическое обеспечение электронной энциклопедии для эксперта-фоноскописта. МСР-ФОНО-Э, 1999. CD-ROM.
- Потапова Р.К. Приоритетные направления развития современного прикладного речеведения. Труды X Сессии Российского акустического общества, Т.2, М., 2000.
- Furui S. Perspectives of Speech Processing Technologies. SPECOM'98, S.-P., 1998.
- Galunov V., Taubkin V. Speech technologies and speech science. SPECOM'99, M., 1999.
- Potapova R.K. The Knowledge Based Speech-Input Expert System for Russian. SPECOM'99, M., 1999.
- Потапова Р.К. Речь: коммуникация, информация, кибернетика. 2-ое доп., М., УРСС.- 2001.
Linguistic knowledge and new technologies
(regarding some practical tasks of special purpose)
- K. Potapova
Ключевые слова: applied linguistics, lingua-cybernetics, speechology, phonetics, phonology, physiology, psychology, electronics, communication technologies, information technologies, natural language communication“human-computer interface”, automatic management systems, speech analysis and synthesis, methods of speech analysis and synthesis, language interface systems, machine translation, expert systems, management systems, data mining, search engines and systems, identification and verification systems, emotional state identification of speaker’s personality.
The modern science about language is characterized by a variety of forms, ways and methods in its development. In this connection, it is necessary to specify the problem of the development of its internal differentiation and classification conducting to occurrence of specific areas knowledge, to which number the science on the domain of speechology, included in structure of fundamental, theoretical and applied linguistics can be referred.