ГРОМКОСТЬ РАЗНОСТНЫХ ТОНОВ В ГЛАСНЫХ.
А.И.Егоров, В.В.Дубровский
Институт динамики систем и теории управления СО РАН
Введение.
Одной из характеристик речи, полезных для адекватного и экономного описания слуховых образов речевого сигнала, является высота. Разными исследователями для интерпретации тех или иных экспериментальных фактов предлагались различные варианты спектральных и временных подходов к количественной оценке высоты. Нами также, при реализации бионического подхода к анализу речи [1], был предложен способ расчета высоты гласных, в котором необходимо использовать количественную оценку общей громкости разностных тонов в анализируемых созвучиях речи [2]. В докладе описан один из способов расчета громкости разностных тонов в гармонических созвучиях. Выбор гармонических созвучий обусловлен тем, что они обеспечивают наибольшую гибкость при разработке алгоритмов обработки гласных.
- Разностные тона в речевом сигнале.
Специалистам по психоакустике известно, что присутствие разностных тонов в слуховых спектрах можно почувствовать через некоторую "шероховатость" звука, часто ощущаемую, как сопровождающее звук тональное "жужжание" с разностной частотой. Влияние разностных тонов на слуховое восприятие высоты гармонических созвучий легко проиллюстрировать на следующем примере. На программном уровне синтезировались два сигнала с приблизительно равными уровнями интенсивности (70 дБ) и одинаковой длительности (300 мс). Первый сигнал являлся тональным (700гц), второй - двухтоновым (600гц,800гц). Сигналы последовательно (через временной интервал в 1сек.) подавались на громкоговоритель, и аудиторам предлагалось сравнить их слуховые ощущения. Громкости сигналов оценивались, как почти равные, но слуховые ощущения принципиально отличались по высоте. Одной из причин такого отличия являлось влияние разностного тона на слуховое ощущение двухтонового сигнала (ДС). Этот вывод следовал из установленной нами закономерности, согласно которой, варьируя интенсивностью, частотой и взаимным расположением на частотной оси составляющих ДС, можно было существенно изменять громкость разностного тона. Изменение же громкости разностного тона в свою очередь приводило к изменению ощущения высоты созвучия.
Отметим, что дискуссию о механизме формирования слухом разностных тонов, по нашему мнению, до сих пор нельзя считать завершённой. Обычно, восприятие разностных тонов связывают с формированием в слуховой системе (СС) человека как комбинационных тонов, возникающих при спектральном разложении сигнала с нелинейными искажениями, так и биений. Однако, наши экспериментальные исследования [3] свидетельствуют о том, что в сопоставимых условиях биения играют более важную роль в слуховом восприятии разностных тонов по сравнению с квадратическими и кубическими продуктами нелинейности слуха. Поэтому для расчета громкости разностных тонов в первую очередь необходимы знания о качественных и количественных закономерностях формирования биений. Мы полагаем, что из нескольких известных вариантов решения этой задачи наиболее обоснованным является подход, сформулированный в [3,4] и опирающийся на предположение о формировании биения непосредственно на основной мембране внутреннего уха (под воздействием ДС). Очевидно, что если рассматривать кратковременные спектры гармонических созвучий, как множество ДС, сдвинутых по отношению друг к другу на величину частоты основного тона, то механизм формирования биения при возбуждении слуха двухтоновым сигналом можно использовать и для расчета общей громкости биений (разностных тонов) в гласных.
- О формировании слухом громкости сигналов.
Известно, что под воздействием тона - простейшего из акустических сигналов, барабанная перепонка СС совершает синусоидальные колебания. Эти колебания через слуховые косточки среднего уха передаются на овальное окно внутреннего уха. Во внутреннем ухе тон, энергия которого сосредоточена на единственной составляющей спектра, вызывает возбуждение уже не точечного, а достаточно протяженного участка основной мембраны СС. Распределение интенсивности возбуждения основной мембраны по высоте в этом случае обычно аппроксимируется неравнобочной трапецией. Верхнее основание трапеции (шириной в 1 барк) соответствует области основных возбуждений, для которой уровень возбуждения L совпадает с уровнем воздействия L с точностью до коэффициента передачи, учитывающего неравномерность амплитудно-частотной характеристики наружного и среднего уха в области частот выше 1 Кгц [5]. Здесь L=10lg(A/A) в дБ; A - интенсивность воздействия; A - начальная (стандартная) интенсивность воздействия. Боковые стороны трапеции относятся к области побочных возбуждений. В этой области уровни возбуждения принято определять через пороги при маскировке, смещённые на величину коэффициента маскировки a. Здесь a=10lgS(дБ); S – определяется экспериментальным путем и представляет отношение интенсивности минимально воспринимаемого испытательного тона к интенсивности мешающего шума в данной частотной группе. Если преобразовать частотную шкалу (гц) в шкалу высоты Z (мел), то можно получить семейство кривых уровней возбуждения L(z). Эти кривые обладают интересным свойством - их форма практически не зависит от высоты тона, воздействующего на СС, и, следовательно, разные семейства кривых могут быть почти полностью совмещены друг с другом путем их взаимного перемещения вдоль оси Z. Отмеченное свойство позволило нам аппроксимировать зависимости уровней возбуждения от высоты, приведенные в [5]. В результате для левого склона кривой уровней побочного возбуждения получено выражение
L(z)=L-31(z-z) (дБ),
где z - высота левой границы кривой уровня основного возбуждения в (мел);
L- уровень основного возбуждения (дБ).
Для правого же склона уровней побочного возбуждения имеет место
L(z)=L-21.20.879(z-z) (дБ),
где z - высота правой границы кривой уровня основного возбуждения в (мел).
Каждому значению интенсивности возбуждения I(z)=10 соответствует значение удельной громкости N'(z). Связь между I(z) и N'(z) описывается степенной зависимостью (закон Вебера - Фехнера). Согласно этой зависимости, относительное изменение величины слухового ощущения пропорционально относительному изменению соответствующей величины раздражения. В общем случае N'(z) зависит от I(z), S(z), I(z) [5], где S(z) - пороговое число частотной группы; I(z) - интенсивность тона, соответствующая абсолютному порогу слышимости L(z).
Нами выполнена также аппроксимация экспериментальной зависимости S(z) и для ее расчёта получены следующие соотношения:
При z200 S(z)=0.631.
При z>200 S(z)=0.631-17110(z-200)
Интегрирование выражения для N'(z) по z позволяет вычислить громкость чистого тона. Вышеприведённая схема формирования удельной громкости тона может быть использована и при расчёте громкости биений, возбуждаемых ДС (при условии внесения в схему изменений, учитывающих особенности формирования слухом распределений интенсивности и порога слышимости биений по высоте). Третий и четвёртый разделы доклада как раз и посвящены способам учёта этих особенностей.
- Распределение интенсивности биений по высоте.
Согласно схеме формирования слухом громкости сигналов, при расчёте удельной громкости биения N'(z) должна быть известной зависимость интенсивности возбуждения биения I(z) при воздействии на слух ДС. Способ расчёта I(z), изложен ниже.
Принято считать, что основная мембрана внутреннего уха состоит из упругих (предварительно напряжённых) поперечных волокон, нежёстко связанных между собой. Вследствие связанности волокон, волновые процессы на мембране носят характер бегущей волны. Известно также, что при воздействии на СС тонального сигнала максимальная амплитуда давления в бегущей волне приходится на область мембраны, поперечные волокна которой наилучшим образом "настроены" на частоту тона. В результате на мембране образуется распределенная в пространстве возбуждённая область, колеблющаяся с частотой тона. О ней уже упоминалось при описании схемы формирования громкости. При воздействии на СС двухтонового сигнала, по основной мембране распространяется бегущая волна, которую можно рассматривать в виде суперпозиции двух волн. Реакцией мембраны на прохождение такой волны является появление на ней двух перекрывающихся в пространстве областей возбуждения, каждая из которых колеблется на частоте возбудившей ее компоненты ДС. Таким образом, в области перекрытия возбуждений, волокна мембраны одновременно участвуют в двух одинаково направленных гармонических колебаниях. При этом каждое волокно совершает результирующее негармоническое колебание с периодически изменяющейся амплитудой A(z,t) - биение. В соответствии с выводами [5], наиболее вероятно, что в этом случае взаимодействие возбуждений на мембране происходит по законам суммирования амплитуд. Следовательно, за период биения T= 1/(f-f) амплитуды A(z,t) изменяются в пределах
от A(z) = |A(z)-A(z)|
до A(z)=A(z)+A(z), где t - время; А(z), A(z) - соответственно, распределения по высоте амплитуд колебаний волокон с частотами
(f и f) составляющих ДС.
Интенсивность биения каждого волокна мембраны можно рассчитать с использованием зависимости от времени огибающей амплитудных значений биения за его период T. Для случая, когда за начало отсчета времени принимается момент совпадения начальных фаз складываемых колебаний, эта зависимость определяется выражением
A(z,t)=2A(z)cos[(f-f)t], (1)
где A(z)=A(z)-A(z) - размах огибающей биения.
Очевидно, что если A(z)>A(z), то A(z)=2A(z), (2)
а если A(z)>A(z), то A(z)=2A(z).
Для распределения интенсивности I(z) биений, возбужденных ДС, справедливо следующее выражение:
I(z)=(1/T)(z,t)dt = 2A(z).
Таким образом, интенсивность биения волокна основной мембраны, возбужденного в СС двухтоновым сигналом, равна удвоенной величине квадрата размаха огибающей биения. Размах же огибающей определяется по (2).
- Порог слышимости биений.
При расчете удельной громкости биений, возбуждаемых ДС, необходимо использовать количественную оценку порога слышимости биений. Как правило, за порог слышимости сигнала принимают уровень его интенсивности, при котором происходит скачкообразный переход СС из состояния "сигнал слышен" в состояние "сигнал не слышен" или наоборот. При восприятии одиночного тона порог его слышимости определяют при помощи распределения некоторого абсолютного порога слышимости по высоте. Более сложная ситуация в определении порогов слышимости возникает при восприятии слуховой системой ДС. В этой ситуации человек может одновременно слышать как тоновые составляющие ДС, так и образуемое слухом биение. В настоящее время принято считать, что пороги слышимости тонов из ДС, можно определить через так называемые пороги слышимости при маскировке (в слуховой системе маскировка проявляется в изменении порога слышимости одного тона под влиянием другого, обычно называемого маскёром).
Отметим, что при формировании порогов слышимости при маскировке слуховая система, возбуждаемая ДС, использует следующие особенности маскировки: большее маскирующее действие низкочастотной составляющей по сравнению с высокочастотной; усиление маскировки при уменьшении частотного интервала между составляющими ДС; зависимость маскировки от интенсивности маскёра.
Попытка распространить особенности схемы формирования порогов при маскировке на пороги слышимости биений показали, что закономерности формирования отмеченных порогов, по-видимому, существенно различаются. Некоторое представление об этих различиях можно получить из следующего примера. Пусть на СС воздействует ДС, у которого L(f)>>L(f), где L(f),L(f) - соответственно, уровни интенсивности его составляющих. Пока L(f) ниже абсолютного порога слышимости, слышен только маскёр (тон с частотой f). Если постепенно увеличивать уровень L(f), то сначала слышимым становится не сам второй тон, а биение с частотой f-f. И только при L(f), превышающем порог слышимости при маскировке, наряду с маскёром и биением становится слышимым и измерительный тон с частотой f. Из этого примера следует , что при слуховом восприятии ДС порог слышимости измерительного тона намного выше порога слышимости биения. Таким образом, механизм формирования порогов слышимости при маскировке для определения порогов слышимости биений применять нельзя.
Задачу получения количественных оценок порогов слышимости биений, возбуждаемых в СС двухтоновым сигналом, удалось решить при помощи способа, суть которого состоит в следующем. Программным путем синтезировались два сигнала. Первый сигнал - тон с постоянным уровнем интенсивности, длительностью 300 мс. Второй - двухтоновый сигнал. Сигналы из компьютера подавались последовательно, через паузу между ними в 1 секунду, на громкоговоритель, и аудиторам предлагалось сделать вывод об эквивалентности (неэквивалентности) слуховых ощущений сравниваемых сигналов. Исходные интенсивности составляющих ДС выбирались таким образом, чтобы слуховые ощущения тона и ДС не отличались, то есть выполнялось условие L>L, где L - порог слышимости биений; L - уровень интенсивности биений. Затем, при сохранении неизменной интенсивности тона с большим уровнем L(f), производилось ступенчатое увеличение интенсивности составляющей ДС с меньшим уровнем, и после каждого изменения интенсивности сравнивались слуховые ощущения тона и ДС. Эта процедура повторялась до появления четких различий в сравниваемых слуховых ощущениях. В итоге фиксировалось некоторое пороговое значениеL=L(f)-L(f), при котором биения еще не ощущались. При выполнении же условия L(f)-L(f)<L биения уже ощущались. Следовательно, значение L=L(f)-L можно принять за количественную оценку порога слышимости биений.
Экспериментальные исследования L показали, что его значение не зависит от уровня составляющей в ДС с максимальной интенсивностью, варианта распределения составляющих в ДС по интенсивности: L(f)>L(f) или L(f)>L(f) , а также местоположения биения на оси частот (300-2000гц). Выявлена зависимость L от разностной частоты f=f-f. Так, для f=100 гц, значение L, усредненное по показаниям нескольких аудиторов, составило 371 дБ. Для f=150 гц, L=331 дБ и для f=250 гц, L=311 дБ. По результатам измерений зависимость L от f аппроксимирована степенной регрессией L=122f, где Lвыражено в дБ. Таким образом, по известным значениям f, L и L(f) можно рассчитать порог слышимости биений L, возбуждаемых ДС. Например, для двухтонового сигнала, где L(f)>L(f), L(f)=75 дБ и f=150 гц, порог слышимости L составил 42 дБ.
В разделах 3 и 4 рассмотрены особенности формирования слухом распределения интенсивности биений I(z) и порога слышимости биений L(z). Эта работа создала необходимые предпосылки для расчёта удельной громкости биений N'(z). Казалось бы, для расчёта общей громкости биений в созвучии необходимо лишь проинтегрировать N'(z). Однако, реализация такой процедуры может привести к погрешностям в расчётах. Этот вывод следует из выявленного нами свойства слуха, имеющего непосредственное отношение к решаемой задаче. Свойство состоит в маскировке биений, возбуждаемых в высокочастотной области мембраны, со стороны биений, возбуждаемых в низкочастотной области мембраны. Таким образом, при интегрировании N' (z) желательно учесть и это свойство. По нашему мнению, необходимо оценить и погрешность расчёта общей громкости биений в гласных, возникающую из-за неучёта инерционных свойств СС, проявляющихся через известный эффект слухового впечатления.
Заключение.
По результатам работы, представленным в докладе, можно сделать следующий обобщающий вывод:
- отмечена более важная роль биений в формировании разностных тонов, по сравнению с квадратическими и кубическими продуктами нелинейности слуха;
- указано, что среди известных наиболее обоснован вариант возбуждения биений непосредственно на основной мембране внутреннего уха (под действием ДС);
- приведены результаты аппроксимации некоторых экспериментальных зависимостей, необходимых для расчета громкости тонов и биений;
- предложен способ расчета распределения интенсивности биений по высоте;
- предложен способ экспериментального определения порога слышимости биений;
- отмечена необходимость учета, при расчете общей громкости биений в гласных, эффекта маскировки между биениями;
- отмечена необходимость оценки также другой потенциальной погрешности в громкости биений в гласных, которая может появиться из-за неучёта инерционных свойств слуха.
Эти результаты, возможно, могут представлять интерес для специалистов, развивающих различные направления бионического подхода к анализу речи. Авторами же они использованы при разработке методов, алгоритмов и программных средств, предназначенных для моделирования процессов анализа речи в слуховой системе человека.
Литература.
- Egorov A.I., Dubrowsky V.V. On analysis of hearing patterns of speech signal. - Proceedings of electronic conference "Speech Synthesis and Analysis",1997. http:// ksu.ru/kazan/science/fccl /index.html.
- Егоров А.И., Дубровский В.В. О высоте гласных в речевом сигнале. - Труды Международного семинара ДИАЛОГ'2000 по компьютерной лингвистике и ее приложениям, Том 2, Протвино, 2000.
- Дубровский В.В., Егоров А.И. О спектрах гласных на периферии слуха. - Труды Международного семинара ДИАЛОГ'2001 по компьютерной лингвистике и ее приложениям, Том 2, , 2001.
- Позин Н.В., Любинский И.А. и др. Элементы теории биологических анализаторов. - М.: Наука, 1978.
- Цвиккер Э., Фельдкеллер Р. Ухо как приемник информации. - М.:
Связь, 1971.