Proceedings 2001

Contents

ГРОМКОСТЬ РАЗНОСТНЫХ ТОНОВ В ГЛАСНЫХ.

А.И.Егоров, В.В.Дубровский

Институт динамики систем и теории управления СО РАН

 

 

Введение.

Одной из характеристик речи, полезных для адекватного и эконом­ного описания слуховых образов речевого сигнала, является высота. Разными исследователями для интерпретации тех или иных эксперимен­тальных фактов предлагались различные варианты спектральных и вре­менных подходов к количественной оценке высоты. Нами также, при реализации бионического подхода к анализу речи [1], был предложен способ расчета высоты гласных, в котором необходимо использовать количественную оценку общей громкости разностных тонов в анализи­руемых созвучиях речи [2]. В докладе описан один из способов рас­чета громкости разностных тонов в гармонических созвучиях. Выбор гармонических созвучий обусловлен тем, что они обеспечивают наи­большую гибкость при разработке алгоритмов обработки гласных.

  1. Разностные тона в речевом сигнале.

Специалистам по психоакустике известно, что присутствие раз­ностных тонов в слуховых спектрах можно почувствовать через неко­торую "шероховатость" звука, часто ощущаемую, как сопровождающее звук тональное "жужжание" с разностной частотой. Влияние разност­ных тонов на слуховое восприятие высоты гармонических созвучий легко проиллюстрировать на следующем примере. На программном уров­не синтезировались два сигнала с приблизительно равными уровнями интенсивности (70 дБ) и одинаковой длительности (300 мс). Первый сигнал являлся тональным (700гц), второй - двухтоновым (600гц,800гц). Сигналы последовательно (через временной интервал в 1сек.) подавались на громкоговоритель, и аудиторам предлагалось сравнить их слуховые ощущения. Громкости сигналов оценивались, как почти равные, но слуховые ощущения принципиально отличались по вы­соте. Одной из причин такого отличия являлось влияние разностного тона на слуховое ощущение двухтонового сигнала (ДС). Этот вывод следовал из установленной нами закономерности, согласно которой, варьируя интенсивностью, частотой и взаимным расположением на час­тотной оси составляющих ДС, можно было существенно изменять гром­кость разностного тона. Изменение же громкости разностного тона в свою очередь приводило к изменению ощущения высоты созвучия.

Отметим, что дискуссию о механизме формирования слухом разност­ных тонов, по нашему мнению, до сих пор нельзя считать завершён­ной. Обычно, восприятие разностных тонов связывают с формированием в слуховой системе (СС) человека как комбинационных тонов, возни­кающих при спектральном разложении сигнала с нелинейными искажени­ями, так и биений. Однако, наши экспериментальные исследования [3] свидетельствуют о том, что в сопоставимых условиях биения играют более важную роль в слуховом восприятии разностных тонов по сравнению с квадратическими и кубическими продуктами  нелинейности слуха. Поэтому для расчета громкости разностных тонов в первую очередь необходимы знания о качественных и количественных закономерностях формирова­ния биений. Мы полагаем, что из нескольких известных вариантов ре­шения этой задачи наиболее обоснованным является подход, сформули­рованный в [3,4] и опирающийся на предположение о формировании би­ения непосредственно на основной мембране внутреннего уха (под воздействием ДС). Очевидно, что если рассматривать кратковременные спектры гармонических созвучий, как множество ДС, сдвинутых по от­ношению друг к другу на величину частоты основного тона, то меха­низм формирования биения при возбуждении слуха двухтоновым сигна­лом можно использовать и для расчета общей громкости биений (раз­ностных тонов) в гласных.

  1. О формировании слухом громкости сигналов.

Известно, что под воздействием тона - простейшего из акустичес­ких сигналов, барабанная перепонка СС совершает синусоидальные ко­лебания. Эти колебания через слуховые косточки среднего уха пере­даются на овальное окно внутреннего уха. Во внутреннем ухе тон, энергия которого сосредоточена на единственной составляющей спект­ра, вызывает возбуждение уже не точечного, а достаточно протяжен­ного участка основной мембраны СС. Распределение интенсивности возбуждения основной мембраны по высоте в этом случае обычно апп­роксимируется неравнобочной трапецией. Верхнее основание трапеции  (шириной в 1 барк) соответствует области основных возбуждений, для которой уровень возбуждения L совпадает с уровнем воздействия L с точностью до коэффициента передачи, учитывающего неравномерность амплитудно-частотной характеристики наружного и среднего уха в об­ласти частот выше 1 Кгц [5]. Здесь L=10lg(A/A) в дБ; A - интенсив­ность воздействия; A - начальная  (стандартная)  интенсивность воздействия. Боковые стороны трапеции  относятся к области побочных возбуждений. В этой области уровни возбуждения принято определять через пороги при маскировке, смещённые на вели­чину коэффициента  маскировки a. Здесь a=10lgS(дБ); S – определяется экспериментальным путем и представляет отношение интенсивности минимально воспринимаемого испытательного тона к ин­тенсивности  мешающего шума в данной частотной группе. Если преоб­разовать частотную шкалу (гц) в шкалу высоты Z (мел), то можно по­лучить семейство кривых уровней возбуждения L(z). Эти кривые об­ладают интересным свойством - их форма практически не зависит от высоты тона, воздействующего на СС, и, следовательно, разные се­мейства кривых могут быть почти полностью совмещены друг с другом путем их взаимного перемещения вдоль оси Z. Отмеченное свойство позволило нам аппроксимировать зависимости уровней возбуждения от высоты, приведенные в [5]. В результате для  левого склона  кри­вой уровней побочного возбуждения получено выражение

L(z)=L-31(z-z)  (дБ),

где z - высота левой границы кривой уровня основного возбуждения в (мел);

      L-  уровень основного возбуждения (дБ).

Для правого же склона уровней побочного возбуждения имеет место

 L(z)=L-21.20.879(z-z)  (дБ),

где z - высота правой границы кривой уровня основного возбуждения   в (мел).

Каждому значению интенсивности возбуждения I(z)=10 соответствует значение удельной громкости N'(z). Связь между I(z) и N'(z) описывается степенной зависимостью (закон Вебера - Фехне­ра). Согласно этой зависимости, относительное изменение величины слухового ощущения пропорционально относительному изменению соот­ветствующей величины раздражения. В общем случае N'(z) зависит от I(z), S(z), I(z) [5], где S(z) - пороговое число частотной груп­пы; I(z) - интенсивность тона, соответствующая абсолютному по­рогу слышимости L(z).

Нами выполнена также аппроксимация экспериментальной зависимости S(z) и для ее расчёта получены следующие соотношения:

При z200  S(z)=0.631.

При z>200  S(z)=0.631-17110(z-200)

Интегрирование выражения для N'(z) по z позволяет вычислить громкость чистого тона. Вышеприведённая схема формирования удель­ной громкости тона может быть использована и при расчёте громкости биений, возбуждаемых ДС (при условии внесения в схему изменений, учитывающих особенности формирования слухом распределений интенсив­ности и порога слышимости биений по высоте). Третий и четвёртый разделы доклада как раз и посвящены способам учёта этих особеннос­тей.

  1. Распределение интенсивности биений по высоте.

Согласно схеме формирования слухом громкости сигналов, при рас­чёте удельной громкости биения N'(z) должна быть известной зави­симость  интенсивности возбуждения биения I(z) при воздейс­твии на слух ДС. Способ расчёта I(z), изложен ниже.

Принято считать, что основная мембрана внутреннего уха состоит из упругих (предварительно напряжённых) поперечных волокон, не­жёстко связанных между собой. Вследствие связанности волокон, вол­новые процессы на мембране носят характер бегущей волны. Известно также, что при воздействии на СС тонального сигнала максимальная амплитуда давления в бегущей волне приходится на область мембраны, поперечные волокна которой наилучшим образом "настроены" на часто­ту тона. В результате на мембране образуется распределенная в пространстве возбуждённая область, колеблющаяся с частотой тона. О ней уже упоминалось при описании схемы формирования громкости. При воздействии на СС двухтонового сигнала, по основной мембране расп­ространяется бегущая волна, которую можно рассматривать в виде су­перпозиции двух волн. Реакцией мембраны на прохождение такой волны является появление на ней двух перекрывающихся в пространстве об­ластей возбуждения, каждая из которых колеблется на частоте возбу­дившей ее компоненты ДС. Таким образом, в области перекрытия воз­буждений, волокна мембраны одновременно участвуют в двух одинаково направленных гармонических колебаниях. При этом каждое волокно со­вершает результирующее негармоническое колебание с периодически изменяющейся амплитудой A(z,t) - биение. В соответствии с вывода­ми [5], наиболее вероятно, что в этом случае взаимодействие воз­буждений на мембране происходит по законам суммирования амплитуд. Следовательно, за период биения T= 1/(f-f) амплитуды A(z,t) изменяются в пределах

               от        A(z) = |A(z)-A(z)|

               до        A(z)=A(z)+A(z), где t - время; А(z), A(z) - соответс­твенно,   распределения  по высоте  амплитуд  колебаний волокон с час­тотами

 (f и f) составляющих ДС.

Интенсивность биения каждого волокна мембраны можно рассчитать с использованием зависимости от времени огибающей амплитудных зна­чений биения за его период T. Для случая, когда за начало отсчета времени принимается момент совпадения начальных фаз складываемых колебаний, эта зависимость определяется выражением

A(z,t)=2A(z)cos[(f-f)t],                                                       (1)

где A(z)=A(z)-A(z) - размах огибающей биения.

Очевидно, что если A(z)>A(z), то A(z)=2A(z),                                  (2) 

а если A(z)>A(z), то A(z)=2A(z).

Для распределения интенсивности I(z) биений, возбужденных ДС, справедливо следующее выражение:

                           I(z)=(1/T)(z,t)dt = 2A(z).

Таким образом, интенсивность биения волокна основной мембраны, возбужденного в СС двухтоновым сигналом, равна удвоенной величине квадрата размаха огибающей биения. Размах же огибающей определяет­ся по (2).

  1. Порог слышимости биений.

При расчете удельной громкости биений, возбуждаемых ДС, необ­ходимо использовать количественную оценку порога слышимости бие­ний. Как правило, за порог слышимости сигнала принимают уровень его интенсивности, при котором происходит скачкообразный переход СС из состояния "сигнал слышен" в состояние "сигнал не слышен" или наоборот. При восприятии одиночного тона порог его слышимости оп­ределяют при помощи распределения некоторого абсолютного порога слышимости по высоте. Более сложная ситуация в определении порогов слышимости возникает при восприятии слуховой системой ДС. В этой ситуации человек может одновременно слышать как тоновые составля­ющие ДС, так и образуемое слухом биение. В настоящее время принято считать, что пороги слышимости тонов из ДС, можно определить через так называемые пороги слышимости при маскировке (в слуховой систе­ме маскировка проявляется в изменении порога слышимости одного то­на под влиянием другого, обычно называемого маскёром).

 Отметим, что при формировании порогов слышимости при маскировке слуховая система, возбуждаемая ДС, использует следующие особенности маски­ровки: большее маскирующее действие низкочастотной составляющей по сравнению с высокочастотной; усиление маскировки при уменьшении частотного интервала между составляющими ДС; зависимость маскиров­ки от интенсивности маскёра.

Попытка распространить особенности схемы формирования порогов при маскировке на пороги слышимости биений показали, что законо­мерности формирования отмеченных порогов, по-видимому, существенно различаются. Некоторое представление об этих различиях можно полу­чить из следующего примера. Пусть на СС воздействует ДС, у которо­го L(f)>>L(f), где L(f),L(f) - соответственно, уровни интен­сивности его составляющих. Пока L(f) ниже абсолютного порога слы­шимости, слышен только маскёр (тон с частотой f). Если постепенно увеличивать уровень L(f), то сначала слышимым становится не сам второй тон, а биение с частотой f-f. И только при L(f), превы­шающем порог слышимости при маскировке, наряду с маскёром и биени­ем становится слышимым и измерительный тон с частотой f. Из этого примера следует , что при слуховом восприятии ДС порог слышимости измерительного тона намного выше порога слышимости биения. Таким образом, механизм формирования порогов слышимости при маскировке для определения порогов слышимости биений применять нельзя.

Задачу получения количественных оценок порогов слышимости бие­ний, возбуждаемых в СС двухтоновым сигналом, удалось решить при помощи способа, суть которого состоит в следующем. Программным пу­тем синтезировались два сигнала. Первый сигнал - тон с постоянным уровнем интенсивности, длительностью 300 мс. Второй - двухтоно­вый сигнал. Сигналы из компьютера подавались последовательно, че­рез паузу между ними в 1 секунду, на громкоговоритель, и аудиторам предлагалось сделать вывод об эквивалентности (неэквивалентности) слуховых ощущений сравниваемых сигналов. Исходные интенсивности составляющих ДС выбирались таким образом, чтобы слуховые ощущения тона и ДС не отличались, то есть выполнялось условие L>L, где L - порог слышимости биений; L - уровень интенсивности биений. Затем, при сохранении неизменной интенсивности тона с большим уровнем L(f), производилось ступенчатое увеличение интенсивности составляющей ДС с меньшим уровнем, и после каждого изменения ин­тенсивности сравнивались слуховые ощущения тона и ДС. Эта процеду­ра повторялась до появления четких различий в сравниваемых слухо­вых ощущениях.    В   итоге   фиксировалось    некоторое   пороговое    значениеL=L(f)-L(f), при котором биения еще не ощущались. При выпол­нении же условия L(f)-L(f)<L биения уже ощущались. Следова­тельно, значение L=L(f)-L можно принять за количественную оценку порога слышимости биений.

Экспериментальные исследования L показали, что его значение не зависит от уровня составляющей в ДС с максимальной интенсив­ностью, варианта распределения составляющих в ДС по интенсивности: L(f)>L(f) или L(f)>L(f) , а также местоположения биения на оси частот (300-2000гц). Выявлена зависимость L от разностной частоты f=f-f. Так, для f=100 гц, значение L, усредненное по показаниям нескольких аудиторов, составило  371 дБ. Для  f=150 гц, L=331 дБ и для f=250 гц, L=311 дБ. По результа­там измерений зависимость L от f  аппроксимирована степенной регрессией L=122f, где Lвыражено в дБ. Таким образом, по известным значениям f, L и L(f) можно рассчитать порог слышимости биений L, воз­буждаемых ДС. Например, для двухтонового сигнала, где L(f)>L(f), L(f)=75 дБ и f=150 гц, порог слышимости L составил 42 дБ.

В разделах 3 и 4 рассмотрены особенности формирования слухом распределения интенсивности биений I(z) и порога слышимости бие­ний L(z). Эта работа создала необходимые предпосылки для расчёта удельной громкости биений N'(z). Казалось бы, для расчёта общей громкости биений в созвучии необходимо лишь проинтегрировать N'(z). Однако, реализация такой процедуры может привести к пог­решностям в расчётах. Этот вывод следует из выявленного нами свойства слуха, имеющего непосредственное отношение к решаемой за­даче. Свойство состоит в маскировке биений, возбуждаемых в высоко­частотной области мембраны, со стороны биений, возбуждаемых в низ­кочастотной области мембраны. Таким образом, при интегрировании N' (z) желательно учесть и это свойство. По нашему мнению, необ­ходимо оценить и погрешность расчёта общей громкости биений в гласных, возникающую из-за неучёта инерционных свойств СС, прояв­ляющихся через известный эффект слухового впечатления.

Заключение.

По результатам работы, представленным в докладе, можно сделать следующий обобщающий вывод:

- отмечена более важная роль биений в формировании разностных то­нов, по сравнению с квадратическими и кубическими продуктами нели­нейности слуха;

- указано, что среди известных наиболее обоснован вариант возбуж­дения биений непосредственно на основной мембране внутреннего уха (под действием ДС);

- приведены результаты аппроксимации некоторых экспериментальных зависимостей, необходимых для расчета громкости тонов и биений;

- предложен способ расчета распределения интенсивности биений по высоте;

- предложен способ экспериментального определения порога слыши­мости биений;

- отмечена необходимость учета, при расчете общей громкости биений в гласных, эффекта маскировки между биениями;

- отмечена необходимость оценки также другой потенциальной пог­решности в громкости биений в гласных, которая может появиться из­-за неучёта инерционных свойств слуха.

Эти результаты, возможно, могут представлять интерес для специ­алистов, развивающих различные направления бионического подхода к анализу речи. Авторами же они использованы при разработке методов, алгоритмов и программных средств, предназначенных для моделирова­ния процессов анализа речи в слуховой системе человека.

Литература.

  1. Egorov A.I., Dubrowsky V.V. On analysis of hearing patterns of speech signal. - Proceedings of electronic conference "Speech Synthesis and Analysis",1997. http:// ksu.ru/kazan/science/fccl /index.html.
  2. Егоров А.И., Дубровский В.В. О высоте гласных в речевом сигна­ле. - Труды Международного семинара ДИАЛОГ'2000 по компьютерной лингвистике и ее приложениям, Том 2, Протвино, 2000.
  3. Дубровский В.В., Егоров А.И. О спектрах гласных на периферии слуха. - Труды Международного семинара ДИАЛОГ'2001 по компьютерной лингвистике и ее приложениям, Том 2, , 2001.
  4. Позин Н.В., Любинский И.А. и др. Элементы теории биологических анализаторов. - М.: Наука, 1978.
  5. Цвиккер Э., Фельдкеллер Р. Ухо как приемник информации. - М.:

Связь, 1971.