рефераты бесплатно
Рефераты бесплатно, курсовые, дипломы, научные работы, курсовые работы, реферат, доклады, рефераты, рефераты скачать, рефераты на тему, сочинения,рефераты литература, рефераты биология, рефераты медицина, рефераты право, большая бибилиотека рефератов, реферат бесплатно, рефераты авиация, рефераты психология, рефераты математика, рефераты кулинария, рефераты логистика, рефераты анатомия, рефераты маркетинг, рефераты релиния, рефераты социология, рефераты менеджемент и многое другое.
ENG
РУС
 
рефераты бесплатно
ВХОДрефераты бесплатно             Регистрация

Реферат: Кодеры речи  

Производительность алгоритмa. Вокодеры частот выполняются на основе цифровых сигнальных процес­соров (ЦСП). В соответствии с ком­пьютерной терминологией их произво­дительность может быть измерена в млн. операций в секунду, объеме па­мяти с произвольным доступом ОЗУ и объеме ПЗУ. Производительность определяет стоимость вокодера, поэто­му при определении типа вокодера для тех или иных приложений разработ­чик должен сделать соответствующий выбор. В случаях, когда вокодер со­вместно использует процессор с дру­гими приложениями, разработчик дол­жен решить, сколько ресурсов мож­но выделить для вокодера. Вокодеры, использующие менее 15 млн. опера­ций/с, считаются низкопроизводитель­ными. Использующие 30 или более млн. операций/с высокопроизводи­тельными.

Увеличение производительности приводит к увеличению стоимости и большим затратам энергии. Энерге­тические затраты важны для прило­жений в портативной аппаратуре, так как при больших затратах энергии со­кращается время между подзарядками батарей или возникает необходимость использовать батареи большей емко­сти, что, в свою очередь, приводит к большей цене и весу.

При синтезе и исследовании по­лосных вокодеров и полосных вокоде­ров с ЛПК используются различные модели речевого процесса. Наиболее точная модель речи представляет со­бой нестационарный случайный про­цесс с медленно меняющейся дисперси­ей и спектральной плотностью. При использовании подобной модели мож­но получить наиболее точный резуль­тат оценки качества вокодера.

Ортогональные вокодеры

Речевой сигнал  можно промо­делировать откликом на возбуждаю­щий сигнал линейной системы с им­пульсной характеристикой  с пере­менными параметрами, так что выход­ной сигнал  равен свертке возбу­ждающего сигнала и импульсного от­клика голосового тракта при условии, что форма голосового тракта неизмен­на.

Все разнообразие звуков получа­ется путем изменения формы голосо­вого тракта. Если форма голосового тракта изменяется медленно, то на ко­ротких временных интервалах аппрок­симация выходного сигнала сверткой возбуждающего сигнала и импульсно­го отклика голосового тракта справед­лива.  Если на коротком отрезке вре­мени входной сигнал является перио­дическим, с постоянной входной часто­той, то выходной сигнал также являет­ся периодическим. Такая модель спра­ведлива для описания звонких звуков. Аналогично временному, преобразова­ние речи может быть описано в частот­ной области, поскольку преобразова­ние Фурье речевого сигнала равно про­изведению преобразований Фурье воз­буждающего сигнала и импульсного отклика голосового тракта.

Частотная характеристика голо­сового тракта является гладкой функ­цией частоты и характеризуется аку­стическими резонансами, называемы­ми формантными частотами.

Поскольку при изменении различ­ных звуков форма голосового тракта изменяется, то с течением времени бу­дет изменяться и огибающая спектра речевого сигнала. Так, в частности, при изменении периода сигнала, воз­буждающего звонкие звуки, частотный разнос между гармониками спектра бу­дет также изменяться.

Таким образом, для адекватного описания речевого сигнала надо не только знать вид его спектра, но и то, как он изменяется во времени.

Основным параметром речевого сигнала, возбуждающего звонкий звук, является разнос гармоник основно­го тона, а характеристики голосового тракта достаточно полно определяют­ся частотами формант.

Изложенное позволяет сделать вывод об удобстве частотного метода описания и преобразования речевых процессов на основе кратковременно­го спектрального анализа.

Рассмотрим основные принципы, положенные в основу построения орто­гональных вокодеров.

Запишем кратковременное пре­образование Фурье  дискретизированного речевого процесса  в виде

                                                                  (2.1)

Здесь  весовая функция, сдвига­емая во времени.

Соотношение (2.1) может быть пе­реписано в двух формах. Первая фор­ма имеет вид свертки

                                                                      (2.2)

где – обозначает свертку.

Реализация (2.2) может быть представлена в виде рис. 2.2,а и озна­чает, что спектр речевого процесса со­ответствует свертке весовой функции  с сигналом , промодулированным колебанием .

Другая форма записи (2.1) получается, если ее переписать в виде

                      (2.3)

Система (2.3) может быть реализована в виде, представленном на рис. 2.2,б и означает преобразование речевого сигнала  полосовым фильтром центральной частотой ω и импульсной характеристикой .

Реализации, представленные на рис. 2.2,а,б, отличаются тем, что первом случае используется цифровой фильтр нижних частот с импульсной характеристикой , а во втором – полосовой фильтр, что удобно при параллельном измерении  на нескольких частотах ω.

Используя алгоритмы БПФ, оценку кратковременного преобразования Фурье на равноотстоящих частотах  можно записать в виде

                                                               (2.4)

где

Формулу (2.4) можно преобразовать к виду

где

                                                                                    (2.5)

можно рассматривать как характери­стику комплексного ПФ с центральной частотой .

Исходный речевой сигнал  можно восстановить, сложив сигналы

на всех выходах гребенки ПФ так, что

                                                      (2.6)

Формула (2.4) является осно­вополагающим уравнением анализа с кратковременным преобразованием Фурье, а формула (2.6) – основным уравнением синтезатора.

Гомоморфные вокодеры

В основе гомоморфных вокодеров лежит метод нелинейной (гомоморфной) фильтрации. Общая структу­ра гомоморфных систем, предназначенных для инверсной фильтрации речевых сообщений, представлена на рис. 2.4.

Свойства системы  определяется соотношением , где и – Z-преобразования  и  соответственно.

Сигнал на выходе системы  обычно называют комплексным кепстром. Система  является линейной, а система  – обратной к системе .

Удобства подобных преобразова­ний для анализа и синтеза рече­вых процессов обусловлены рядом свойств комплексного кепстра. В част­ности: комплексный спектр последова­тельностей, имеющих Z-преобразование, в основном сосредоточен вблизи нуля; последовательность, состоящая из равноотстоящих импульсов, имеет комплексный кепстр того же вида; для вычисления комплексного кепстра последовательности с мини­мальной фазой можно обойтись ло­гарифмом действительной, а не ком­плексной функции.

Выше было показано, что отрез­ки речевых сигналов могут быть пред­ставлены откликом линейной системы.

Так, в случае звонких звуков возбу­ждаемый сигнал имеет вид последова­тельности импульсов. В случае глу­хих звуков возбуждающий сигнал мо­жет быть смоделирован в виде шума.

Обычно предполагают, что пере­даточная функция линейной системы, имитирующей голосовой тракт, опи­сывается рациональной функцией Z. В результате, согласно перечисленным выше свойствам кепстра, комплексный кепстр импульсного отклика голосово­го тракта сосредоточен вблизи нуля.

В случае звонкого звука комплекс­ный кепстр возбуждающего сигнала состоит из импульсов, повторяющихся с периодом основного тона. То есть в случае звонкой речи комплексные кепстры возбуждающего сигнала и им­пульсного отклика голосового тракта занимают неперекрывающиеся времен­ные сигналы и могут быть извлечены из общего кепстра с помощью линей­ной системы L.

Механизм восстановления речево­го сигнала с помощью кепстров может быть пояснен следующим образом.

Поскольку спектр звонкого звука формируется умножением огибающей, характеризующей состояние голосово­го тракта, на функцию, описывающую тонкую структуру спектра возбужда­ющего сигнала, то логарифм спектра равен сумме логарифмов огибающей спектра и спектра возбуждающего сиг­нала.

Логарифм спектра возбуждающе­го сигнала изменяется с ростом часто­ты гораздо быстрее логарифма огиба­ющей спектра. Кроме того, он пери­одичен. В результате обратное пре­образование Фурье от логарифма оги­бающей спектра сконцентрировано по оси времени вблизи нуля, в то вре­мя как обратное преобразование от ло­гарифма спектра возбуждающего сиг­нала является линейчатым, отража­ющим его периодичность в частотной области.

Для выделения логарифма огиба­ющей спектра из полного спектра ло­гарифма его «взвешивают» окном, от­крытым только в начальном участке кепстра (вблизи нуля). Эту процедуру называют «сглаживанием кепстра».

В системе анализа-синтеза, осно­ванной на гомоморфной фильтрации, начальные значения кепстра служат параметрами, описывающими состоя­ние голосового тракта или огибающую спектра речевого процесса.

Значения кепстра при больших значениях времени используются для оценки параметров возбуждающего сигнала.

Таким образом, основная идея го­моморфной обработки заключается в разделении или обратной свертке сег­мента речевого сигнала с компонента­ми, представляющими собой импульс­ную характеристику и источник возбу­ждения. Это достигается путем линей­ной фильтрации обратного преобразо­вания Фурье логарифма спектра сигна­ла (кепстра). Гомоморфные вокодеры, как и любые другие вокодеры, в ко­торых осуществляется разделение па­раметров речи на сигнал возбуждения и параметры речевого тракта, позволя­ют достигнуть малой скорости переда­чи и дополнительной гибкости при об­работке речи ценой усложнения алго­ритмов преобразований.

Кодирование с линейным предсказанием (LPC — Linear Predictive Coding). Рекомендации G.728, G.729, G.723

При кодировании с линейным предсказанием моделируются различные параметры человеческой речи, которые передаются вместо отсчетов или их разности, требующих значительно большей пропускной способности канала. Следует заметить, что буферы, необходимые для хранения потоков данных, увеличивают задержку кодирова­ния.

Первые реализации LPC, такие как LPC-вокодер, были предназначены ля передачи данных на низких скоростях – 2,4 и 4,8 кбит/с. На скорости 2,4 кбит/с обеспечивался приемлемый уровень разборчивости речи, однако качество, естественность и узнаваемость речи недостаточны. Поскольку этот метод сильно зависит от точного воспроизведения человеческой речи, его реализации, такие как LPC-вокодер, не подходят для сигналов неречевого происхождения, например сигналов модема.

Широко используемый в настоящее время метод кодирования с линейным предсказанием работает с блоками отсчетов, для каждого из которых вычисляется и передается частота основного тона, его амплитуда и информация о типе возбуждающего воздействия.

Структура синтезатора речи с линейным  предсказанием  показана  на рис. 2.5. Здесь управляющий вход или сигнал возбуждения смоделирован в виде последовательности импульсов на частоте основного тона (для вокализо­ванной речи) или случайный шум (для невокализированной речи).

Комбинированные спектральные составляющие потока от голосовых связок, голосового тракта и звукообра­зования за счет губ могут быть пред­ставлены цифровым фильтром с изме­няющимися параметрами и передаточ­ной функцией

             (2.7)

где

Параметрами, характеризующими голосовой тракт, являются коэффици­енты знаменателя и масштабный мно­житель G.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11


© 2010.