рефераты бесплатно
Рефераты бесплатно, курсовые, дипломы, научные работы, курсовые работы, реферат, доклады, рефераты, рефераты скачать, рефераты на тему, сочинения,рефераты литература, рефераты биология, рефераты медицина, рефераты право, большая бибилиотека рефератов, реферат бесплатно, рефераты авиация, рефераты психология, рефераты математика, рефераты кулинария, рефераты логистика, рефераты анатомия, рефераты маркетинг, рефераты релиния, рефераты социология, рефераты менеджемент и многое другое.
ENG
РУС
 
рефераты бесплатно
ВХОДрефераты бесплатно             Регистрация

Реферат: Кодеры речи  

Все методы кодирования, основанные на определенных предположениях о форме сигнала, плохо работают в ситуации, когда сигнал может передаваться с резкими скачками амплитуды. Именно такой вид имеет аудиосигнал, генерируемый модемам или факсимильными аппаратами. Современные системы обмена информацией, поддерживающие цифровые ли­нии связи, умеют распознавать фак­симильный обмен и передают соответ­ствующие сигналы непосредственно в цифровом виде, не преобразуя их в ау­диосигнал.

Нелинейный 15-уровневый адаптивный квантователь используется для квантования разностного сигна­ла . Перед квантованием сигнал  логарифмируется по основанию 2 и масштабируются посредством коэф­фициента , который вычисляется с помощью блока адаптации масштаб­ного коэффициента.

Для определения квантованного уровня используются четыре дво­ичных символа (три для амплитуды и один для знака). Четырехбитовый вы­ход квантователя  образует выход­ной цифровой сигнал со скоростью 32 кбит/с, который одновременно подает­ся на инверсный адаптивный кванто­ватель и блок управления скоростью адаптации масштабного коэффициента квантователя.

Квантованная версия разностного сигнала формируется путем мас­штабирования с использованием спе­циальной величины , выделяемой из нормализованной характеристики квантователя, и дальнейшей транс­формации результата из логарифмиче­ского представления.

Блок адаптации масштабного ко­эффициента квантователя вычисляет  — масштабный коэффициент для квантователя и инверсного квантовате­ля. На его входы подаются четырехби­товые выходные сигналы квантователя  и параметр управления скоростью адаптации .

Основной принцип, реализуемый при масштабировании, заключается в бимодальной адаптации:

быстрой – для сигналов (напри­мер, речевых), которые дают разност­ные сигналы с большими флуктуациями;

–медленной для сигналов (например, данных в диапазоне тональ­ных частот, тонов), которые дают разностные сигналы с малыми флуктуациями.

Управление скоростью адаптации производится с помощью комбинации быстрого и медленного масштабных коэффициентов.

Быстрый (нефиксированный) масштабный коэффициент  вычисляется рекурсивно в логарифмиче­ском представлении с основанием 2 из результирующего логарифмическо­го масштабного коэффициента:

                                                              (1.6)

Как правило,  лежит в пределах . Дискретная функция определяется таблич­ным образом. Множитель (1 – 2-5) вводит ограниченную память в процесс адаптации таким образом, что состо­яния кодера и декодера сходятся при ошибках передачи.

Медленный (фиксированный) мас­штабный коэффициент  получа­ется из  с помощью операции фильтрации нижних частот:

                                                            (1.7)

Затем быстрый и медленный мас­штабные коэффициенты объединяются для получения результирующего мас­штабного коэффициента:

                                                    (1.8)

где .

Управление скоростью адапта­ции. Предполагается, что управляю­щий параметр  может принимать значения в диапазоне [0, 1]. Для рече­вых сигналов он стремится к единице, Для сигналов, данных в диапазоне то­нальных частот и одночастотных сигналов он стремится к нулю. Величи­на коэффициента определяется мерой скорости изменения величины разност­ного сигнала.

Адаптивный предсказатель и калькулятор восстановленного сигна­ла. Первоначальная функция ада­птивного предсказателя заключается в вычислении оценки  разностного сигнала . Используются две структуры адаптивного предсказате­ля – каскад первого порядка, модели­рующий нули, и каскад второго поряд­ка, моделирующий полюсы во входном сигнале.

Детектор тона и перехода. С целью улучшения рабочих характери­стик для сигналов, поступающих с вы­ходов модемов с частотной манипуля­цией, работающих в режиме кодовых комбинаций, определен двухступенча­тый процесс декодирования. Снача­ла производится детектирование сиг­нала с ограниченной полосой (напри­мер, тона), в результате чего квантова­тель может быть переведен в быстрый режим адаптации.

Упрощенная и развернутая струк­турные схемы декодера АДНКМ при­ведены на рис. 1.6,а и 1.7,б соответ­ственно. Декодер включает схему, идентичную цепи обратной связи коде­ра, преобразователь линейной ИКМ в сигнал по законам А или μ и устрой­ство установки синхронного кодирова­ния.

Устройство установки синхрон­ного кодирования предотвращает нако­пление искажений, имеющих место при синхронном последовательном кодиро­вании (АДИКМ-ИКМ-АДИКМ, дру­гие цифровые соединения). Установ­ка синхронного кодирования достига­ется путем подстройки проходного ко­да ИКМ таким образом, чтобы попы­таться устранить искажения квантова­ния в следующем каскаде кодирования АДИКМ.

Функции основных блоков декоде­ра и кодера совпадают и поэтому ниже не рассматриваются.


Вокодеры

Вокодер (от английских слов voice – голос и coder – кодировщик) пред­ставляет собой устройство, осуще­ствляющее параметрическое компандирование речевых сигналов. Ком­прессия речевых сигналов на переда­ющем конце канала связи производит­ся в анализаторе, выделяющем из ре­чевого сигнала медленно меняющиеся составляющие, которые передаются по каналу связи в виде кодовых посылок. На приемном конце с помощью мест­ных источников сигналов, управляе­мых принятыми параметрами, синте­зируется речевой сигнал.

Работа вокодеров основана на моделировании человеческой речи с учетом ее характерных особенностей. Вместо непосредственного измерения амплитуды вокодер преобразует вход­ной сигнал в некий другой, похожий на исходный. Причем измеряемые харак­теристики речевого сигнала использу­ются для подгонки параметров в при­нятой модели речевого сигнала. Имен­но эти параметры и передаются прием­нику, который по ним восстанавливает исходный речевой сигнал. По суще­ству, речь идет о синтезе речи. Есте­ственно, что измерение искажений от­ношения сигнал/шум бесполезно для вокодеров, и, следовательно, необхо­димы другие субъективные оценки, та­кие, как средняя экспертная оценка, диагностический рифмованный тест, диагностическая оценка приемлемости и др. Вокодеры можно разделить на два класса: речеэлементные и параметри­ческие.

В речеэлементных вокодерах при передаче распознаются произне­сенные элементы речи (например, фо­немы) и передаются только их но­мера. На приеме эти элементы со­здаются по правилам речеобразования или берутся из памяти устройства. Область применения фонемных воко­деров – линии командной связи, ре­чевое управление и говорящие автома­ты информационно-справочной служ­бы. Практически в таких вокодерах происходит автоматическое распозна­вание слуховых образов, а не опреде­ление параметров речи.

В параметрических вокодерах из речевого сигнала выделяют два ти­па параметров:

параметры, характеризующие оги­бающую спектра речевого сигнала, (фильтровую функцию);

параметры, характеризующие ис­точник речевых колебаний (генератор­ную функцию), – частота основного тона, ее изменение во времени, момен­ты появления и исчезновения основно­го тона, шумового сигнала.

По этим параметрам на приеме синтезируют речь.

По принципу определения параме­тров фильтровой функции речи разли­чают вокодеры:

полосные канальные (channel);

формантные;

ортогональные;

липредеры (с линейным предска­занием речи);

гомоморфные.

В полосных вокодерах спектр речи делится на 7-20 полос (каналов) аналоговыми или цифровыми полосо­выми фильтрами. Большее число ка­налов в вокодере дает большую нату­ральность и разборчивость. С каждо­го полосового фильтра сигнал поступа­ет на детектор и фильтр низких частот с частотой среза Fcp. Таким образом, сигналы на выходе каждого канала из­меняются с частотой менее Fcp. Их пе­редача возможна в аналоговом или ци­фровом виде.

В формантных вокодерах оги­бающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант – центральная частота, амплитуда и ширина полосы частот.

В ортогональных вокодерах огибающая мгновенного спектра рас­кладывается в ряд по выбранной си­стеме ортогональных базисных функ­ций. Вычисленные коэффициенты это­го разложения передаются на прием­ную сторону. Распространение полу­чили гармонические вокодеры, исполь­зующие разложение в ряд Фурье.

Вокодеры с линейным пред­сказанием (LPC — Linear Prediction Coding, или липредеры, основаны на оригинальном математическом аппа­рате. Они получили наибольшее рас­пространение и будут ниже рассмотре­ны более подробно.

Гомоморфная обработка позво­ляет разделить генераторную и филь­тровую функции, образующие речевой сигнал.

Из-за сложности определения па­раметров генераторной функции по­явились полувокодеры (VE — Voice Excited Vocoder), в которых вместо сигналов основного тона и тон-шума используется полоса речевого сигна­ла. Полоса частот до 800. .. 1000 Гц кодируется АДИКМ, АДМ (адаптивная дельта модуляция) или с помощью линейного предсказания малого порядка, а в некоторых моделях передается в аналоговом виде. Известны разные типы полувокодеров-липредеров: VELP — Voice Excite Linear Prediction; RELP — Residue Excited Linear Prediction.

Вокодеры VELP используют голосовое возбуждение и коэффициент линейного предсказания (КЛП). В вокодерах RELP по исходному сигнал также вычисляются КЛП. Так как КЛП описывает фильтровую функцию, то сигнал ошибки (остатка) предсказания содержит информацию о генераторной функции речи и передается на приемную сторону (возможно ее сжатие методами АДИКМ, АДМ или помощью линейного предсказания малого порядка).

Характеристики вокодеров. Качество речи вокодеров являет функцией скорости передачи, производительности и задержки обработки. Если вокодеры предназначены для телефонии по Интернет, разработчики продукции должны учитывать эти характеристики, между которыми существует строгая зависимость. Например, низкоскоростные вокодеры обычно имеют большую задержку и более низкое качество речи, чем высокоскоростные.

Скорость. Так как вокодер совместно использует канал связи и часто перегруженную сеть предприятия или Интернет с другими информационными потоками, максимальная скорость должна была бы быть как можно ниже, особенно для приложений малых офисов. В настоящее время большинство вокодеров работают на фиксированной скорости вне зависимости от характеристик входного сигнала, однако целью современных разработок являются вокодеры с переменной скоростью. Для приложений по одновременной передаче речи и дан­ных компромиссом является создание алгоритмов сжатия пауз в качестве части стандарта кодирова­ния. Общим решением является ис­пользование фиксированной скорости для речи и низкой скорости для фо­новых шумов. Способ выполнения ме­ханизма сжатия пауз важен для повы­шения качества передачи речи, одна­ко часто выигрыш от компрессии пауз не реализуется. Проблемой является то, что при больших фоновых шумах сложно провести различия между ре­чью и шумом. Другая проблема за­ключается в том, что если механизм сжатия пауз неправильно выявил состояние речи, начало речи может быть «отрезано», что значительно ухудшает разборчивость кодированной речи.

Алгоритм Описание
Детектор активности речи (VAD) Определяет, является ли входной сигнал речью или фоновым шумом. Если сигнал считается речью, он кодируется на полной фиксированной скорости; если сигнал считается шумом, он кодируется на более низкой скорости
Генерация комфортного шума Механизм действует на стороне приемника для воссоздания основной характеристики фонового шума

Способ генерации комфортного пума должен быть таким, чтобы кодер и декодер оставались синхронизи­рованными, даже если в течение некоторого интервала времени передача данных не осуществляется. Это позволяет сгладить переходы между сегментами активной и неактивной речи.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11


© 2010.