рефераты бесплатно
Рефераты бесплатно, курсовые, дипломы, научные работы, курсовые работы, реферат, доклады, рефераты, рефераты скачать, рефераты на тему, сочинения,рефераты литература, рефераты биология, рефераты медицина, рефераты право, большая бибилиотека рефератов, реферат бесплатно, рефераты авиация, рефераты психология, рефераты математика, рефераты кулинария, рефераты логистика, рефераты анатомия, рефераты маркетинг, рефераты релиния, рефераты социология, рефераты менеджемент и многое другое.
ENG
РУС
 
рефераты бесплатно
ВХОДрефераты бесплатно             Регистрация

Реферат: Кодеры речи  

Индекс в книге векторного квантования (VQ) возбуждения представляет собой единственную информа­цию, которая в явной форме переда­ется из кодера в декодер. Три других типа параметров: уровень сигналa возбуждения, коэффициенты синтезирующего фильтра и коэффициенты взвешивающего фильтра, учитыва­ющего восприятие, обновляются пери­одически. Эти параметры получаются путем адаптации по выходу из сигна­лов, которые появляются до текуще­го вектора сигнала. Уровень сигнала возбуждения обновляется для каждого вектора, а коэффициенты взвешиваю­щего фильтра, учитывающего воспри­ятие, и коэффициенты синтезирующе­го фильтра обновляются для каждых четырех векторов (т.е. для каждых 20 отсчетов или для периода обновления длительностью 2,5 мс). Следует отме­тить, что хотя последовательность об­работки в алгоритме имеет цикл ада­птации, равный четырем векторам (20 отсчетов), емкость основного буфера составляет только один вектор (пять отсчетов). Такая малая емкость буфе­ра позволяет получить задержку при передаче в одном направлении менее 2 мс.

Многополосное кодирование и кодирование с адаптивным преобразованием

Среди методов кодирования с ча­стотным разбиением известны две тех­нологии: многополосное кодирова­ние — SBC (Sub-Band Coding) и ко­дирование с адаптивным преобразо­ванием АТС (Adaptive Transform Coding). Основной принцип обеих схем — разделение спектра входного на несколько частотных поддиапазо­нов (полос), которые затем кодируют­ся отдельно. В SBC набор фильтров выполнен так, что разбивает входной речевой сигнал обычно на 4-16 широ­ких частотных поддиапазонов (широ­кополосный анализ). В АТС для обес­печения более точных частотных пока­зателей число поддиапазонов увеличе­но до 128-256 (узкополосный анализ).

Многополосное кодирование обыч­но рассматривается как метод коди­рования формы сигнала, который ис­пользует широкополосный кратковре­менный анализ и синтез. После раз­деления речевого спектра на несколь­ко поддиапазонов низшая частота ка­ждого из них приводится к нулю, затем поддиапазон дискретизируется в соот­ветствии с  частотой  Найквиста (минимальной частотой дискретизации), квантуется, кодируется, мультиплек­сируется и передается. В приемнике поддиапазоны демультиплексируются, декодируются и переводятся обратно в их частотные позиции. Результи­рующие сигналы поддиапазонов затем складываются для получения аппрок­симированного исходного речевого сиг­нала.


Глава 2 IP-телефония

Основные стандарты кодирования речи, применяемые в 1Р-телефонии, приведены в табл. 4.1.

Таблица 4.1

Стандарты ITU-T по кодированию речи, применяемые в IP-телефонии

Стандарт Описание
G.711

Импульсно-кодовая модуляция 64 кбит/с (ИКМ) (А-закон и μ-закон)

G.722 Широкополосные кодеры, работающие на скорости 64, 56 или 48 кбит/с
G.726 Рекомендации по кодерам АДИКМ, которые охватывают G721 и G723
G.727 АДИКМ, работающие на скоростях 40, 32, 24 или 16 кбит/с
G.728 Вокодеры с линейным предсказанием,  с кодовым возбуждением, с низкой задержкой, скорость 16 кбит/с (LD-CELP)
G.729 Вокодеры с линейным предсказанием, с алгебраическим кодовым возбуждени­ем, с сопряженной структурой, скорость 8 кбит/с (CS-ACELP)
G.723.1 Низкоскоростные вокодеры для связей мультимедиа, работающие на скорости 6,3 и 5,3 кбит/с

Каждая из при­веденных в таблице рекомендаций ITU может служить основой для передачи речи по Интернету и другим сетям, так как все они обеспечивают низкие ско­рости передачи и достаточно просты в реализации персональным компьюте­ром или в микропроцессорном исполне­нии.

Основной целью проектирования кодеров является уменьшение скоро­сти передачи речи при безусловном сохранении требуемого уровня каче­ства речи для конкретного приложе­ния. Приложения по передаче речи в Интернет или Интранет могут быть либо самостоятельными, либо в фор­ме мультимедиа. Так как мультиме­диа подразумевают наличие несколь­ких средств кодирования речи, для та­ких приложений подразумевается, что поток речевых данных передается по линии связи совместно с другими сиг­налами. Некоторые из таких приложе­ний могут включать:

одновременную передачу речи и видео;

приложения с одновременной ци­фровой передачей речи и данных (DSVD);

одновременную передачу речи и факса.

Особенности функционирования каналов для передачи речевых данных и прежде всего сети Интернет, а также возможные варианты построения си­стем телефонной связи на базе Интер­нет предъявляют ряд специфических требований к речевым кодерам (воко­дерам). Благодаря пакетному прин­ципу передачи и коммутации речевых данных отпадает необходимость коди­рования и синхронной передачи оди­наковых по длительности фрагментов речи.

Наиболее целесообразным и есте­ственным для систем IP-телефонии является применение кодеров с пере­менной скоростью кодирования рече­вого сигнала. В основе кодера речи с переменной скоростью лежит класси­фикатор входного сигнала, определя­ющий степень его информативности и, таким образом, задающий метод коди­рования и скорость передачи речевых данных. Наиболее простым классифи­катором речевого сигнала является де­тектор активности речи (VAD — Voice Activity Detector), который выделяет во входном речевом сигнале активную речь и паузы. При этом фрагменты сиг­нала, классифицируемые как актив­ная речь, кодируются каким-либо из известных алгоритмов (как правило, методом CELP) с типичной скоростью 4…8 кбит/с. Фрагменты, классифи­цированные как паузы, кодируются и передаются с очень низкой скоростью (порядка 0,1.. .0,2 кбит/с) или не пере­даются вообще. Передача минималь­ной информации о паузных фрагмен­тах предпочтительна.

С помощью более эффективных классификаторов входного сигнала мо­жет более детально осуществляться классификация фрагментов, соответ­ствующих активной речи. Это позво­ляет оптимизировать выбор стратегии кодирования (скорости передачи дан­ных), выделяя для особо ответствен­ных за качество речи участков рече­вого сигнала большее число бит (соответственно большую скорость), для менее ответственных меньше бит (меньшую скорость). В результате мо­гут быть достигнуты еще более низкие средние скорости (2...4 кбит/с) при высоком качестве синтезируемой речи.


Передатчик состоит из кодера речи, VAD, усреднителя фоновых шумов и переключателя на канал, который управляется выходом VAD. Когда на вход есть речь, передатчик постоянно включен. Во время пауз передатчик выключается, но после определенного времени, которое должно быть достаточно коротким, передатчик снова включается на один фрейм, чтобы передать информацию о среднем фоне для точного генерирования в приемнике комфортного шума. На приемной стороне, если определено наличие речи, происходит нормальный синтез. Если определено наличие паузы, выполняется одно из двух действий. Если не передается новой информации о фоне, используются существующие параметры шума, генерируется комфортный шум и используется для текущего фрейма. Если передаются новые параметры фонового шума, то старые параметры заменяются на вновь декодированные, а за тем генерируется новый комфортный шум. Обычно, на стороне декодера также используется индикатор «хоро­ший/плохой» фрейм, чтобы показать верны или нет декодированные пара­метры, и если нет, используется заме­на фрейма. Эффективность DTX зависит от точности VAD.

Кодеры стандарта D-AMPS

Цифровой стандарт мобильной ра­диосвязи D-AMPS (Digital Advanced Mobile Phone Service), принятый в США в 1990 г., по своим функциональ­ным возможностям и предоставляе­мым услугам приближается к стандар­ту GSM. Стандарт D-AMPS не принят в европейских странах, за исключени­ем России, где он в основном ориенти­рован на региональное использование.

Блок предварительной обработки выполняет следующие функции:

предварительную цифровую фильтрацию входного сигнала с целью подъема верхних частот, на долю кото­рых в спектре речевого сигнала прихо­дится меньшая мощность;

«нарезание» сигнала на сегменты по 160 выборок (20 мс).

Для каждого 20-мс сегмента оце­ниваются параметры фильтра кратко­временного линейного предсказания – 10 коэффициентов частичной корреля­ции ,  (порядок предсказа­ния М = 10), которые непосредствен­но кодируются для передачи в канал связи без каких-либо дополнительных преобразований, и оценивается ампли­тудный множитель р, определяющий энергию сегмента речи.

Сигнал с выхода предваритель­ной обработки фильтруется фильтром-анализатором кратковременного ли­нейного предсказания A(z), имеюще­го форму трансверсального линейного фильтра, для чего коэффициенты ча­стичной корреляции  преобразуются в коэффициенты линейного предсказа­ния .

Выходной сигнал фильтра крат­ковременного предсказания (остаток предсказания ) используется для оценки параметров фильтра  дол­говременного предсказания – задерж­ки τ и коэффициента предсказания , причем параметры долговременного предсказания оцениваются в отдель­ности для каждого из четырех подсегментов по 40 выборок, на которые раз­деляется сегмент из 160 выборок.

Для каждого из подсегментов определяются параметры сигнала воз­буждения. Для этого в составе коде­ра используется схема, аналогичная входящей в состав декодера, которая включает фильтры-синтезаторы крат­ковременного и долговременного  предсказания и две кодовые кни­ги и реализует метод «анализа-через-синтез». Каждая из кодовых книг сиг­нала возбуждения содержит 128 кодо­вых векторов, по 40 элементов в ка­ждом.

Все кодовые векторы одной книги являются элементами 7-мерного линейного подпространства в 40-мерном пространстве. Каждая кодовая книга, содержащая 128 векторов, задается семью базисными векторами и 128 кодовыми словами (7-элементными векторами коэффициентов линейных комбинаций) с однобитовыми элементами.

Сигнал возбуждения фильтр синтезатора кратковременного предсказания, в соответствии со схемой декодера рис. 5.4, является суммой векторов возбуждения из двух кодовых книг и вектора с выхода фильтра синтезатора долговременного предсказания. Векторы возбуждения из кодовых книг до подачи на сумматор умножаются на соответствующие коэффициенты усиления  и , а входным сигналом фильтра-синтезатора долговременного предсказания является, в зависимости от участка сегмента, выходной сигнал того же фильтр или суммарный сигнал возбуждения фильтра-синтезатора кратковременно­го предсказания. Параметры сигна­ла возбуждения – номера векторов возбуждения  и  из первой и вто­рой кодовых книг и соответствующие коэффициенты усиления  и  – определяются по критерию миниму­ма среднеквадратичной ошибки на вы­ходе фильтра-синтезатора кратковре­менного предсказания, входящего в со­став кодера. Предварительно базис­ные векторы обеих кодовых книг ортогонализируются: для первой книги – по отношению к выходному вектору фильтра-синтезатора долговременно­го предсказания, для второй книги – по отношению к тому же выходному вектору и к базисным векторам первой книги.

В результате выходная информа­ция кодера речи для 20-мс сегмента включает:

параметры фильтра кратковре­менного линейного предсказания – 10 коэффициентов частичной корреляции , , и амплитудный множи­тель р один набор на весь сегмент;

параметры фильтра долговре­менного линейного предсказания – ко­эффициент предсказания  и задержку τ – для каждого из четырех подсегментов;

параметры сигнала возбуждения – номера  и  векторов возбуждения из двух кодовых книг и соответствую­щие коэффициенты усиления  и  – для каждого из четырех подсегментов.

В табл. 5.2 приведено содержание выходной информации кодера с указа­нием числа бит, используемых для ко­дирования.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11


© 2010.