5.3 Процедуры обработки речи в IP-телефонии

Для обеспечения передачи речевых сигналов в IP-телефонии с требуемым качеством необходима их следующая обработка:

1. Устранение всех нежелательных компонентов из входного аудиосигнала. После преобразования аналогового сигнала речи в цифровую форму необходимо удалить сигналы:

Эффективное эхоподавление и уменьшение шумов абсолютно необходимо в любой конфигурации с «открытым микрофоном» и с громкоговорителем на базе персонального компьютера (ПК) для традиционной и IP-телефонии. Наметившаяся тенденция такова, что эти функции все в большей мере реализуются аудиокомпонентами ПК, так что сама система IP-телефонии может их и не иметь. Шлюзам IP-телефонии требуется выполнять меньший объем предварительной обработки, нежели оконечным объектам, потому что УАТС и телефонная сеть обеспечивают фильтрацию и уменьшение шумов.

2. Подавление пауз в речи; распознавание остаточного фонового шума (внешних шумов) и кодирование для восстановления на дальнем конце; то же самое для опознаваемых сигналов. Паузы лучше всего полностью подавлять на ближнем конце. Для сохранения окружающих звуков необходимо смоделировать фоновые шумы, чтобы система на дальнем конце могла восстановить их для слушателя. Сигналы многочастотного набора номера DTMF и другие сигналы кодируются на ближнем конце для уменьшения объема передаваемых данных и восстанавливаются на дальнем конце. В процессе подавления пауз возникают искажения речевой информации в связи с тем, что функция подавления пауз активизируется в моменты, когда уровень сигнала становится ниже определенного порога. Из-за этого некоторые системы обрезают начала и концы слов (в периоды нарастания и снижения уровня речевого сигнала).

3. Модели терминалов с конечным числом состояний
Функционирование терминала очень часто может быть представлено моделью с конечным числом состояний. Традиционный телефонный аппарат может находиться в двух состояниях: "микротелефонная трубка находится на рычажном переключателе" (пассивное состояние) или в состоянии "поднятой микротелефонной трубки" (активное состояние), когда пользователь делает телефонный вызов. Этот процесс характеризуется переменными состояниями потому, что периоды активного состояния всегда разделены периодами пассивного состояния. Если телефонный аппарат находится в режиме передачи речи, тогда, чтобы описать терминал, необходимо дополнительное состояние "передачи пачки" (burst). Если в режиме передачи речи любую пачку преобразуют в пакет, то терминал находится в состоянии "передачи пакета".

Эти модели с конечными состояниями терминала телефонии показаны на рисунке 5.3.1. Функционирование терминала описывается многоуровневой схемой, как показано на рисунке 5.3.2. Например, терминал может делать подписку, которая состоит из множества телефонных разговоров. Каждый телефонный разговор может состоять из множества (bursts) передач речевой информации. Каждая передача пачки речи может быть сегментирована на множество пакетов.



Рисунок 5.3.1 Модель с конечным числом состояний для телефонной связи

Будем считать, что уровни L = 1,2,3,4 представляют пакет, передачу пачки речи (burst), телефонный разговор, подписку соответственно. События на каждом из уровней расположены во времени. Говорят, что уровень L активен, если терминал находится в состоянии L или ниже. Будем определять нагрузку, создаваемую терминалом на уровне L, как:

pL = p (уровень L активен, уровень L+1 активен) ......(1)

Пусть c1 - скорость передачи терминала в состоянии передачи пакетов. Строго говоря, биты передаются только тогда, когда терминал находится в состоянии передачи пакетов. Среднюю скорость передачи битового потока на уровне L определяют по формуле (2):

..............................................................(2)

где pi - нагрузка, создаваемая терминалом на уровне i.

Поясним этот многоуровневый терминальный процесс для телефонии. Период подписки для телефонной службы обычно длится в течение месяцев или нескольких лет. Сеанс (длительность обычного телефонного разговора) длится в среднем в течение 3 минут. Днем в часы наибольшей нагрузки телефонный аппарат находится в активном состоянии с типичной вероятностью p3=0,1. Примем естественное допущение: в периоды молчания пользователя цифровой телефонный аппарат с детектором активности речевого сигнала не передает данные.

Типичная передача речи длится в течение нескольких секунд, в зависимости от алгоритма, используемого для обнаружения активности речи. Коэффициент использования канала при передаче речи обычно соответствует p2=0,4.



Рисунок 5.3.2 Многоуровневое состояние терминалов

Допустим, что активная речь преобразуется в цифровую форму в виде потока битов со скоростью 64 Кбит/c и сегментируется в ячейки по 376 бит для транспортировки по виртуальному каналу сети с технологией ATM, со скоростью 150 Мбит/с. Следовательно, каждая ячейка передается за период 2,5 мкс, и коэффициент концентрации при передаче ячеек с речевой информацией по каналу ATM будет равен p1=0,064/150=4,3·10-4. Упорядоченная последовательность ячеек от цифрового терминала повторяется через 1/p1= 2325 пакетных интервалов.

Другими словами, по цифровому тракту в сети с технологией ATM на скорости 150 Мбит/с максимально может быть организовано 2325 телефонных разговоров одновременно. Определим среднюю битовую скорость передачи для разных уровней в соответствии с формулой (2). На уровне передачи ячеек (L1) мы имеем среднюю битовую скорость c1=150 Мбит/c. Средняя скорость передачи по битам для уровней передачи речи (L2), телефонного разговора (L3) и подписки (L4):

c2= c1·p1 = 150·10+6·4,3·10-4 = 64 (Кбит/c),
c3= c1·p1·p2 = 64·0,4 = 25,6 (Кбит/c),
c4= c1·p1·p2·p3 = 64·0,4·0,1 = 2,56 (Кбит/c).

До сих пор диаграмма состояний графа на каждом из уровней имела линейную структуру (всего два состояния): имеется нагрузка или ее нет (L4); имеется вызов или его нет (L3); идет передача речи или нет (L2); идет передача пакетов или нет (L1). Чаще используются более сложные модели. Например, более адекватная для телефонии модель с удалением пауз может быть реализована, если мы будем отличать различные виды пауз. Говорящий абонент может молчать, делая паузы между словами в предложении или думать (паузы типа 1), а также слушать другого абонента (паузы типа 2). Различные виды пауз могут быть учтены в грАфе, показанном на рисунке 5.3.3. Для видеотерминалов с обнаружением движения вводится кодирующий алгоритм изображения, терминал может запросить высокую скорость передачи данных в период быстрого движения и низкую скорость передачи данных, когда скорость движения падает ниже определенного предела. Если данные в течение таких периодов передачи пакетизировать, то будет два состояния передачи пакетов в соответствии с двумя состояниями движущегося изображения. Граф модели показан на рисунке 5.3.4.



 
 

 

Рисунок 5.3.3 Разнообразные состояния молчания
для телефонии

 

Рисунок 5.3.4 Два состояния движущегося изображения
для видеосвязи

Подобно распознаванию различных видов пауз в телефонии, это может быть выгодно для распознавания различных видов движения для видеосвязи, таких как движение людей с фиксированной позицией камеры, движение заднего плана с передвигающейся позицией камеры или полное изменение сцены. Кодирующий алгоритм сигнала может различать эти виды движения с различной скоростью и обеспечивать передачу данных с переменной скоростью. Очень часто кодирующий алгоритм может просто генерировать биты с непрерывно меняющейся скоростью, в соответствии с мерой движения и гранулированностью изображения. Для моделирования таких изменений используются более сложные модели с конечным числом состояний. Терминалы могут моделироваться более точно, если использовать большое количество состояний, за счет увеличенной сложности вычисления для предсказания их действий. Определяя эти состояния, необходимо также указать, как осуществляются переходы из одного состояния в другое.

4. Сжатие голосовых данных. Осуществить компрессию цифрового речевого сигнала можно разными способами. Основными требованиями, предъявляемыми к системам IP-телефонии, являются:

5. Разделение («сегментация») сжатых голосовых данных на короткие фрагменты равной длины, порядковая нумерация фрагментов, добавление заголовков пакетов и передача. Хотя стек протоколов TCP/IP поддерживает формирование и обработку пакетов переменной длины, их использование затрудняет достижение устойчивой и предсказуемой межсетевой маршрутизации в голосовых приложениях. Маршрутизаторы с высокой скоростью обрабатывают пакеты малой длины и классифицируют обычно все передаваемые по одному и тому же IP-адресу пакеты одного размера одинаковым образом. В результате пакеты проходят по одному маршруту, поэтому их не надо переупорядочивать.

6. Прием и упорядочивание пакетов в адаптивном «буфере ресинхронизации» для обеспечения интеллектуальной обработки потерь или задержек пакетов. Главной целью этого процесса является преодоление влияния переменной задержки пакетов. Решение этой проблемы состоит в буферизации достаточного числа поступающих пакетов (при отложенном их воспроизведении) с тем, чтобы воспроизведение было непрерывным, даже если интервалы между поступлениями пакетов существенно различаются.

Hosted by uCoz