Codecs de Voz Mejorar Servicios

Universidad Catlica Boliviana San Pablo
Ingeniera de Telecomunicaciones
Tel 350
INVESTIGACIO CODEC DE COMPRESION
Estudiantes: LIDO ESPINOZA VARGAS

ALEJANDRA R. TORREZ GOSALVEZ
LA PAZ-BOLIVIA
1. Introduccin
Un cdec de audio es un cdec que incluye un conjunto de algoritmos que
permiten codificar y decodificar los datos auditivos, lo cual significa reducir la cantidad de
bits que ocupa el fichero de audio. Sirve para comprimir seales o ficheros de audio con
un flujo de datos (stream) con el objetivo de que ocupan el menor espacio posible,
consiguiendo una buena calidad final, y descomprimindolos para reproducirlos o
manipularlos en un formato ms apropiado. Se implementa en software, hardware o una
combinacin de ambos.
El objetivo de la compresin de las seales de voz es producir una representacin compacta

para su transmisin a travs de un canal de comunicaciones, de tal forma que cuando la
seal sea reconstruida en su recepcin sea percibida como una seal muy parecida o
indistinguible de la original. Los dos principales baremos para medir la calidad y el
parecido a la seal original en recepcin son la inteligibilidad y naturalidad de la seal de
voz.
La referencia del estndar de calidad para estas seales es la calidad de una seal sobre
lnea telefnica convencional, por ejemplo muestreada a 8Khz, cuantificada con la ley a o
y codificada con 8 bits; y cuya mxima componente espectral sea de 3.3Khz. Esto resulta
en una tasa binaria de 64Kbps.
Esta tasa es demasiado elevada para los sistemas de comunicaciones en tiempo real, por lo
que el objetivo de los cdec para voz es representar la seal con el menor nmero de bits
posible, siempre que la seal reconstruida en el receptor sea aceptablemente parecida a la
seal original
2. Mtodos de codificacin
Actualmente existe una gran variedad de cdec de audio. Aunque cada vez son ms
complejos y aaden caractersticas adicionales, se pueden clasificar en cinco grandes
grupos dependiendo del mtodo de codificacin o reduccin de la tasa de bits:
2.1. Codificadores conceptuales
Los codificadores perceptuales aprovechan las limitaciones en la percepcin del sistema
auditivo humano (umbral de audicin, enmascaramiento temporal y/o frecuencial) para
codificar el flujo de datos.
Para codificar las muestras en formato PCM (audio digital sin comprimir) se realiza una
transformada al dominio frecuencial y se cuantifican y codifican a partir de un conjunto de
datos obtenidos en un modelo psicoacstico. La implementacin de este modelo
psicoacstico es lo que determina la calidad final y es donde se aprovecha el
enmascaramiento temporal o frecuencial, siendo el umbral de enmascaramiento el que
controla la cuantificacin.
En la cuantificacin de audio se utilizan distintos tipos de cuantificadores: uniforme, no-
uniforme, logartmico (ley-mu o ley-A), diferencial o vectorial. Generalmente se utiliza
cuantificacin no-uniforme para msica, cuantificacin diferencial o logartmica para
seales de voz y cuantificacin vectorial para un proceso avanzado de la seal de voz.
En la salida de este bloque se puede incorporar un codificador entrpico que comprime sin
prdidas para reducir el tamao de la trama binaria. Esta trama se empaqueta junto con
informacin adicional que contiene datos imprescindibles para la decodificacin como el
tamao de la trama, el nmero de bits de codificacin, el margen dinmico... Tambin se
puede aadir correccin de errores.
El decodificador desempaqueta la seal codificada para obtener las muestras y la
informacin auxiliar. Seguidamente, decodifica las muestras y las convierte en el dominio
temporal para obtener audio en formato PCM, aunque ste no ser igual al inicial, puesto
que es un proceso de codificacin con prdidas.
Las distintas versiones de MPEG-1, siendo MP3 (MPEG-1 layer3) la ms conocida,
utilizan este mtodo de codificacin.
2.2.Codificadores paramtricos
Los codificadores paramtricos se basan en que el audio y la voz se pueden representar
y sintetizar con tonos aislados, patrones armnicos (representados con sinusoides) y
componentes ruidosas. Estos se representan con parmetros como la amplitud, la frecuencia
fundamental o los componentes espectrales y requieren pocos bits para representarlos.
Durante el proceso de codificacin se extrae informacin de las muestras de entrada
aplicando una transformada de Fourier para luego realizar la estimacin de parmetros.
Seguidamente se codifican basndose con un modelo de la percepcin humana, y
se multiplexan para formar la trama binaria.
En el proceso de decodificacin, a travs de un bloque de sntesis y con los parmetros
codificados, se reproduce una seal con las caractersticas anlogas a la seal original.
Un ejemplo de este tipo de codificacin es HVXC para voz y HILN para msica, ambos
dentro del estndar MPEG-4
2.3.Vocoders (codificacin de voz)

Los vocoders son codificadores paramtricos especficos para la codificacin de la voz.
Estos analizan la seal de voz correspondiente a un segmento temporal considerado
estacionario para extraer los parmetros del modelo y la excitacin. Esta informacin es la
que se codifica. En el proceso de decodificacin, el decodificador sintetiza los parmetros a
travs de un modelo de produccin de voz.
Existen dos tipos de vocoders:
vocoder por prediccin lineal

LPC-10
2.4.Codificadores de forma de onda

Los codificadores de forma de onda se basan en el estudio de la seal, de forma que
intentan reproducir la forma de la seal de entrada. Generalmente se disean para ser
independientes de la seal, de manera que se utilizan para codificar una gran variedad de
seales. Estos codificadores aprovechan la redundancia de la seal y, a partir de una
prediccin lineal, permiten codificar la seal auditiva. De esta forma se consiguen tasas de
compresin elevadas cuando las seales son redundantes y prcticamente nulas cuando no
es as.
La codificacin de la seal se puede llevar a cabo tanto en el dominio
temporal como frecuencial:
Codificadores en el dominio temporal:
Modulacin por codificacin de pulsos (PCM, Pulse Code Modulation)

Modulacin por codificacin de impulsos diferenciales (DPCM, Differential
PCM)
Modulacin por codificacin de impulsos diferenciales adaptativos(ADPCM,
Adaptative PCM)
Codificadores en el dominio frecuencial:
Codificacin en subbandas
Codificacin por transformada
2.5.Codificadores hbridos
Los codificadores hbridos, tambin conocidos como codificadores de anlisis-por-sntesis
combinan las tcnicas de los codificadores de forma de onda con los vocoders. El objetivo
de estos es obtener voz de alta cualidad a tasas de bit bajas (inferiores a 8kHz). Su
funcionamiento se basa en analizar un conjunto de muestras como si se tratase de una sola
para obtener los parmetros de la seal. Al decodificar la trama, se sintetizan los parmetros
para conseguir que se parezca al original.
Algunos codificadores hbridos son:
Codificador RELP
Codificador multipulso MPC
Codificador CELP
Codificador VSELP
Codificador RPE-LTP
3. Cdec de voz con perdidas
En audio se aprovechan las limitaciones del sistema auditivo humano (margen
frecuencial, umbral de audicin, enmascaramiento temporal y/o enmascaramiento
frecuencial) para comprimir los datos de audio. Se usan diferentes mtodos para eliminar
los datos inaudibles:
Transformada en el dominio frecuencial y eliminacin de las frecuencia

inaudibles (inferiores a 20 Hz y superiores a 20kHz, u enmascaradas por otras
frecuencias de mayor potencia).
Divisin del seal en subbandas de frecuencia que se aproximan a las bandas

crticas y cuantificar cada subbanda en funcin de un umbral de deteccin
del ruido dentro de la subbanda. De esta forma se analiza el seal de audio y se
calcula la cantidad de ruido (prdidas inapreciables) que se pueden introducir a
cada rango de frecuencias, es decir, el umbral de enmascaramiento.
Prediccin de datos.
Caracterizacin de la voz a partir de una parametrizacin.
El nivel de compresin se puede controlar y depende de la calidad que se quiera
obtener, el tamao del fichero, el ancho de banda de la red, el tiempo de
compresin...
Usualmente se utilizan compresiones mximas para transmisiones, especialmente
cuando son servicios en directo como telefona (telefona IP o celular) o
reproducciones en directo como podcasting (radio por internet o programas de
audio por internet).
4. Cdec de voz sin perdidas
Estos cdecs utilizan una compresin sin prdidas para minimizar el tamao del flujo de
datos. Para realizar esta codificacin se utilizan algoritmos basados en la eliminacin de
la redundancia de la seal de audio, y por lo tanto en el grado de predictibilidad de la
informacin. Si la seal tiene patrones repetitivos, ste es redundante y por lo tanto fcil de
predecir.
Usualmente los patrones repetitivos de seal son ms evidentes en otro dominio (temporal,
frecuencial...), es por esto que la transformacin de la seal en funcin de estos patrones
permitir reducir o eliminar la redundancia.
En audio, igual que en vdeo, imagen o datos, la eliminacin de la redundancia se
implementa:
Transformaciones en otro dominio donde los patrones repetitivos sean ms

evidentes.
Prediccin.
Codificacin entrpica: codificacin de Huffman, codificacin aritmtica, Run
Length Coding (RLE).
5. Cdec ms usados
5.1.G721
G.721, tambin conocido como ADPCM, es un cdec de forma de onda, por lo que en
teora sirve para todo tipo de seales, aunque su comportamiento es notoriamente mejor
para seales de voz. Se muestrea a 8 Khz, por lo que es un cdec de voz de banda estrecha
(narrowband).
Una tcnica muy comnmente usada es predecir el valor de la siguiente muestra con el
valor de las muestras anteriores. Esto es posible gracias a las correlaciones en las muestras
de seales de voz, debido a los efectos de la cavidad vocal y las vibraciones de las cuerdas
vocales, como se explic en apartados anteriores. Si las predicciones son efectivas entonces
la seal de error entre las muestras predichas y las actuales muestras de la seal de voz
tendrn menor varianza que las muestras originales de la seal de voz. De todos modos el
inters es cuantificar esta seal de error con menos bits que la seal original de voz. En esto
se basan los esquemas de DPCM (PCM Diferencial), en los que se cuantifica la diferencia
entre la seal original y la predicha.
Los resultados de estos cdecs se pueden incluso mejorar si el predictor y el

cuantificador se hacen adaptativos, de tal forma que puedan cambiar para adaptarse a las
caractersticas de la seal que se est codificando. Esto nos lleva a ADPCM (PCM
Diferencial Adaptativo). En G.721 se cuantifica esta diferencia con 4 bits, dando lugar a
una tasa binaria de 32 Kbps. En la actualidad G.721, definido en 1988, est obsoleto y se
encuentra incluido en el estndar G.726
5.2.G723
El estndar G.723 (no confundir con G.723.1) apareci como una extensin de G.721, pero
funcionando a tasas binarias de 24 Kbps y 40 Kbps (seal diferencia cuantificada con 3 y 5
bits respectivamente). Este estndar tambin est obsoleto e incluido en G.726
5.3.G726
Las operaciones en G.726 (G.721 y G.723) se hacen con seales PCM lineales de 16 bits,
por lo que se ha de convertir la seal de entrada al codificador y la seal de salida del
decodificador (usualmente suelen ser PCM con ley A o mu a 64Kbps).
La aplicacin fundamental de G.726 con las tasas de 24 y 16 kbps es codificar la voz en los
canales de DCME (Digital Cirtuit Multiplication Equipment) y la de 40 Kbps para
transportar seales de datos de los mdems de DCME (no de audio, ya que al ser un cdec
de forma de onda sirve para cualquier tipo de datos).
5.4.G727
En la lnea de los cdecs anteriores tenemos G.727, que tambin usa ADPCM, pero una
versin ligeramente distinta, llamada ADPCM jerarquizado, ya que los bits en los que se
codifica la seal tienen dos jerarquas:
Bits principales, del ncleo o ms representativos

Bits de refuerzo, o menos significativos
Este cdec est orientado hacia transmisin de voz en tiempo real, como la mayora de
los cdecs de voz, por lo que esta jerarquizacin tiene sentido para aliviar situaciones de
congestin, ya que los bits menos significativos pueden ser descartados en la red cuando
hay una situacin de congestin, y as ayudar a aliviar la congestin y tener la seal
decodificada a la salida (con menos calidad obviamente).
5.5.GSM
El codificador y el decodificador trabajan internamente con seales PCM lineal de 13 bits,

por lo que se ha de convertir la entrada a ese formato y la salida se ha de convertir de PCM
lineal de 13 bits al formato de salida (normalmente suele ser PCM con ley A o mu a 64
Kbps).
La seal de entrada se divide en tramas de 20 ms de duracin (160 muestras de la seal).
Cada una de estas tramas es analizada y a partir de ella se calculan para cada una de ellas
los 8 coeficientes del filtro predictor de corto plazo. A continuacin, cada una de esas
tramas se divide en 4 subtramas (de 5 ms de duracin, 40 muestras cada una) y para cada
una de ellas se encuentra la ganancia y el retardo para el predictor a largo plazo.
Una vez se tienen los parmetros de los 2 filtros, se pasa la correspondiente trama por estos
y se llega al anlisis de RPE. Tras este anlisis, cada subtrama de 40 muestras es dividida
en 3 secuencias de 13 muestras cada una. La secuencia de 13 muestras de mayor energa es
elegida como la representacin de la seal de excitacin. Como estamos en el caso de RPE
slo es necesario cuantificar la amplitud de los pulsos, que se cuantifica con 3 bits. El
resultado de esta codificacin da un total de 260 bits por cada muestra de 20 ms, por lo que
la tasa binara es de 260/0.02=13000 bps.
En el decodificador, la seal de excitacin recibida y filtrada por los filtros de prediccin de

largo y corto plazo, cuyos coeficientes son recibidos desde el codificador. Se usa un post-
filtro en el receptor para mejorar la calidad de la seal decodificada.
Este cdec da una buena calidad de audio, aunque no tan buena como la de G.728 por
ejemplo. La principal ventaja de este cdec es su simplicidad, ya que por ejemplo se puede
ejecutar en tiempo real en uno de los antiguos 486 a 66 MHz, mientras que un tpico CELP
necesita un DSP dedicado para ejecutarse en tiempo real.
5.6.G 723.1
Es un cdec de voz de banda estrecha (narrow band), ya que la frecuencia de muestreo es

de 8 KHz. Fue adoptado en 1995 para la codificacin de voz (e incluso de cualquier seal
de audio) de los estndares H.324 de videoconferencia. Para este cdec tenemos 2 posibles
tasas binarias, en cada una de las cuales se utiliza un algoritmo de codificacin distinto.
Con la mayor tasa binaria (6.3 Kbps) tenemos una mayor calidad. Con la menor tasa binaria
(5.3 Kbps) tenemos una calidad inferior, pero an muy aceptable. Es posible conmutar
entre ambas tasas binarias entre 2 tramas consecutivas, que son de 30 ms cada una.
El cdec se optimiz de forma que represente la voz con gran calidad a las velocidades
mencionadas y con una complejidad restringida. La msica y otras seales audio no se
representan con la misma fidelidad que la voz, pero con este cdec se pueden comprimir y
descomprimir.
Este cdec codifica la voz u otras seales audio en tramas de 30 ms. Adems, tiene un pre
anlisis de 7,5 ms, lo que resulta en un retardo algortmico total de 37,5 ms. Todos los
dems retardos en la implementacin y el funcionamiento de este cdec se deben a:
el tiempo real del procesamiento de los datos en el codificador y el

decodificador;
el tiempo de transmisin por el enlace de comunicaciones;
el retardo adicional de la memoria intermedia para el protocolo de
multiplexacin.
5.7.G 728 LD-CELP
Es un cdec hbrido, basado en el algoritmo CELP. G.728 tambin es conocido como

LD-CELP (Low Delay CELP). Una caracterstica estos cdecs CELP es que el clculo de
los coeficientes del filtro de prediccin a corto plazo es muy complejo (calculados por
adaptacin hacia delante) y hace que el retardo sea muy alto. Los valores tpicos de este
retardo son de 50 a 100 ms, que puede causar serios problemas en comunicaciones de voz
en tiempo real. Por lo tanto en 1988 la CCITT propuso unos requerimientos para un nuevo
estndar:
Tasa binaria: 16 Kbps

Calidad comparable a G.721 en condiciones sin error y con error
Retardo en menor de 5 ms e idealmente menor de 2 ms.
Todos estos requisitos fueron cumplidos por un cdec CELP adaptativo hacia atrs
desarrollado en los laboratorios de AT&T Bell, que fue estandarizado en 1992 como G.728.
La frecuencia de muestreo de este cdec es de 8 KHz (narrowband). Este cdec usa
adaptacin hacia detrs para calcular los coeficientes del filtro a corto plazo. En lugar de
almacenar 20 ms de la seal original para calcular estos coeficientes, se usa la seal
codificada para calcular los coeficientes del filtro. Esto significa que el filtro puede usar
una longitud de trama mucho menor que la de los CELP habituales. Adems se usa un filtro
predictor de corto lazo de mayor orden, haciendo que no sea necesario el filtro predictor de
largo plazo. En este caso la trama es de slo 5 muestras dando un retardo total menor de 2
ms. Cada trama de 5 muestras se representa con 10 bits, distribuidos de esta manera:
7 bits para representar la posicin en el codebook

3 bits para representar la ganancia de la excitacin, para cuantificar esta ganancia
con mayor precisin se usa adaptacin de la ganancia con valores de ganancia de
tramas anteriores.
De este modo se tiene un cdec a 16 Kbps con un retardo menor de 2 ms y una calidad
mejor o igual que la de G.721, adems de una gran robustez frente a errores de canal.
Las principales aplicaciones de este cdec son aplicaciones que necesiten de muy bajo
retardo en la codificacin, por ejemplo aplicaciones en las que el retardo en el canal sea
considerable (ms de 50-100 ms) y se quiera mantener una aplicacin en tiempo real con
esos retardos y no mayores.
Se usa en el estndar de videoconferencia H.320 (videoconferencia sobre RDSI)
5.8.G 729
G.729 es un cdec hbrido de voz, con muestreo a 8 KHz (narrow band), muy usado en la
actualidad en aplicaciones de VoIP. Ofrece una buena calidad, pero su complejidad es
extremadamente elevada, necesitando en algunos casos un DSP para su uso en aplicaciones
en tiempo real. Es un estndar de la ITU-T, aprobado en 1995.
El algoritmo usado por este cdec es conocido como CS-ACELP (Conjugate-Structure
Algebraic-Code-Excited Linear Prediction). Se trabaja internamente con tramas de 10 ms
de duracin, cada una representada con 80 bits, haciendo que el retardo algortmico del
cdec (es decir, el retardo sin tener en cuenta el procesamiento del equipo que haga las
operaciones de codificacin-decodificacin) sea de 15 ms, un retardo moderado. La calidad
es similar a la de G.721 (ADPCM 32 Kbps). La tasa binaria de este cdec es de 8 Kbps, en
su versin inicial.
5.9.iLBC
iLBC es un cdec hbrido de banda estrecha (frecuencia de muestreo 8 KHz) que puede
operar con 2 tasas binarias, de 13.33 (duracin de trama 30 ms) y 15.2 Kbps (duracin de
trama 20 ms). Fue desarrollado por GIPS (Global IP Solutions) pero en la actualidad es de
cdigo abierto. Se define en el RFC 3951.
Se usa un algoritmo de prediccin lineal adaptativa independiente por bloques. Cuando la

longitud de bloque es de 20 ms, se producen 304 bits por cada bloque (trama). Para
longitud de bloque de 20 ms, se producen 400 bits por cada bloque (trama). Aunque haya 2
tamaos de trama distintos, la forma en que se procede para ambos no es muy distinta.
Este cdec es muy adecuado para comunicaciones robustas de voz sobre IP. La
disminucin de la calidad es muy pequea cuando se producen prdidas o retrasos de
paquetes IP. Los cdecs tradicionales de audio que operan a bajas tasas binarias aprovechan
las dependencias entre las tramas colindantes, lo cual hace que cuando haya una prdida o
un retraso de una de las tramas, las dems tambin se vean afectadas y se propague el error.
Por el contrario, las tramas en iLBC son independientes unas de otras, por lo que este tipo
de errores en cadena no se producirn.
En comparacin con G.729 A, iLBC proporciona mejor calidad de voz teniendo la misma
complejidad algortmica y adems es ms robusto frente a prdida de paquetes.
Aplicaciones: telefona, videoconferencia, streaming de audio y mensajera.
Es usado por Gizmo Project, Ekiga, Open Wengo, Google Talk, Skype y Yahoo!
Messenger.
5.10. iSAC
iSAC es un cdec de audio de banda ancha (wide band), ya que su frecuencia de muestreo
es de 16 KHz, desarrollado por GIPS, actualmente su algoritmo no est descrito
pblicamente y es necesaria licencia de GIPS para su uso comercial. Su tasa binaria es
variable y auto adaptativa en el rango de 10 a 32 Kbps (tamao de trama entre 30 y 60 ms
respectivamente). Es recomendado para aplicaciones de VoIP de ancho de banda elevado,
juegos en red, aprendizaje a distancia y streaming de audio (buen comportamiento incluso
con seales no vocales como msica).
Para este cdec, el cociente calidad de audio/tasa binaria es bastante elevada. La calidad es
comparable a la de G.722 con tasas binarias iguales en los dos cdecs.
El retardo de este cdec es la suma de la duracin de la trama ms 3 ms de retardo

algortmico, con lo cual en conjunto tiene un retardo medio, pero aceptable.
Tiene un excelente comportamiento frente a errores en la red, como prdidas de paquetes y

retardos excesivos. Existe una versin de complejidad reducida, apta para telfonos mviles
y PDAs, con una tasa binaria media de 40 Kbps
5.11. SOVPC
SVOPC son las siglas de Sinusoidal Voice Over Packet Coder, es un cdec de audio
diseado especficamente para comunicacin de voz en canales de comunicacin en los que
hay prdidas de paquetes. El algoritmo usado consiste en el modelado quasi-armnico de la
seal resultante tras la prediccin lineal. Es un cdec desarrollado por Skype y usado en el
mismo programa.
5.12. RT audio
Significa Real Time Audio o Audio en Tiempo Real. Es un cdec de voz diseado para
aplicaciones full-dplex de VoIP. Las principales aplicaciones sobre las que se usa son
juegos, conferencias de audio y aplicaciones wireless sobre IP. Es un cdec desarrollado
por Microsoft y propietario de la misma compaa. Destacar que es un cdec bastante
reciente (2006).
Una caracterstica muy importante de este cdec es que puede operar en dos modos
distintos, en los cuales vara la frecuencia de muestreo:
Narrow Band Mode o modo banda estrecha, con frecuencia de muestreo de 8 Khz
Wide Band Mode o modo banda ancha, con frecuencia de muestreo de 16 Khz
Consideramos este cdec como hbrido. La codificacin es sub-band., dependiendo el

nmero de sub-bandas de la frecuencia de muestreo. Para la frecuencia de 8 Khz se usa una
sola banda mientras que para la otra se usan mltiples bandas. Como la mayor parte de la
informacin vocal est en las bandas inferiores, se dedican ms bits a esas bandas,
decreciendo progresivamente el nmero de bits que se dedican a bandas superiores.
El retardo de este cdec es la suma de la duracin de la trama, tiempo de bsqueda en el

codebook del codificador, retardo computacional en el codificador y retardo de
reconstruccin en el decodificador. Para este cdec el retardo es menor de 40 ms.
En la siguiente tabla vemos las principales caractersticas de este cdec, en la realidad

pueden variar debido a los mltiples modos de funcionamiento posibles en este cdec.
MOS
Samplin (Mean
Nombr Estandariza Bit rate Frame Observacione
Descripcin g rate Opinio
e do (kb/s) size (ms) s
(kHz) n
Score)
Tiene dos
versiones u-
law (US,
Pulse code
G.711 Muestrea Japan) y a-
ITU-T modulation 64 8 4.1
* da law (Europa)
(PCM)
para
muestrear la
seal
Mejora del
codec G.711
Pulse code
G.711. Muestrea para abarcar
ITU-T modulation 80-96Kbps 8
1* da la banda de
(PCM)
50 Hz a 7
Khz. Mas info
Adaptive
Obsoleta. S e
differential
Muestrea ha
G.721 ITU-T pulse code 32 8
da transformado
modulation
en la G.726.
(ADPCM)
Divide los 16
7 kHz audio- Khz en dos
Muestrea
G.722 ITU-T coding within 64 16 bandas cada
da
64 kbit/s una usando
ADPCM
Codificacin
a 24 y 32
kbit/s para
G.722.
ITU-T sistemas sin 24/32 16 20
1
manos con
baja perdida
de paquetes
23.85/ Se usa
23.05/ principalment
Adaptive
G.722. 19.85/ e para
Multi-Rate
2 18.25/ compreson
ITU-T Wideband 16 20
AMR- 15.85/ de voz en
Codec (AMR-
WB 14.25/ tecnologa
WB)
12.65/ movil de
8.85/ 6.6 tercera
generacin. M
as info
Extensin de
la norma Obsoleta por
G.721 a 24 y G.726. Es
Muestrea
G.723 ITU-T 40 kbit/s para 24/40 8 totalmente
da
aplicaciones diferente de
en circuitos G.723.1.
digitales.
Parte de
H.324 video
conferencing.
Codifica la
seal usando
linear
predictive
analysis-by-
Dual rate synthesis
speech coder coding. Para
for el codificador
multimedia de high rate
G.723.
ITU-T communicatio 5.6/6.3 8 30 utiliza 3.8-3.9
1
ns Multipulse
transmitting Maximum
at 5.3 and 6.3 Likelihood
kbit/s Quantization
(MP-MLQ) y
para el de
low-rate usa
Algebraic-
Code-Excited
Linear-
Prediction
(ACELP).
40, 32, 24, 16
kbit/s
ADPCM;
adaptive
16/24/32/4 Muestrea reemplaza a
G.726 ITU-T differential 8 3.85
0 da G.721 y
pulse code
G.723.
modulation
(ADPCM)
5-, 4-, 3- and
ADPCM.
2-bit/sample Muestrea
G.727 ITU-T var. Relacionada
embedded da
con G.726.
adaptive
differential
pulse code
modulation
(ADPCM)
Coding of
speech at 16
kbit/s using
G.728 ITU-T low-delay 16 8 2.5 CELP. 3.61
code excited
linear
prediction
Coding of
speech at 8
kbit/s using
conjugate-
G.729 structure Bajo retardo
ITU-T 8 8 10 3.92
** algebraic- (15 ms)
code-excited
linear-
prediction
(CS-ACELP)
Coding of
speech at 8
kbit/s using 8/12/14/16
conjugate- / Ancho de
G.729. structure 18/20/22/2 banda desde
ITU-T 8 10
1 algebraic- 4/ 50Hz a 7
code-excited 26/28/30/3 Khz Mas info
linear- 2
prediction
(CS-ACELP)
Regular Pulse
Excitation Usado por la
GSM
ETSI Long-term 13 8 22.5 tecnologa
06.10
Predictor celular GSM
(RPE-LTP)
10
Linear- coeficientes.
Gobierno
LPC10 predictive 2.4 8 22.5 La voz suena
de USA
codec un poco
"robtica"
2.15-
30 ( NB )
Speex 8, 16, 32 24.6
34 ( WB )
(NB)
4-44.2
(WB)
iLBC 8 13.3 30
American
Department
DoD of Defense
4.8 30
CELP (DoD)
Gobierno
de USA
Enhanced
Se usa en
EVRC 3GPP2 Variable Rate 9.6/4.8/1.2 8 20
redes CDMA
CODEC
DVI4 uses an
Interactive
adaptive delta
Multimedia Variabl Muestrea
DVI pulse code 32
Association e da
modulation
(IMA)
(ADPCM)
Uncompresse
Variabl Muestrea
L16 d audio data 128
e da
samples
El codec
Uncompresse
De 6 a 40 Variabl Harmony est
SILK Skype d audio data 20
kbit/s e basado en
samples
SILK
6. Conclusiones
La voz humana puede incluir tonos que alcancen hasta los 20 KHz, que est directamente
relacionado con el lmite de frecuencias que es capaz de percibir el odo. Sin embargo, la
mayor parte de la energa se concentra en las frecuencias ms bajas, por debajo de los 4
KHz. Es por ello que la mayor parte de los cdecs utilizados, considerados de banda
estrecha, se centran en el tratamiento de la voz en ese intervalo
Con el paso del tiempo, con el objetivo de reducir el ancho de banda consumido en la
transmisin empez a pesar ms en la ingeniera, el poder comprimir la voz para tener un
sistema de telecomunicaciones ms eficiente se convirti en una necesidad.
A medida que la necesidad del ser humano de comunicarse de una forma ms rpida y
eficiente crece, tambin lo har la tecnologa, para ello es necesario ir buscando formas de
compresin de voz con menos prdida de datos y menor ancho de banda.
7. Cdec de Video
Un cdec de video es un tipo de cdec que permite comprimir y descomprimir video

digital. Normalmente los algoritmos de compresin empleados conllevan una prdida de
informacin..
El problema que se pretende acometer con los cdecs es que la informacin de video es
bastante ingente en relacin a lo que un ordenador normal es capaz de manejar. Es as como
un par de segundos de video en una resolucin apenas aceptable puede ocupar un lugar
respetable en un medio de almacenamiento tpico (disco duro, Cd, Dvd) y su manejo
(copia, edicin, visualizacin) puede llevar fcilmente a sobrepasar las posibilidades de
dicho ordenador o llevarlo a su lmite.
Es as como se ha preferido construir y ocupar estos algoritmos de compresin y
descompresin en tiempo real: los cdecs. Su finalidad es obtener un almacenamiento
sustancialmente menor de la informacin de vdeo. Esta se comprime en el momento de
guardar la informacin hacia un archivo y se descomprime, en tiempo real, durante la
visualizacin. Se pretende, por otro lado, que el proceso sea transparente para el usuario, es
decir, que no intervenga o lo haga lo menos posible.
Existe un complicado equilibrio entre la calidad de video, la cantidad de datos necesarios
para representarlo (tambin conocida como tasa de bits), la complejidad de los algoritmos
de codificacin y decodificacin, la robustez frente a las prdidas de datos y errores, la
facilidad de edicin, la posibilidad de acceder directamente a los frames, y otros factores.
Normalmente los algoritmos de compresin que se emplean conllevan cierta prdida de

de datos, por lo que el objetivo es lograr la calidad ms fiel al original posible produciendo
un archivo lo ms pequeo posible.
Hay varios tipos de cdecs de video disponibles. Cada uno de ellos ha sido implementado por
diferentes compaas y tiene su propio algoritmo. Tienen distintas especificaciones y su
aplicacin se extiende a distintos campos. Generalmente se adaptan a los standards de la
industria.
Se diferencian en general por varios factores, como la tecnologa usada para la compresin o
el algoritmo, la plataforma que los soporta, el sistema operativo en el que corren, entre otros.
Los cdecs que provocan prdida de informacin para conseguir un tamao de archivo
reducido son llamados lossy. Hay cdecs sin prdida pero por lo general no vale la pena un
aumento considerable del tamao del archivo por un cambio imperceptible en la calidad del
video.
Algunas caractersticas de los cdecs ms usados:
H.261
Fue desarrollado por el grupo ITU-T y fue el primer estndar de compresin de video. Es
usado principalmente en videoconferencia y videotelefona antigua, y est optimizado por lo
tanto para ratios bajos de datos. Trabaja mejor en pelculas en las que hay poco cambio entre
los cuadros. No tiene tan buena calidad como el H.263 y puede no ejecutarse bien en
mquinas de gama ms baja.
H.263
Inicialmente creado para videoconferencia y video por internet, este cdec fue un gran paso
hacia la estandarizacin de la capacidad de compresin de video de escaneo progresivo y es
mejor que el H.261, fue usado principalmente como punto de partida para el desarrollo de
MPEG (que est optimizado para ratios de datos ms altos). En la actualidad es usado para
comprimir video en formato Flash. Entre sus desventajas est que hace un uso bastante
intensivo del CPU y puede no dar buenos resultados en mquinas de gama ms baja.
H.264
Tambin conocido como MPEG-4 AVC, este cdec provee alta calidad de codificacin y
decodificacin para aplicaciones de transmisin de video en tiempo real, a ratios que van
desde un cuarto a la mitad del tamao de los archivos de los formatos de video previos. El
tamao de archivo logrado es 3 veces ms pequeo que los logrados con los cdecs MPEG-2.
Logra imgenes de buena calidad tanto a altos como a bajos ratios y una mejor calidad de
imagen que MPEG-2, MPEG-4 o H.263. Es dos veces ms eficiente que MPEG-4. Es fcil de
integrar y cubre un amplio rango de formato de imgenes. Entre sus desventajas encontramos
que requiere un tiempo de codificacin mayor y que los acuerdos de licencia son algo
complicados.
MPEG-1
Este cdec da una excelente calidad de imagen a ratios de CD-ROM. Uno de los usos ms
populares del MPEG-1 es el VCD, o video CD llamado libro blanco. MPEG incluye
compresin de video y audio. El mayor problema que hay con el MPEG son sus altos
requerimientos para la reproduccin, lo que ha hecho que este cdec no tenga gran acogida.
MPEG-2
Est optimizado para calidad de difusin para video digital y ofrece muy buena calidad de
imagen y resolucin. Es el estandar de vdeo principal para DVD-Video. Se requiere pagar la
licencia para distribuir video con MPEG-2.
MPEG-4
Este es un estndar que se encuentra bajo desarrollo para la distribucin de contenido

multimedia a travs de redes, por lo que es algo ms que un solo cdec y contiene
especificaciones para audio, video e interactividad. El componente de video es muy similar al
H.263, y est optimizado para el envo de video a ratios de internet. Tiene una buena calidad
de imagen a ratios bajos de datos pero an se encuentra en desarrollo.
DiVx
Su nombre viene de la marca que lo ha creado, Divx Inc. y por lo tanto es un cdec
comercial, por el uso del cual hay que pagar. Este cdec utiliza compresin lossy (con
prdida) MPEG-4 Part 2 y es totalmente compatible con MPEG-4-Advanced Simple Profile,
MPEG-4 ASP. Es bastante simple de utilizar y es popular debido a su facilidad para
comprimir largos segmentos de video en tamaos pequeos manteniendo una calidad visual
relativamente alta.
x264
En marzo de 2012, en forma conjunta varias comunidades de uploaders decidieron utilizar

este cdec y dejar de usar Xvid/avi, por la mayor calidad y compresin a resoluciones SD.
X264 es una implementacin abierta y disponible de forma open source del estndar H.264.
Ofrece la mejor calidad al menor tamao de archivo posible.
8. Bibliografa
https://www.lpi.tel.uva.es/~nacho/docencia/ing_ond_1/trabajos_07_08/io5/public_html/Co
decs_Voz.htm
https://www.lpi.tel.uva.es/~nacho/docencia/ing_ond_1/trabajos_07_08/io5/public_html/Cla
sificacion.htm
http://www.zator.com/Hardware/H10_3.htm
http://www.voipforo.com/codec/codecs.php
https://hipertextual.com/archivo/2012/07/codecs-ventajas-desventajas-diferentes-tipos/
https://es.wikipedia.org/wiki/C%C3%B3dec_de_v%C3%ADdeo

Codecs de Voz Mejorar Servicios

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Codecs de Voz Mejorar Servicios

Încărcat de

Drepturi de autor:

Formate disponibile

Universidad Catlica Boliviana San Pablo

INVESTIGACIO CODEC DE COMPRESION

Estudiantes: LIDO ESPINOZA VARGAS

El objetivo de la compresin de las seales de voz es producir una representacin compacta

2.3.Vocoders (codificacin de voz)

vocoder por prediccin lineal

2.4.Codificadores de forma de onda

Modulacin por codificacin de pulsos (PCM, Pulse Code Modulation)

Transformada en el dominio frecuencial y eliminacin de las frecuencia

Divisin del seal en subbandas de frecuencia que se aproximan a las bandas

Transformaciones en otro dominio donde los patrones repetitivos sean ms

Los resultados de estos cdecs se pueden incluso mejorar si el predictor y el

Bits principales, del ncleo o ms representativos

El codificador y el decodificador trabajan internamente con seales PCM lineal de 13 bits,

En el decodificador, la seal de excitacin recibida y filtrada por los filtros de prediccin de

Es un cdec de voz de banda estrecha (narrow band), ya que la frecuencia de muestreo es

el tiempo real del procesamiento de los datos en el codificador y el

5.7.G 728 LD-CELP

Es un cdec hbrido, basado en el algoritmo CELP. G.728 tambin es conocido como

Tasa binaria: 16 Kbps

7 bits para representar la posicin en el codebook

Se usa en el estndar de videoconferencia H.320 (videoconferencia sobre RDSI)

Se usa un algoritmo de prediccin lineal adaptativa independiente por bloques. Cuando la

Aplicaciones: telefona, videoconferencia, streaming de audio y mensajera.

El retardo de este cdec es la suma de la duracin de la trama ms 3 ms de retardo

Tiene un excelente comportamiento frente a errores en la red, como prdidas de paquetes y

Consideramos este cdec como hbrido. La codificacin es sub-band., dependiendo el

El retardo de este cdec es la suma de la duracin de la trama, tiempo de bsqueda en el

En la siguiente tabla vemos las principales caractersticas de este cdec, en la realidad

Un cdec de video es un tipo de cdec que permite comprimir y descomprimir video

Normalmente los algoritmos de compresin que se emplean conllevan cierta prdida de

Algunas caractersticas de los cdecs ms usados:

Este es un estndar que se encuentra bajo desarrollo para la distribucin de contenido

En marzo de 2012, en forma conjunta varias comunidades de uploaders decidieron utilizar

S-ar putea să vă placă și