Sunteți pe pagina 1din 7

AUDIO DIGITAL Introduccin Una onda de audio (sonido) es una onda acstica (de presin) de una dimensin.

Cuando una onda acstica entra en el odo, el tmpano vibra, causando que los pequeos huesos del odo interno vibren con l, enviando pulsos nerviosos al cerebro. El escucha percibe estos pulsos como sonido. De manera parecida, cuando una onda acstica incide en un micrfono, ste genera una seal elctrica, que representa la amplitud del sonido como una funcin del tiempo. La representacin, procesamiento, almacenamiento y transmisin de tales seales de audio es una parte principal del estudio de los sistemas multimedia La gama de frecuencias perceptibles por el odo humano va de 20 Hz a 20,000 Hz, aunque algunos animales, principalmente los perros, pueden escuchar frecuencias ms altas. El odo es sorprendentemente sensible a variaciones de sonido que duran apenas unos milisegundos. En cambio, el ojo no nota cambios en el nivel de luz que duran unos cuantos milisegundos. El resultado de esta observacin es que fluctuaciones de apenas unos cuantos milisegundos durante una transmisin multimedia afectan la calidad del sonido percibido ms que a la calidad de la imagen percibida. Audio Digital El audio digital es la codificacin digital de una seal elctrica que representa una onda sonora. Consiste en una secuencia de valores enteros y se obtienen de dos procesos: el muestreo y la cuantificacin digital de la seal elctrica. El muestreo consiste en fijar la amplitud de la seal elctrica a intervalos regulares de tiempo (tasa de muestreo). Para cubrir el espectro audible (20 a 20000 Hz) suele bastar con tasas de muestreo de algo ms de 40000 Hz (el estndar CD-Audio emplea una tasa un 10% mayor con objeto de contemplar el uso de filtros no ideales), con 32000 muestras por segundo se tendra un ancho de banda similar al de la radio FM o una cinta de casete, es decir, permite registrar componentes de hasta 15 kHz, aproximadamente. Para reproducir un determinado intervalo de frecuencias se necesita una tasa de muestreo de poco ms del doble (Teorema de muestreo de Nyquist-Shannon). Por ejemplo en los CDs, que reproducen hasta 20 kHz, emplean una tasa de muestreo de 44,1 kHz (frecuencia Nyquist de 22,05 kHz). La cuantificacin consiste en convertir el nivel de las muestra fijadas en el proceso de muestreo, normalmente, un nivel de tensin, en un valor entero de rango finito y predeterminado. Por ejemplo, utilizando cuantificacin lineal, una codificacin lineal de 8 bits discriminar entre 256 niveles de seal equidistantes (28). Tambin se pueden hacer cuantificaciones no lineales, como es el caso de cuantificadores logartmicos como la Ley Mu o la Ley A, que, a modo de ejemplo, an usando 8 bits funcionan perceptualmente como 10 bits lineales para seales de baja amplitud en promedio, como la voz humana por ejemplo. Las ondas de audio pueden convertirse a una forma digital mediante un ADC (convertidor analgico a digital). Un ADC toma un voltaje elctrico como entrada y genera un nmero binario como salida. En la siguiente figura (a) se muestra un ejemplo de onda senoidal. Para representar esta seal de manera digital, simplemente la muestreamos cada T segundos, como lo muestra la altura de las barras de la figura (b). Si una onda de sonido no es una onda senoidal pura, sino una superposicin de ondas senoidales en las que la componente de ms alta frecuencia es f, entonces el teorema de Nyquist establece que es suficiente tomar muestras a una frecuencia 2f. Muestrear a una frecuencia mayor no tiene ningn valor, porque no estn presentes las frecuencias mayores que seran detectadas por dicho muestreo.

Las muestras digitales nunca son exactas. Las muestras de la figura (c) slo permiten nueve valores, de 1.00 a + 1.00 en incrementos de 0.25. Una muestra de 8 bits permitir 256 valores diferentes. Una muestra de 16 bits permitir 65,536 valores diferentes. El error introducido por la cantidad finita de bits por muestra se llama ruido de cuantizacin. Si ste es demasiado grande, el odo lo detectar. Dos ejemplos bien conocidos de sonido muestreado son el telfono y los discos compactos de audio. La modulacin de cdigo de pulso, como la usada en el sistema telefnico, emplea muestras de 8 bits, 8000 veces por segundo. En Norteamrica y Japn, 7 bits son para datos y 1 para control; en Europa, los 8 bits son para datos. Este sistema da una tasa de datos de 56,000 bps o 64,000 bps. Con slo 8000 muestras/seg, las frecuencias por arriba de 4 kHz se pierden. Los CDs de audio son digitales, con una tasa de muestreo de 44,100 muestras/seg, suficientes para capturar frecuencias de hasta 22,050 Hz, lo que es bueno para la gente, malo para los perros. Cada una de las muestras tiene 16 bits, y es lineal dentro de la gama de amplitudes. Las muestras de 16 bits permiten slo 65,536 valores diferentes, aunque la gama dinmica del odo es de aproximadamente 1 milln si se mide en pasos del tamao del sonido audible ms pequeo. Por lo tanto, el uso de slo 16 bits por muestra genera ruido de cuantizacin (aunque no se cubre la gama dinmica completa; se supone que los CDs no deben lastimar). Con 44,100 muestras/seg de 16 bits cada una, un CD de audio necesita un ancho de banda de 705.6 kbps para monofnico y 1.411 Mbps para estreo. Si bien esto es menos de lo que necesita el vdeo aun as se requiere un canal T1 completo para transmitir en tiempo real sonido estreo de calidad CD. Las computadoras pueden procesar con facilidad mediante software el sonido digital. Existen docenas de programas para que las computadoras personales permitan que los usuarios graben, desplieguen, editen, mezclen y almacenen ondas de sonido de mltiples fuentes. En la actualidad, casi toda la grabacin y edicin profesional de sonido es digital. La msica, por supuesto, es simplemente un caso especial del audio general, pero es importante. Otro caso especial muy importante es la voz. La voz humana tiende a estar en el rango de 600 a 6000 Hz. La voz se compone de vocales y consonantes, las cuales tienen propiedades diferentes. Las vocales se producen cuando el tracto vocal est libre, produciendo resonancias cuya frecuencia fundamental depende del tamao y de la forma del sistema vocal y de la posicin de la lengua y mandbula de quien habla. Estos sonidos son casi peridicos en intervalos de aproximadamente 30 mseg. Las consonantes se producen cuando el tracto vocal est bloqueado parcialmente. Estos sonidos son menos regulares que las vocales. Compresin de Audio El audio con calidad de CD requiere un ancho de banda de transmisin de 1.411 Mbps. Claramente, la compresin sustancial se necesita para hacer que la transmisin a travs de Internet sea prctica. Por esta razn, se han desarrollado varios algoritmos de compresin de audio. El ms popular es el audio MPEG, que tiene tres capas (variantes), de las cuales MP3 (capa de audio 3 de MPEG) es la ms poderosa y mejor conocida. En Internet hay cantidades considerables de msica en formato MP3.

La compresin de audio se puede realizar de una de dos formas:  Codificacin de forma de onda, en cual la seal se transforma de manera matemtica en sus componentes de frecuencia mediante una transformacin de Fourier. La amplitud de cada componente se codifica en una forma mnima. El objetivo es reproducir la forma de onda de manera precisa en el otro extremo utilizando los menos bits posibles.  Codificacin perceptual, aprovecha ciertas fallas del sistema auditivo humano para codificar una seal a fin de que suene de la misma forma para un escucha, aunque dicha seal luzca de manera diferente en un osciloscopio. La codificacin perceptual se basa en la ciencia de psicoacstica (cmo perciben las personas un sonido). MP3 se basa en la codificacin perceptual. La propiedad clave de la codificacin perceptual es que algunos sonidos pueden enmascarar otros sonidos. El enmascaramiento de frecuencia, es la capacidad que tiene un sonido fuerte en una banda de frecuencia de ocultar un sonido ms suave en otra banda de frecuencia, el cual podra ser audible si el sonido fuerte no estuviera presente. Tambin aparece un efecto secundario que es el enmascaramiento temporal, que sucede cuando dos estmulos sonoros llegan a nuestro odo de forma cercana en el tiempo. El estmulo enmascarante har que el otro, el enmascarado, reste inaudible. En esta situacin, el tono ms intenso tiende a enmascarar al tono ms dbil. La compresin de audio se realiza muestreando la forma de onda a 32, 44.1 o 48 kHz. Se realizan los siguientes pasos bsicos: a) Primero se elige la tasa de bits de salida. b) Despus, las muestras se procesan en grupos de 1152 (aproximadamente 26 mseg). Cada grupo primero se pasa a travs de 32 filtros digitales para obtener 32 bandas de frecuencia. Al mismo tiempo, la entrada se coloca en un modelo psicoacstico para determinar las frecuencias enmascaradas. A continuacin, cada una de las 32 bandas de frecuencia se transforman an ms para proporcionar una resolucin espectral ms fina. c) En la siguiente fase, los bits disponibles se dividen entre las bandas; la mayora de los bits se asignan a las bandas con la mayor potencia espectral no enmascarada, a las bandas no enmascaradas con menos potencia espectral se les asignan muy pocos bits y a las bandas enmascaradas no se les asignan bits. d) Por ltimo, los bits se codifican mediante la codificacin de Huffman, que asigna cdigos cortos a nmeros que aparecen frecuentemente, y cdigos largos a aquellos que no ocurren con frecuencia. Audio de flujo contino El audio de flujo continuo consiste en escuchar el sonido a travs de internet. Tambin se le conoce como msica bajo demanda. Internet est lleno de sitios Web de msica, muchos de los cuales listan ttulos de canciones en los que los usuarios pueden hacer clic para reproducir esas canciones. En la siguiente figura se muestra la forma ms directa para hacer que se reproduzca la msica.

El proceso inicia cuando el usuario hace clic en una cancin. A continuacin el navegador entra en accin. El paso 1 consiste en que ste establezca una conexin TCP con el servidor Web con el que la cancin est vinculada. El paso 2 consiste en enviar una solicitud GET en HTTP para pedir la cancin. A continuacin (pasos 3 y 4), el servidor obtiene la cancin (que es simplemente un archivo en MP3 o en algn otro formato) del disco y la regresa al navegador. Si el archivo es ms grande que la memoria del servidor, tal vez obtenga y enve la msica un bloque a la vez. El navegador investiga, mediante el tipo MIME, por ejemplo, audio/mp3 (o la extensin de archivo), cmo se supone que debe desplegar el archivo. Por lo general, habr una aplicacin auxiliar, como RealOne Player, el Reproductor de Windows Media o Winamp, asociado con este tipo de archivos. Debido a que la forma usual de que el navegador se comunique con una aplicacin auxiliar es escribir el contenido en un archivo de trabajo, primero guardar en el disco todo el archivo de msica como un archivo de trabajo (paso 5). Despus iniciar el reproductor de medios y pasar el nombre del archivo de trabajo. En el paso 6, el reproductor de medios comienza a obtener y a reproducir la msica bloque por bloque. Al principio, este enfoque es correcto y reproducir la msica. El nico problema es que la cancin completa debe transmitirse a travs de la red antes de que comience la msica. Si la cancin mide 4 MB (un tamao tpico para una cancin MP3) y el mdem es de 56 kbps, el usuario obtendr casi 10 minutos de silencio mientras la cancin se descarga. No a todos los amantes de la msica les gusta esta idea. Especialmente debido a que la siguiente cancin tambin iniciar despus de 10 minutos de descarga, y as sucesivamente. Para resolver este problema sin cambiar la forma en que funciona el navegador, los sitios de msica han adoptado el siguiente esquema. El archivo vinculado al ttulo de la cancin no es el archivo de msica real. En su lugar, es lo que se llama un metaarchivo, que es un archivo muy pequeo que slo nombra a la msica. Un metaarchivo tpico podra ser una sola lnea de texto ASCII y podra lucir como lo siguiente: rtsp://joes-audio-server/song-0025.mp3 Cuando el navegador obtiene el archivo de una lnea, lo escribe en el disco en un archivo de trabajo, inicia el reproductor de medios como una aplicacin auxiliar, y le entrega el nombre del archivo de trabajo, como es usual. A continuacin el reproductor de medios lee dicho archivo y ve que contiene un URL. Enseguida contacta al servidor joes-audio-server y le pide la cancin. El navegador ya no est en el ciclo. En muchos casos, el servidor nombrado en el metaarchivo no es el mismo que el servidor Web. De hecho, por lo general ni siquiera es un servidor HTTP, sino un servidor de medios especializado. En este ejemplo, el servidor de medios utiliza RTSP (Protocolo de Transmisin en Tiempo Real), como se indica en el nombre de esquema rtsp. ste se describe en el RFC 2326. El reproductor de medios tiene cuatro trabajos principales: 1. 2. 3. 4. Administrar la interfaz de usuario. Manejar los errores de transmisin. Descomprimir la msica. Eliminar la fluctuacin.

En la actualidad, la mayora de los reproductores de medios tienen una interfaz de usuario brillante que algunas veces simula una unidad de estreo, con botones, palancas, barras deslizantes y despliegues visuales. Por lo general hay paneles frontales intercambiables, llamados mscaras (skins), que el usuario puede colocar en el reproductor. El reproductor de medios tiene que manejar todo esto e interactuar con el usuario. Su segundo trabajo es tratar con los errores. La transmisin de msica en tiempo real raramente utiliza TCP porque un error y una retransmisin podran introducir un hueco demasiado grande en la msica. En su lugar, la transmisin real por lo comn se realiza con un protocolo como RTP. Al igual que la mayora de los protocolos en tiempo real, la capa de RTP se encuentra encima de UDP, por lo que los paquetes pueden perderse. El reproductor es quien tiene que tratar esto. En algunos casos, la msica se intercala para facilitar el manejo de errores. Por ejemplo, un paquete podra contener 220 muestras de estreo, cada una con un par de nmeros de 16 bits, lo que normalmente est bien para 5 mseg de msica. Pero tal vez el protocolo enve todas las muestras impares en un intervalo de 10 mseg en un paquete, y todas las muestras pares en el siguiente. Por lo tanto, un paquete perdido no representa un hueco de 5 mseg en la msica, sino la prdida de cualquier otra muestra durante 10 mseg. Esta prdida puede manejarse fcilmente haciendo que el reproductor de medios realice una interpolacin mediante las muestras anterior y posterior para estimar el valor faltante. En la siguiente figura se ilustra el uso de intercalacin para la recuperacin de errores. Cada paquete contiene las muestras de tiempo alternadas durante un intervalo de 10 mseg. En consecuencia, perder el paquete 3, como se muestra, no crea un hueco en la msica, slo reduce la resolucin temporal por algn tiempo. Los valores faltantes pueden interpolarse para proporcionar msica continua. Este esquema particular slo funciona con el muestreo sin comprimir, pero muestra la forma en que un cdigo adecuado puede hacer que un paquete perdido signifique menos calidad en lugar de un hueco de tiempo. Sin embargo, el RFC 3119 proporciona un esquema que funciona con el audio comprimido.

El tercer trabajo del reproductor de medios es descomprimir la msica. Aunque esta tarea es intensa para la computadora, es muy directa. El cuarto trabajo es eliminar la fluctuacin, el veneno de todos los sistemas en tiempo real. Todos los sistemas de audio de flujo continuo inician almacenando en el bfer aproximadamente de 10 a 15 seg de msica antes de comenzar a reproducir. Idealmente, el servidor continuar llenando el bfer a la tasa exacta a la que el reproductor de medios lo vaca, aunque en realidad esto no podra suceder, por lo que la retroalimentacin en el ciclo podra ser til. Se pueden utilizar dos mtodos para mantener lleno el bfer. Con un servidor pull (de recepcin automtica), siempre y cuando haya espacio en el bfer para otro bloque, el reproductor de medios simplemente sigue enviando al servidor mensajes en los que le solicita un bloque adicional. Su objetivo es mantener el bfer lo ms lleno posible.

La desventaja de un servidor pull son todas las solicitudes de datos innecesarias. El servidor sabe que ha enviado el archivo completo, de modo que, por qu el reproductor sigue enviando solicitudes? Por esta razn, raramente se utiliza. Con un servidor push (de actualizacin automtica), el reproductor de medios enva una solicitud PLAY y el servidor simplemente contina envindole datos. Aqu hay dos posibilidades: el servidor de medios se ejecuta a la velocidad normal de reproduccin o se ejecuta ms rpido. En ambos casos, algunos datos se almacenan en el bfer antes de que inicie la reproduccin. Si el servidor se ejecuta a la velocidad normal de reproduccin, los datos que provengan de l se agregan al final del bfer y el reproductor elimina los datos del frente del bfer para reproducirlos. Siempre y cuando todo funcione a la perfeccin, la cantidad de datos en el bfer permanece constante. Este esquema es sencillo debido a que no se necesitan mensajes de control en ninguna direccin. El otro mtodo push es hacer que el servidor enve datos a una velocidad mayor que la necesaria. La ventaja aqu es que si no se puede garantizar que el servidor se ejecute a una tasa regular, tiene la oportunidad de reponerse si se queda atrs. Sin embargo, un problema aqu son los desbordamientos de bfer potenciales si el servidor puede enviar datos con ms rapidez que con la que se consumen (y debe poder hacer esto para evitar los huecos). La solucin es que el reproductor de medios defina una marca de agua baja y una marca de agua alta en el bfer. Bsicamente, el servidor slo enva datos hasta que el bfer llega a la marca de agua alta. A continuacin el reproductor de medios le indica que haga una pausa. Puesto que los datos continuarn llegando hasta que el servidor obtenga la solicitud de pausa, la distancia entre la marca de agua alta y el final del bfer tiene que ser mayor que el producto del retardo de ancho de banda de la red. Despus de que el servidor se detenga, el bfer comenzar a vaciarse. Cuando llegue a la marca de agua baja, el reproductor de medios indicar al servidor de medios que comience de nuevo. La marca de agua baja tiene que colocarse de manera que la subutilizacin de bfer no ocurra. Para operar un servidor push, el reproductor de medios necesita un control remoto para l. RTSP, que se define en el RFC 2326, proporciona el mecanismo para que el reproductor controle al servidor. No proporciona el flujo de datos, que por lo general es RTP.

Conclusiones  El audio digital consume mucho ancho de banda debido a su naturaleza para representar el sonido.  El audio de flujo continuo es una de las aplicaciones de audio digital en la red.  El reproductor de medios es el encargado de administrar la interfaz de usuario, manejar los errores de transmisin, descomprimir la msica y eliminar la fluctuacin.  La compresin es el mtodo utilizado para ahorrar ancho de banda.  El formato MP3 es el ms utilizado en los sitios web de msica. Este formato se basa en la codificacin perceptual.

 El protocolo rtps es utilizado por el reproductor de medios para controlar el servidor de medios. Recomendaciones  Para hacer uso de multimedia, especficamente el audio de flujo continuo se recomienda un ancho de banda alto, para que la experiencia del usuario sea agradable.  Cuando se cree un sitio web para ofrecer audio de flujo continuo, como por ejemplo, msica en demanda o cursos de idiomas, se recomienda utilizar la tcnica de metaarchivo utilizan rtps como protocolo para el uso del reproductor de medios  Los archivos debern guardarse en formato MP3 y utilizar la tcnica de servidor push para servir los archivos de audio al reproductor de medios, de esta manera se minimizara el tiempo de espera del usuario.

S-ar putea să vă placă și