Documente Academic
Documente Profesional
Documente Cultură
Manual de Audio
para el
Tcnico Informtico
Introduccin
Objetivo: dar soporte a sistemas de audio
Estudiar los problemas tpicos de los sistemas de audio digital Conocer las Estaciones de audio, su funcionamiento y su relacin con el hardware y software de la computadora en que se hospedan
Equipacin externa
Tarjeta de Sonido
Drivers
La configuracion de audio de la aplicacin y los drivers de la tarjeta determinan tambin el comportamiento del sistema en presencia de otras aplicaciones o servicios que hagan uso del audio, por ejemplo, players, messenger, etc. (ver: Multicliente)
La ruta dentro de la aplicacin puede ser tan compleja o ms que todo el resto ya visto.
BUS
Cable analog.
Est claro que de estos 2 casos, el primero es el que ofrece ms beneficios, pero tambin el que trae ms complicaciones. Como si se tratara de cualquier dispositivo USB, pueden darse problemas de comunicacin, bajo rendimiento del puerto, conflictos, y cuelgues del hardware externo, que segn el caso pueden solucionarse o no apagando y prendiendo, desenchufando y volviendo a enchufar, reinstalando el driver, o incluso en algunos casos obligan a desconectar completamente tanto tarjeta como computadora de la alimentacin, y volver a cargar el S.O. con el hardware reseteado. Es importante tener en cuenta todo esto, porque nos puede complicar bastante la ecuacin a la hora de hacer un troubleshooting
C) Problemas de timing (sincro entre pistas) Los problemas de timing suelen confundirse con los de latencia, aunque no es exactamente lo mismo. Que un sistema tenga alta latencia no significa que tenga que tener necesariamente problemas de timing; en cambio si tiene baja latencia, puede tener independientemente problemas de timing y los mismos quedar encubiertos, he ah el origen de la confusin. Vamos a explicar primero qu es lo que aqu llamamos problema de timing y luego cul es su origen.
Al grabar una nueva pista, la misma aparece desfasada con respecto a la anterior
Como ejemplo de la conjugacin de productos distintos, mencionemos: chipset (fundamental), tarjeta de video (no menos importante), tarjeta de sonido, drivers de todas estas cosas, S.O., service packs, cualquier servicio o software residente, aplicacin principal, cada uno de los plugins instalados en el sistema.
Como ejemplo de comportamiento anmalo citemos: al estar instalado cierto plugin la aplicacin no levanta, o se vuelve inestable; al estar instalado cierto hardware, otro hardware deja de funcionar, etc., etc., etc.
F) Las tarjetas de sonido multicanal Cul puede ser la razn para que en mi aplicacin no aparezcan todas las entradas y salidas de mi tarjeta? Nuevamente, un problema de drivers o de protocolo. Algunas tarjetas slo muestran correctamente todas las entradas y salidas cuando se las accede en ASIO o en algn otro modo especfico. Tambin puede pasar que algunos canales estn en uso por programas o servicios que corren por lo bajo, como por ejemplo, el Gigastudio.
G) El GigaStudio (y otros soft-synths stand-alone) Es un programa de sampler, que funciona en modo stand-alone hasta la versin 2, en Rewire a partir de la 3, y como plugin VST en la 4. Este programa surgi en el ao 97, cuando las computadoras personales no eran lo que son ahora. En aquella poca, reproducir hasta 32 samples a tiempo real desde el disco duro, sin latencia, slo poda lograrse con un motor de audio muy eficiente, apropindose totalmente del hardware, y accediendo a la tarjeta de
- En ciertas aplicaciones host, algunos plugins al ser insertados automticamente hacen que el sistema empiece a tener latencia. Caso conocido: el L3 de Waves al ser usado en Nuendo.
I) Las carpetas del audio Es importante conocer al menos mnimamente como funciona un multitrack. Existe un archivo de sesin y una carpeta con los archivos de audio. Si esta carpeta se mueve o se renombra, el programa nos va a decir que no encuentra los archivos de audio. Otra carpeta cuyo conocimiento nos puede ser de enorme utilidad, es la carpeta de plugins VST, habitualmente situada en c:\Archivos de Programa\Steinberg\Vstplugins. A ella podemos acceder y sacar algun dll que est causando problemas en una aplicacin y tambin poner algn otro que por error no se haya instalado en esa carpeta.
Faltan drivers para alguna parte del hardware, o los que se estn usando no son los mejores.
Demasiada carga en el bus PCI, o el que se est usando para audio (USB, FireWire) A veces, la sla presencia de otra tarjeta de sonido (por ejemplo la onboard) u otro dispositivo multimedia provoca fallos. CPU lento, recursos hardware insuficientes, o hardware mal configurado. Opciones de Clock de la Tarjeta de sonido errneas. Usar varios hardwares de audio de fabricantes distintos, o del mismo fabricante pero no expresamente diseados para trabajar juntos, dentro de una misma aplicacin. Incompatibilidad conocida con cierto chipset. Versin vieja de algn plugin o sintetizador virtual, o plugin malo que consume excesivos recursos. Efectos grficos de Windows consumiendo muchos recursos. DMA en discos duros y unidades de CD: volvemos a insistir en este punto, porque es muy frecuente que se desconfigure y es de una importancia vital. (El DMA fue lo que permiti que las DAW comenzaran a migrar a la plataforma PC con sus discos IDE; anteriormente la tendencia era hacia el Mac y el SCSI)
La tarjeta de sonido es vieja y fue diseada para un S.O. ms viejo que el que se est usando.
Se han instalado otras aplicaciones, como ser juegos, que optimizaron el sistema para sus propias necesidades, llegando a sustituir DLLs y provocando comportamientos anmalos en otras aplicaciones. Cabe destacar que este fenmeno es mucho ms probable que ocurra en entornos basados en el antiguo Windows 98, que bajo XP, donde el S.O. restringe mucho ms el acceso a su propio ncleo. Demasiados programas y servicios en el inicio de windows, provocando un alto consumo de recursos. Presencia de aplicaciones que corren a alta prioridad, como antivirus, etc. Falta memoria RAM, y el constante acceso a disco impide trabajar con audio. El buffer de audio est configurado con un tamao muy chico o muy grande.
CPU
RAM
Disco Duro
Chipset
Tarjeta de video
Config. hardware
BUS PCI
?
400Mb/s 133MB/s
?
133MB/s
400Mb/s
Tarjeta de sonido externa Controladora FireWire (IEEE1394) Tarjeta de sonido PCI
133MB/s
BUS PCI
BUS PCI
300MB/s
SouthBridge
480Mb/s
133MB/s
300MB/s
Drivers
- Evitar en especial los drivers de aquellos dispositivos tontos o virtuales, nos referimos a dispositivos con un hardware muy bsico que dejan en manos del driver toda la gestin, provocando un mayor consumo de recursos, o dispositivos que son totalmente emulados y no existen en el hardware (por ejemplo, sintetizadores MIDI virtuales, unidades de CD virtuales, etc.) - Utilizar los drivers actualizados y provistos por el fabricante. Evitar que los dispositivos queden sin driver, o que sean manejados por un driver genrico de Windows. Esto es vlido tanto para la tarjeta de sonido como para el resto del hardware, en especial: video, chipset y almacenamiento. Se recomienda tener a mano los siguientes add-ons para Windows XP:
- DirectX ltima versin. - Apple QuickTime 6 o 7. - Windows Media Player 11. - .net Framework, todas las versiones.
1) Opciones de energa Ponerlo en Siempre encendido. Que no se apaguen los discos duros y que no pase nunca a inactividad. Deshabilitar la hibernacin.
2) Opciones de rendimiento Opciones avanzadas Estas opciones especifican el criterio que el S.O. utiliza para dar prioridad a las tareas, tanto en el scheduling del CPU como en el uso de memoria. El criterio, en general, es ajustarlo para servicios en segundo plano y para cache del sistema, pero se recomienda probar en cada caso el resultado. Respecto a la tercera opcin, la de Memoria Virtual, hablaremos en el punto 3). Es importante saber que, de todas maneras, la prioridad de los procesos se puede cambiar manualmente desde el Administrador de tareas, y aunque no sea una prctica muy cmoda, puede ser la frutilla en la torta de una buena optimizacin.
3) El archivo de Paginacin (swap file) Si buscamos en internet informacin sobre cmo configurar estas opciones, encontraremos cientos de consejos, todos parcialmente justificados y contradictorios entre s, desde hacer un archivo fijo, que tenga el doble de tamao de la RAM, que est en tal disco, o en tal otro, hasta incluso no usar memoria virtual en absoluto. Ante la duda, mi recomendacin es dejarlo en Tamao administrado por el Sistema.
5) Programas y procesos en el background. Se recomienda evitar a toda costa que haya otros procesos corriendo a la par del audio. Esto incluye: Messengers, calendarios, software de mantenimiento de discos, de medicin de temperatura del CPU, Antivirus, Antispyware, Firewalls, Virus, Spyware, Notificadores de esto y aquello, aceleradores de aquello otro, buscadores, administradores de conectividad con dispositivos USB, BlueTooth, Wireless, infrarrojos, clasificadores de fotos, monitoreadores de cambios en el registro, en el disco, etc., etc. Enfin, si lo que queremos es enlentecer la mquina, vaya si hay formas de hacerlo! Otra cosa a evitar es tener ms de una sesin de usuario abierta.
7) Servicios de Windows y terceros. En la seccin servicios del msconfig.exe, o ejecutando services.msc, podemos tambin desactivar los servicios. A diferencia del caso anterior estos s aportan funcionalidad, pero muchas veces es una funcionalidad que no necesitamos o que no deseamos.
El msconfig permite aislar los servicios que no son de Microsoft, es decir los servicios de 3os. Dentro de este grupo, y con mucha precaucin, vale ms o menos lo mismo expresado con respecto a los programas de inicio.
Con respecto a los servicios de Microsoft, hay una cantidad que no son de utilidad para prcticamente ningn usuario, y otro grupo mayor constituido por aquellos servicios que se pueden desactivar sin que se vea afectado el audio. Este ltimo grupo comprende prcticamente a todos los servicios excepto los esenciales y el Audio de Windows. Si se prueba desactivarlos todos, obtendremos una mquina super veloz, en la que corren perfectamente las aplicaciones de audio, pero que no sirve prcticamente para ms nada; sin red, sin internet, etc.
Va aqu una breve lista de los servicios que habitualmente se pueden desactivar sin perder nada importante:
Index server, Restauracin de sistema, Temas, Ayuda y soporte tcnico, Cambio rpido de usuario, Cola de impresin (si no hay impresora), Telnet, Actualizaciones automticas, Escritorio remoto, Asistencia Remota, Fax, Netmeeting, Registro remoto, Carpetas compartidas de Messenger, Network sharing de Media Player, Configuracin inalmbrica rpida (si no tenemos Wireless), portable media serial number service, etc. Muchas de estas funciones se pueden desactivar por otros caminos. Una funcin que conviene desactivar pero no figura entre los servicios, talvez haya que cambiarla desde el registro, es la Notificacin de Auto-insercin del CD.
Esta cadena debe ser cumplida en forma continua, y en algunos casos con un tiempo de respuesta de menos de 10ms.
Sistema de almacenamiento rpido. Esto incluye al propio disco duro, al hardware donde se conecta (controladora IDE, S-ATA, SouthBridge, Chipset, motherboard) y al software de manejo (drivers, S.O.)
CPU potente y lo ms libre posible de otras tareas que atender. El S.O. es en parte responsable del tiempo de respuesta del CPU. La cantidad de servicios y programas corriendo en el background. El resto del hardware y sus drivers tambin juegan un papel en esto (por ejemplo, tarjeta de video)
Hardware: sistema de I/O, buses, PCI, USB, etc. Nuevamente, el chipset y sus drivers. Hardware especfico de audio y sus drivers. S.O. y su soporte para dispositivos de audio y soluciones software de terceros.
Como vemos, en toda aplicacin de audio juegan un rol importantsimo, el hardware en su conjunto, el CPU en particular, y el S.O. y su manejo de estas dos cosas.
Cantidad de Tracks
No confundir la velocidad terica de un bus (por ejemplo 3Gb/s) con la tasa de transferencia sostenida real de un disco duro (por ejemplo ~30MB/s). Tampoco confundir la cantidad de pistas que se leen/escriben real-time desde/hacia el disco duro, con la cantidad de canales que se streamean hacia el hardware de audio. Esta ltima suele ser menor, aunque nada impide que sea igual o mayor. Y otra cosa muy importante: no olvidemos que el hardware de audio y el sistema de almacenamiento coinciden finalmente en un mismo bus, ms tarde o temprano en la arquitectura del hardware (southbridge, PCI, USB, etc.), dependiendo del hardware que se trate. La cantidad de canales de I/O no tiene por qu coincidir ni con la cantidad de pistas de un multitrack, ni con la cantidad de entradas y salidas fsicas que tenga el dispositivo de audio, pudiendo ser menor o mayor que cualquiera de stas. Veamos el grfico:
Mixer Aplicacin (CPU) Pistas leidas desde el disco duro Canales enviados a la tarjeta
La cantidad de canales de I/O es a los buses de I/O (PCI, USB, etc.) lo que la cantidad de tracks es al disco duro. Las tarjetas de audio que utilizan USB 2.0 o FireWire estn limitadas en este aspecto frente a las PCI o PCIe. Por esta misma razn, USB 1.1 no es un interface aceptable para ninguna tarjeta profesional, y menos aun si es multicanal. Por otro lado, el rendimiento del streaming de mltiples canales de audio hacia o desde el dispositivo de audio, depende como se ve, de la eficiencia del bus al que est conectado, la presencia de otros dispositivos consumiendo ancho de banda o compartiendo la misma IRQ, el chipset, los drivers, etc.
Plug-ins y efectos
Los sintetizadores MIDI virtuales consumen CPU igual que los plugins, pero pueden agregar ms variables aun, a la ya compleja ecuacin del audio. Aquellos instrumentos basados en samples (pre- grabaciones de audio digital), o los propios llamados justamente samplers, funcionan como sub-multitrackers dentro del multitrack, y su polifona es la cantidad de pistas, ya que los samples con los que trabajan se leen en gran medida directamente desde el disco duro (DFD), exactamente igual que las tracks de audio, y se procesan con algoritmos y se mezclan antes de ser ruteados dentro de la aplicacin host, que a su vez procesar este audio, lo mezclar con otras fuentes y lo rutear todo hacia el hardware de audio. Como la polifona de estos instrumentos suele ser grande (24, 32 o ms voces), todos ellos permiten hacer un pre-buffereo parcial de los samples en RAM, o directamente cargarlos ntegramente en la memoria y no utilizar el disco duro. Esto aliviana bastante el consumo de disco duro pero eleva la RAM requerida a cantidades de las que habitualmente no se dispone (varios GB).
Qu ocurre con la latencia? Si el buffer se mantiene en la misma cantidad de muestras, la latencia sera menor al subir la frecuencia de muestreo, pero es obvio que con el incremento masivo del consumo de recursos resulta ingenuo esperar que no haya que subir el tamao del buffer. Respecto a la compresin: a diferencia de lo que ocurre con el video, las plataformas de edicin y mezcla de audio digital trabajan con archivos PCM. La razn es que no hay necesidad de usar compresin, dado que el bitrate del audio PCM, incluso a altas frecuencias de muestreo y resoluciones, sigue siendo pequeo frente a las velocidades actuales de los discos duros y buses de I/O, cosa que no ocurre con el video de alta definicin. En audio la compresin se usa en otros puntos de la cadena, por ejemplo el delivery, internet streaming, dispositivos porttiles y por supuesto, en el audio que acompaa al video. Si se trabajara sobre archivos comprimidos disminuira la carga sobre el disco duro y aumentaria la del CPU. La latencia, en audio, se define como la diferencia de tiempo entre la entrada y la salida del audio, o, de un modo ms general, la diferencia de tiempo entre el momento en que el software cambia un sonido y el momento en que ese cambio es odo. En la ruta del audio, diversas cosas producen ese retraso. Una fuente de latencia son los procesos mismos por los que pasa el audio (latencia algortmica) y la otra fuente tiene que ver con los tiempos de respuesta del procesador en un contexto determinado (interrupt latency, scheduling latency). Dentro del primer grupo se encuentra la latencia de los convertidores (2ms) y la latencia que introduce el sistema de audio de Windows, mayormente un componente del mismo llamado kmixer (kernel mixer). Esta ltima es la que se evita usando los famosos drivers ASIO. Nos queda la otra fuente de latencia. Para mantener un flujo constante de audio a pesar de las demoras del CPU, se utiliza un buffer, que es el que determina la latencia. Qu ocurre si bajamos el tamao del buffer? Aparecen saltos y ruidos a causa de esas demoras en la respuesta del CPU. Qu se necesita entonces para tener baja latencia, adems de una tarjeta de sonido con drivers ASIO o equivalentes? Respuesta: un CPU rpido y libre, en lo posible, de otras tareas adems de la de procesar audio.
Baja latencia
1) cuando un equipo tiene menos memoria fsica que la requerida por la suma de programas y procesos que se estn corriendo en determinado momento, entonces toda la mquina va a andar ms lenta (debido al constante acceso a disco), y talvez algunos procesos real-time no puedan ser llevados a cabo. 2) la cantidad de memoria fsica que un equipo tenga por encima de la cantidad que estn utilizando los programas, no afecta en absolutamente nada el funcionamiento del mismo, ni lo hace ms rpido. O sea que para el caso del audio, si le falta memoria, es muy probable que directamente no funcione, y si en cambio ya tiene sufuciente RAM y est andando bien, agregarle ms no mejorara nada tampoco. Y cunta RAM se necesita? Depende de cada caso, pero nunca menos de 512MB. Recordemos tambien que se precisa mucha memoria para trabajar con samplers virtuales o sintes virtuales basados en samples. Cualquier actividad que provoque consumo de CPU o trfico en el disco duro o en los buses de E/S va a afectar al audio. Partimos de la base de que tenemos un sistema al borde de sus posibilidades. Obviamente si lo que estamos haciendo es reproducir un MP3 en un Core 2 Quad con 2GB de RAM y un disco de 10000 rpm, difcil que logremos interrumpir el flujo del audio, por ms cosas que hagamos con la computadora. En cambio si tenemos un PC estndar, y estamos corriendo una sesin con 40 pistas de audio, a 24/96, con 3 plugins en cada pista y una latencia de 10ms, ahora s el sistema est sensible a otros procesos. Veamos algunos ejemplos: - Mover o copiar data de un disco a otro, o a traves de una red a 100 o 1000 Mb/s. - Capturar video desde una cmara digital. - Grabar un DVD. - Comprimir un video, o hacer un batch-processing de fotos. - Reproducir un video (esto muchas veces lo hacen los propios programas de edicin de audio, y s, aumenta el consumo de recursos).
El trabajo en DAWs suele estar orientado a 2 campos: Msica (produccin, grabacin, mezcla, masterizacin, etc) y Audiovisual (cine, publicidad, video, etc). Asimismo, las plataformas informticas son moneda corriente en cualquier actividad que involucre presentacin o difusin de material sonoro, por ejemplo TV, Radio, espectculos y el hogar mismo. Hoy en dia podra decirse que donde hay audio, hay audio digital, y donde hay audio digital, hay una computadora detrs (en forma de PC o no).
Veamos algunos aspectos del trabajo con audio digital. Es la funcin bsica de toda DAW. Para ello la computadora hace uso de los convertidores A/D y D/A que estn en el hardware de audio (tarjeta de sonido). Muchas veces la toma de sonido se hace en varios canales simultneos, provenientes de distintas fuentes, pasando por equipacin de audio analgica; para ello, el dispositivo de sonido deber tener las entradas y salidas correspondientes. La reproduccin puede involucrar tambin varias pistas de sonido, que se procesan, mezclan y rutean hacia una o ms salidas de la tarjeta en tiempo real. Tambin suele haber reproduccin y grabacin simultneamente, combinada a veces con reproduccin de video, cuando se trabaja en postproduccin audiovisual. Una verdadera revolucin ocurri en el audio a principios de los 90s con la aparicin de la llamada edicin no lineal. Los sistemas no lineales son aquellos basados en un soporte digital con acceso aleatorio, como es el disco duro, e involucran el uso de una computadora. En ellos existe una capa de edicin virtual entre la informacin almacenada en el medio y lo que el usuario escucha al reproducir. Esa capa permite modificar el orden de las partes, los volmenes, ecualizacin, etc., etc., sin alterar los archivos de audio que estn en el disco duro, por eso se habla tambin de edicin no destructiva. Los datos de edicin se guardan en un archivo independiente, pudiendo incluso salvarse varias versiones distintas y alternar entre unas y otras sin necesidad de tocar nada a nivel de los archivos de audio, la media. Tambin existe la edicin basada en archivos, por ejemplo, en los casos en que el poder de procesamiento del hardware no es suficiente para trabajar real-time, pero obviamente la tendencia es a virtualizar cada vez ms y ms funciones en la DAW.
Grabacin y reproduccin
Edicin
Proceso
Los plugins son los encargados, en una DAW, de aplicarle al audio estos procesos y efectos en tiempo real.
El procesamiento digital de seal es usado tambin en la codificacin y decodificacin del audio digital, los algoritmos de compresin que son la clave del desarrollo de dispositivos porttiles, la telefona digital, celular, el audio en internet, VoIP, etc. En audio se conoce como mezcla al proceso de combinacin de mltiples fuentes (pistas) de sonido en una sola fuente final, pasando cada pista o grupo de ellas por procesos que, a su vez, pueden variar en el tiempo, por ejemplo, volumen, ecualizacin, etc. Esto es lo que se hace, por ejemplo, en una grabacin o amplificacin en vivo de msica, donde cada canal representa a un instrumento, o en la sonorizacin de una pelcula de cine, en donde tenemos msica, dilogos, varias pistas de efectos sonoros, etc. En el dominio digital, la mezcla no es ms que otro proceso DSP. Los programas de edicin multitrack poseen un mixer virtual y cuentan con el recurso de automatizar los cambios de volumen y de cualquier otro parmetro que las pistas deban sufrir a lo largo de la duracin de la pieza, mediante unos graficos manipulables, habitualmente llamados envolventes. La generacin (sntesis) de sonido es ampliamente utilizada en msica y en algunas otras reas (sntesis de voz, por ejemplo). Los sintetizadores utilizados en msica tuvieron una larga evolucin que se remonta a la primera mitad del siglo XX, y conocieron la era digital durante la dcada del 80. Fue en esa poca tambin que surgi el protocolo MIDI, que aun hoy sigue siendo la esencia de la unin entre msica e informtica. A fines de los 90 aparecen los sintetizadores virtuales, es decir, generadores de sonido totalmente basados en software, controlados por MIDI, que se integran dentro de un programa DAW, y pueden emular a los antiguos sintes analgicos y digitales, y tambien superar a estos, en polifona y complejidad del sonido. El uso de soft synths exige casi siempre, algo que aun sigue siendo no del todo fcil de lograr en una DAW: la baja latencia.
Mezcla
Generacin de sonido
Soportes
Conexiones
Multicanal: ADAT, TDIF Streaming directo a travs de Internet, LAN (ethernet), USB, FireWire.
Software de audio
Players
Programas sumamente sencillos, destinados a reproducir archivos de audio y otros. Ejemplos: Windows Media Player, Winamp, iTunes, Nero Media Player, etc. En esta categora incluimos aquellos programas que trabajan directamente sobre un archivo de audio, permitiendo modificarlo, procesarlo, cortarlo, combinarlo, etc., anlogamente a lo que los editores de fotos o de texto hacen con sus respectivos archivos. Ejemplos: Sony Sound Forge, Adobe Audition (en modo editor, antes llamado Cool Edit), Steinberg Wavelab. Este es el grupo de programas basados en el principio de edicin no-destructiva introducido por ProTools a comienzos de los 90s. Permiten grabar, editar y mezclar varias pistas de audio, cortar, mover, repetir regiones, procesar, agregar efectos, fades, cross-fades, automatizaciones, etc., todo real-time sin modificar los archivos de audio, salvando toda la edicin en un archivo independiente. Actualmente todos los programas DAW permiten trabajar tambin con MIDI, pero originalmente esto no era as; por eso tenemos, si se quiere, dos sabores en programas DAW: los MIDI-DAW como Digital Performer, Logic Audio, Sonar, Steinberg Cubase, y los Audio-DAW como ProTools, Samplitude Studio, Adobe Audition, Steinberg Nuendo. Funcionalmente ambos grupos son similares, siendo su nica diferencia el hecho de que los primeros eran originalmente programas de sequencer MIDI. Los plugins son programas que no funcionan por s solos, sino que lo hacen en el seno de una aplicacin host, agregndole a sta nuevos algoritmos de procesamiento de audio, o efectos como se les suele llamar. Un plugin puede ser un simple archivo .DLL, que la aplicacin carga cuando el usuario coloca ese plugin en algn punto de la ruta del audio, dentro del mixer virtual de la aplicacin. Los plugins pueden ser usados de esta manera (real-time) o puntualmente para procesar destructivamente un archivo de audio. Tanto los programas DAW como los editores y los programas de msica pueden compartir un mismo set de plugins instalados en el sistema. Existen varios formatos de plugins, compatibles con unos o otros hosts (DX, VST, RTAS, TDM, etc.); habitualmente un mismo producto suele traer el instalador para varios de estos formatos, por ejemplo: DX, VST y RTAS.
Editores
Multitrackers (DAW)
Plugins
Plugins (cont.)
Los plugins han llegado a ser tan importantes en el audio, que existen aplicaciones que son meros racks virtuales para insertar efectos y sintetizadores y utilizarlos en modo stand-alone, como simples procesadores dentro de una cadena con equipos de audio externos, o como instrumentos musicales en un espectculo en vivo (muchos sintes virtuales ya traen una aplicacin para usarlos stand-alone). Ejemplos de plugins de audio: Waves Bundle, TC Bundle, Antares Auto-Tune; instrumentos virtuales: Native Instruments B4, FM8, Pro53. Dentro de esta categora encontramos diversos programas orientados a la produccin de msica. Estos programas pueden poseer una o ms de, o incluso todas, las siguientes propiedades: - Loops (por ejemplo, Sony Acid Pro, Ableton Live, Reason, Fruity Loops). Los loops son pequeos segmentos de audio que se repiten en sincrona con otros elementos musicales.
Msica
- MIDI y sntesis (Live, Reason, Reaktor, Fruity) A fines de los 80 y principios de los 90 existan programas que solamente trabajaban con MIDI, utilizando generadores de sonido externos a la computadora. Actualmente lo ms interesante de esta tcnica es que los generadores son tambin programas que corren en la misma PC. - Sampler (Tascam Gigastudio, Reason). Los samplers son otro tipo de sintetizadores, que generan el sonido a partir de archivos de audio en la computadora, a veces muchos de ellos simultneamente y muy pesados. - Audio (Acid Pro, Live) Pistas de audio, exactamente igual que en un multitrack. ...se preguntar el lector. MIDI es un sistema de comunicacin digital estndar entre instrumentos musicales, sintetizadores y otros dispositivos electrnicos, desarrollado a principios de los 80. Incluye un protocolo hardware (interface serial a 31,25 Kb/s) y sobre l un protocolo software, consistiente en un conjunto de mensajes mediante los cuales se puede trasmitir por ejemplo la ejecucin que se hace sobre un instrumento de teclado (mensajes de nota, de pitchbend, etc.), el cambio de preset en un equipo, etc. El MIDI tambin se utiliza como soporte para el cdigo de tiempo SMPTE (MTC) utilizado en el campo de la post-produccin audiovisual profesional para sincronizar dispositivos entre s.
Qu es MIDI?
1) Drivers
La arquitectura de drivers WDM del Windows XP provee soporte para diversos tipos de hardware de audio, a travs de varios componentes de bajo nivel (kernel), de tal manera que el fabricante slo tiene que proveer un nico mdulo (.SYS) que se inserta dentro de esa estructura, lo que llamaremos el driver propiamente dicho. A nivel de la aplicacin, el Windows provee dos APIs mediante las cuales acceder al driver de audio: MME y DirectSound. Finalmente existe tambin una manera de bypassear las APIs de Windows y acceder directamente al mdulo kernel, el llamado WDM/KS (kernel streaming). MME o wave existe desde las primeras versiones de Windows con audio, mientras que DS es contempornea del DirectX, pero ambas APIs son insuficientes para los requisitos del audio profesional, sobre todo en materia de latencia y sincronizacin (en tarjetas multicanal).
winMM.DLL
APLICACION
Dsound.DLL
ASIO (Audio Streaming Input/Output) es una API no incluida en el Windows, desarrollada por un fabricante de Audio Pro (Steinberg), con las necesidades del Audio Pro en mente, y progresivamente adoptada por todos los softwares de audio profesional. Como puede verse en el esquema, el driver de audio provisto por el fabricante de la tarjeta, tiene que incluir un soporte para ASIO, a los efectos de poder usar esta API, y por supuesto la aplicacin tambin. El WDM/KS existe slo en las versiones modernas de Windows, y es una alternativa al ASIO, pero no tiene la simpleza y universalidad de ste.
Kernel Streaming
ASIO.DLL
DRIVER.SYS
HARDWARE
No olvidemos adems que las APIs de Windows no streamean el audio directo desde la aplicacin al driver, sino que lo pasan por una serie de instancias intermedias (entre ellas el kmixer.sys) en las que, no slo le introducen latencia, sino que eventualmente lo re-muestrean. En resumen: el sistema de audio de Windows constituye un soporte muy bueno para aplicaciones no-profesionales. Kmixer.sys (kernel mixer) forma parte del sistema de audio de windows de bajo nivel (kernel) y existe con el propsito de generar una capa previa al envio del audio al driver, que pueda recibir varios streams simultneos, provenientes de distintas aplicaciones, e incluso a distintas frecuencias de muestreo. Este mixer virtual garantiza que cualquier aplicacin puede hacer uso del sistema de audio con xito en cualquier momento, sin importar el tipo de hardware de audio que se tenga. Lamentablemente, esta interesante funcionalidad se logra a costa de introducir latencia y de re-muestrear todo el audio, con la consiguiente eventual prdida de calidad que esto supone.
Esto nos ilustra nuevamente algo que ya habamos constatado antes (ver Fallas tpicas del audio, Los drivers multicliente): permitir que todas las aplicaciones puedan hacer uso del hardware de audio simultneamente va en contra de los intereses de una aplicacin de audio profesional.
ASIO4ALL ASIO2KS
ASIO.DLL
ASIO emulado
WDM / KS
ASIO
ASIO nativo
DRIVER.SYS
HARDWARE
Dijimos tambin que para que exista ASIO, el driver de la tarjeta debe abstraer el hardware de la misma, de la forma en que ASIO necesita para trabajar con l. Esto equivale a decir que el mdulo kernel (el driver) debe soportar el interface ASIO. Algunas implementaciones de ASIO, en lugar de usar un driver compatible, utilizan un emulador que en verdad se comunica con el driver utilizando WDM/KS. Esto es lo que ocurre en los programas como ASIO4ALL y ASIO2KS, y tambin, se presume, en algunos drivers propietarios de tarjetas. Obviamente, el rendimiento que puede esperarse de estos casos es inferior al de un ASIO nativo; ASIO4ALL y ASIO2KS se focalizan en dar compatibilidad con ASIO a tarjetas no-pro y on-board.
GSIF
EASI
Otra alternativa en la misma direccin que ASIO fue esta API de Emagic (hoy Apple), en la que se basaba el motor de audio del Logic Audio. (Tanto el Logic como el Cubase de Steinberg fueron en principio secuenciadores MIDI, para la Atari 520 ST, luego para Mac y finalmente para Windows; en el caso del Logic, la versin de Windows fue discontinuada y actualmente existe slo en Mac). Hoy en dia el soporte para EASI es casi inexistente, optando la mayora de los productos entre ASIO o el soporte de audio del S.O. (WDM-KS y CoreAudio, en Mac).
D.A.E.
Digidesign Audio Engine. Todas las versiones de ProTools, tanto las de arquitectura no-nativa (TDM, HD) como las versiones basadas en CPU (LE, M-Powered) utilizan este layer, que se encarga de gestionar tanto el acceso al hardware como al disco duro y los plugins. No olvidemos que todas estas versiones de ProTools, incluso las de arquitectura nativa, funcionan exclusivamente con hardware de la compaa, el cual cuenta con los drivers necesarios para DAE, sin dejar de soportar otras APIs como ASIO o el sistema de audio de Windows. Recprocamente, algunos softwares pueden funcionar como capa superior del DAE, por ejemplo, Digital Performer (en Mac). Este recurso se vuelve interesante cuando trabajamos con hardware de arquitectura no-nativa, ya que slo a travs de DAE podemos usar los plugins TDM, basados en los DSPs del hardware Digidesign, y de esta manera explotarlo totalmente; si en cambio usamos el driver ASIO, el hardware se convierte en una simple tarjeta de sonido I/O.
DirectX
VST RTAS
TDM
Rewire
Buffers y latencia
Los buffers son usados en audio para mantener un flujo constante de informacin (muestras) a nivel de los convertidores, sin importar lo que pasa en el resto de la cadena. Lo que pasa en el resto de la cadena es que esa informacin tiene que pasar por procesos que requieren en pequea o gran medida la intervencin del CPU, quien necesariamente atender esos procesos en forma interrumpida. En una primera instancia, el hardware de audio enva y recibe la informacin directamete hacia/desde la memoria, en bloques, usando busmastering / DMA, dado que no puede estar generando una interrupcin por cada byte que tiene que traficar. A partir de aqu los drivers y luego la aplicacin se hacen cargo de ese audio, y como stos son a su vez tareas que corren en el CPU, es muy frecuente que tengan que trabajar con una reserva de varios de estos bloques, ms grande o ms chica dependiendo de la compejidad de sus propios procesos y la disponibilidad del procesador, la cual a su vez depende de una cantidad de factores ya vistos. Este buffereo es lo que provoca la latencia en el audio. A mayor cantidad de muestras en el buffer, ms retraso en el audio, y a menor cantidad, ms posibilidad de que el flujo se vea interrumpido provocando saltos y ruidos. Cabe observar que, si bien puede ser necesario tambin un buffereo a nivel de la comunicacin con el disco duro, ste no afectara a los procesos real-time como monitoreo de las entradas, cambios de parmetros en los plugins, sintetizadores virtuales, etc. El buffer de disco slo provocara una pequea demora al arrancar o detenerse la reproduccin, con muchsima mayor tolerancia para el trabajo. Esto tambin nos ilustra cmo en las arquitecturas puramente no-nativas, no existe el problema de la latencia, dado que, si hay que hacer un buffereo, este queda fuera de la ruta del audio (ver figura). Cuando hablamos de compensacin automtica de latencia, nos referimos a las tcnicas que utilizan los programas de audio para mantener sincronizadas las pistas, en la grabacin (el programa sabe la latencia del sistema) y en la reproduccin, en la que cada track pasa por procesos distintos (el programa sabe la latencia de los plugins).
ARQUITECTURA NO-NATIVA
Hardware de audio
El hardware que hay que agregarle a una PC para convertirla en DAW, ha variado con el desarrollo mismo de las tecnologas del audio digital, y hoy abarca una amplsima gama de productos con distintos tipos de prestaciones y precios, desde la simple tarjeta de sonido estndar hasta las costosas tarjetas de DSP, interfaces con mltiples entradas y salidas, superficies de control, etc, etc.. Analizaremos todo este conjunto desde la perspectiva funcional. Los dispositivos de audio pueden presentarse de 3 formas: integrados en el motherboard, como una tarjeta de expansin (PCI, PCIe) o como una unidad externa conectada a un puerto USB, FireWire o a otra tarjeta de expansin. Los dispositivos integrados en el motherboard, pese a tener una calidad de sonido aceptable en algunos casos, son muy limitados en cuanto a los requisitos del audio Pro (drivers, latencia, conectores, DSPmixer, multi-canal, funciones adicionales, etc.). No existen tarjetas de audio Pro integradas en un motherboard. Las tarjetas de expansin clsicas tienen la ventaja de utilizar buses de expansin ms rpidos y eficientes que los externos, pero presentan el inconveniente del alto nivel de interferencia y ruido que existe en el interior de la PC, que lo hace un medio no recomendado para circuitera de audio analgica, y el escaso espacio que existe en la placa para esta misma circuitera y los conectores, en caso de ser una tarjeta multi-canal. Generalmente en este formato encontramos tarjetas domsticas (Sound Blaster), semi-profesionales (MAudio Delta 1010LT) o profesionales multi-canal pero de interface slo digital (Frontier Design Dakota). Este es el formato elejido para los dispositivos profesionales: una unidad (generalmente rackeable) externa con toda la circuiteria tanto analgica como digital, conectada a la PC mediante un bus de expansin externo estndar o dedicado (provisto por una tarjeta PCI o PCIe). La tendencia es a utilizar el interface FireWire (IEEE1394) como estndar para dispositivos de audio profesional. El USB 1.1 naturalmente no sirve por su escaso ancho de banda. En tarjetas que utilizan USB 1.1 no es de extraar que ocurran cosas como que reduce la cantidad de canales cuando subimos la resolucin del audio, o deshabilita salidas para habilitar entradas, etc. Las tarjetas pueden diferenciarse por el nmero de entradas y de salidas de audio que poseen, su tipo (analgicas, S/PDIF, ADAT, etc.), y en el caso de las analgicas, por el tipo de conector, el/los nivel/es nominal/es que manejan, si tienen phantom power (en caso de tener preamplificador de micrfono), si son balanceadas y sus caractersticas de audio como rango dinmico, relacin S/R, respuesta en frecuencia, etc. Respecto al nmero, hay que tener en cuenta que la posibilidad de usar ms de un dispositivo para llegar a cierto nmero de E/S, est restringida slo a ciertos modelos de la misma marca, y no es algo que pueda hacerse en todos los casos ni con 2 tarjetas cualesquiera.
Tarjetas onboard
Tarjetas externas
E/S de audio
Otro aspecto a tener en cuenta son las frecuencias de sampleo y resoluciones a las que trabajan los convertidores. El estndar de la AES hoy en dia es 24bit / 96KHz, pero algunas tarjetas no lo soportan, y otras, (pocas), en cambio, lo sobrepasan. Algunas tarjetas, bajo ciertas condiciones, pueden trabajar slo a 48KHz / 16bit (Sound Blaster Audigy con drivers ASIO); esto es importante porque, como sabemos, el resampleo es otra operacin delicada que puede degradar la calidad del audio digital. Existen marcas que nombran sus productos como 64bit, 128bit, etc.; debemos entender que sea lo que sea a lo que se refieren estos bits, no es a la resolucin del audio digital. El DSP es otra parte esencial de todo hardware de audio. Lo encontramos incluso en los dispositivos ms simples, pero sobre todo, y jugando un rol importantsimo, en los ms costosos equipos profesionales.
El DSP es necesario puesto que, en el dominio digital, hasta la tarea ms simple como cambiar el nivel de una seal o mezclar dos seales, requiere hacer clculos en tiempo real con los valores de las muestras (aunque a simple vista esto puede parecer una desventaja del audio digital frente al analgico, recordemos que con clculos un poco ms complejos que esos, podemos, en cambio, lograr efectos y procesos que en analgico son sencillamente imposibles). Una primera divisin del hardware de sonido segn el DSP, pone de un lado a las tarjetas de sonido comunes y de otro a los productos en los que el DSP se usa para correr plugins. En las tarjetas comunes el DSP es importante porque es el que gestiona el mixer de la tarjeta, permitiendo rutear el audio de las entradas directamente hacia las salidas y de esta manera tener un monitoreo sin latencia (ZLM). En ocasiones es posible agregar efectos, pero a toda la mezcla de audio, no a canales que lleguen independientemente al dispositivo. Esto ltimo, en cambio, es caracterstico de los productos que analizaremos en el siguiente apartado.
Audio + DSP
PCI
I/O rack
I/O
PCI
PC
PC
DSP
DSP
DSP
DSP Cards
DSP DSP DSP
PC
Bus TDM
Slo DSP
Plugins DSP-card
Plugins no-nativos
Drivers y soporte
La mayora de las aplicaciones profesionales de audio que corren en Windows XP, pueden trabajar con cualquier tarjeta de sonido que tenga drivers genricos para este sistema (excepto los productos que usan un hardware especfico, como es el caso del ProTools). No obstante, los programas que trabajan con mltiples tracks, plugins real-time, sintes virtuales, baja latencia, etc., suelen tener un motor de audio optimizado para cierto modelo de drivers. Actualmente el modelo universal para todo el Audio Pro es el ASIO. Toda tarjeta diseada para trabajar con aplicaciones de audio profesional tiene que tener drivers ASIO; secundariamente, la mayora de las tarjetas de esta gama suelen contar tambin con soporte para GSIF. Algunas tarjetas noprofesionales tambin pueden tener soporte ASIO. Cuando una tarjeta no tiene ASIO, su desempeo dentro de programas multitrack puede llegar a no ser bueno, y adems exige de parte del usuario y/o tcnico, mucho ensayo y error con configuraciones distintas hasta encontrar una que funcione. De hecho, cuando no se los configura en ASIO, los mismos programas tienen que hacer un testeo del hardware (profiling). Otro aspecto importante de un producto, en el mundo del Audio Pro, es el soporte on-line y la actualizacin peridica de drivers, firmware, software de control, etc.
WaveIN 1/2
WaveOUT 1/2
HARD I/O
SOFT I/O
WaveIN 3/4 WaveOUT 3/4
Monitor mix
Ejemplo de DSP-Mixer bsico en tarjeta de 4 entradas / 4 salidas (M-Audio Delta Audiphile 2496). Las entradas fsicas van directo al software, mientras que las salidas del software junto con las entradas fscas van a un mixer cuya salida se puede asignar opcionalmente a una de las salidas fsicas. Este es un caso de igual nmero de entradas y salidas software y hardware. Una variante tpica es cuando cada par de entradas software y cada par de salidas fsicas tiene asignado un mixer propio de todas las seales de la tarjeta; imaginarse eso en una tarjeta de 10 entradas / 10 salidas.
Las tarjetas multimedia clsicas, las Sound Blaster clsicas, las on-board tipo AC97, etc. no poseen un DSP-mixer sino un sencillsimo mixer analgico. Aqu vemos tambin como las 3 entradas fsicas confluyen en una nica entrada software.
Esquema que ilustra el ruteo del audio desde el programa Cubase hacia la tarjeta Lexicon Studio, cuyo DSP alimenta a las unidades de reverb PC-90. En este caso tenemos 3 salidas software y una sola salida fsica.
Son dispositivos de interfaz humana (como el teclado y el mouse de la computadora) con los que podemos controlar el software de una DAW. El primer producto de este tipo fue lanzado por Mackie en 1998, para ProTools, pero pronto fueron adoptadas por el resto de las DAWs.
Superficies de control
Las superficies de control poseen potencimetros y botones que se pueden asignar a parmetros dentro de la DAW, y utilizan el protocolo MIDI para enviar y recibir informacin desde el programa, ya sea a travs de un puerto MIDI propiamente dicho, o con una conexin USB o FireWire. Existen muchos productos que integran interfaz de audio y superficie de control en el mismo dispositivo.
Yamaha 01X: Interfaz de audio con efectos DSP y mesa de control DAW en una misma unidad.
Archivos de sonido
1) Formatos PCM.
Los formatos PCM representan el Audio Digital en su forma ms bsica, tal como sale de un convertidor A/D, como viaja por un cable S/PDIF o como se graba en los CDs con formato CD-audio. La diferencia entre unos y otros puede radicar en: el soporte para distintas frecuencias de muestreo y resoluciones, cantidad de canales, codificacin de las muestras (orden, signo, enteros/decimales, lineal/no-lineal, diferencial, etc.), estructura que permita otro tipo de datos, metadatos y soporte para compresin de dominio temporal (ADPCM, etc) e incluso codificaciones no-PCM (aunque suene paradjico). Formato de audio por defecto de Windows, desarrollado por Microsoft e IBM en el ao 91. Posee una estructura en chunks (bloques), basada en el RIFF, que a su vez es muy similar al IFF en que se basa el AIFF. La principal diferencia entre stos radica en el orden de los bytes. El WAV soporta hasta 2 canales de hasta 192Khz / 32bits, coma fija o flotante, PCM lineal y tambin multiplicidad de esquemas de compresin, siendo los ms comunes los basados en PCM diferencial (ADPCM) y companding (A-law, -law). En cuanto a meta-data, el WAV tiene algunas funciones interesantes como los cue points, pero le faltan otras como el timestamp. El Broadcast Wave Format fue creado por la EBU en 1997, con el propsito de convertirse en el formato por defecto de los sistemas DAW. Es similar al WAV de Microsoft, pero le agrega a ste la compatibilidad con audio multicanal surround (5.1 canales, etc.) y agrega un chunk nuevo de metadata, el Broadcast audio extension, que contiene, entre otras cosas, informacin de timestamp. Es el formato por defecto de los sistemas operativos de Mac. Bastante similar al WAV, excepto por el orden de bytes que es el inverso, y sin limitacin en cuanto a nmero de canales, frecuencia de muestreo y resolucin. Tambin ms completo que el WAV en materia de meta-data. SD1 y SD2 son los formatos exclusivos de Digidesign, usados en las versiones antiguas de ProTools en Mac. Actualmente ProTools utiliza WAV o AIFF indistintamente tanto en Mac como en PC, pero todava existen en los estudios proyectos con el audio en este formato. La estructura es ms simple que la del WAV o el AIFF: cabecera y data, y la cabecera en el SD2 se encuentra en el resource fork del sistema de archivos de Mac. Son tambin bastante limitados en cuando a funcionalidad, el SD1 por ejemplo slo soporta archivos mono. Es el formato de audio de las plataformas Next y Sun, tambin adoptado por Linux y por el editor de cdigo abierto Audacity. Una estructura basada en cabecera-data, con un solo chunk opcional de metadata. Soporta bastantes frecuencias de muestreo y resoluciones, y algunos esquemas de compresin, tpicamente -law.
WAV
BWF
AIFF
Sound Designer
AU/SND
Hay que tener en cuenta estos factores al comparar un esquema con otro, o incluso dos implementaciones software de un mismo esquema (cdecs). Por ejemplo las frases el AAC es mejor que el MP3 o el WMA suena mejor que el MP3 carecen de sentido. En cambio las frases a tal bitrate, este codec suena mejor que este otro o a igual calidad de sonido, el archivo comprimido con este esquema pesa menos que el comprimido con este otro, a pesar de ser discutibles, ya tienen bastante ms sentido. Tambin podramos agregar para tal material de entrada, este codec trabajando a tal bitrate y con tales opciones, funciona mejor que este otro a tal otro bitrate y con tales otras opciones, o la cantidad de cmputo que demanda tal codec lo hace inutilizable para tal aplicacin, etc. Respecto a esto ltimo, no hace falta aclarar que los esquemas ms complejos son los que logran mejor calidad a bitrates bajos y tambin los que demandan ms procesador, y tambin que la compresin psicoacstica es siempre ms compleja que la compresin del dominio temporal (ADPCM, companding, etc.)
La codificacin a bitrate variable reduce aun ms el peso del archivo, aprovechando el fenmeno recin mencionado de la relacin entre el bitrate necesario para un audio bueno y la complejidad del material de entrada. Los extremos de esta variacin son el silencio (0 Kb/s) y el ruido completamente aperidico, para el cual no alcanzaran los bitrates ms altos. Una compresin VBR-X tal que A<X<B da como consecuencia un archivo que no suena mejor que un CBR-B ni peor que un CBR-A, aunque s puede sonar igual que cualquiera de los dos, y su peso estar comprendido entre ambos.
MP3
Basado en el principio psicoacstico recin visto, utiliza un mapeador tiempo-frecuencia hbrido (banco de filtros / MDCT) con tamao de bloque variable para evitar el pre-eco, e implementa las mejoras bsicas como reservorio de bits, codificacin Huffman (compresin entrpica, lossless) para las muestras ya cuantizadas y Joint Stereo. Aproximadamente a 192 Kb/s para una seal estreo, el MP3 logra un audio indistinguible del original para prcticamente cualquier material de entrada (voz, msica, etc.) El Advanced Audio Codec es el sucesor del MP3 dentro de los algoritmos del MPEG; figura en la especificacin 2 y la 4, con leves diferencias entre ambas implementaciones. Comparte el mismo principio que el MP3 pero tiene varias mejoras con respecto a ste: el mapeador tiempo-frecuencia es un MDCT puro, con mayor margen de variacin del tamao del bloque, implementa funciones avanzadas (TNS, frequency domain prediction, etc.) y soporta frecuencias de muestreo de 8 a 96 KHz (el MP3 de 16 a 48 KHz) y audio multicanal de hasta 48 canales. El AAC, al igual que otros codecs post-MP3, logra un audio excelente a tasas tan bajas como 128Kb/s.
AAC
WMA
Windows Media Audio es un formato propiedad de Microsoft. Es otro codec psicoacstico post-MP3, bastante similar al AAC en trminos tcnicos, que ha conocido varias versiones desde su lanzamiento en 1999, las ltimas de las cuales soportan VBR y audio multicanal, entre otras cosas. Actualmente existe tambin el WMA-lossless. Una de las principales caractersticas del WMA es su tecnologa para proteccin de copyright. El WMA es tambin implementado en muchos reproductores stand-alone.
Ogg Vorbis
Otro codec similar al AAC y al WMA, pero de licencia libre, a pesar de lo cual es menos popular que los otros. Tanto AAC como WMA y Vorbis se basan en la MDCT y estn optimizados para bitrates muy bajos, mostrando una clara superioridad frente al MP3 en esta franja.
ATRAC
AC3
Real Audio
QuickTime
G.7xx
* VSELP, ACELP, QCELP, etc. son codificadores de la voz (speech coders) basados en un principio llamado Linear Prediction.
FLAC
TTA
WavPack
MLP APE
Meridian Lossless Packing, es el formato usado en el DVD-audio. Es un codec cerrado, con licencia propietaria, y no es de los ms eficientes.
o Monkeys Audio, es de cdigo abierto, ms simple, con menos funcionalidades que FLAC o WavPack. WMA-lossless, ALAC y RealAudio-lossless son los formatos sin prdida de Microsoft, Apple y RealNetworks, respectivamente. Cada uno de ellos es ampliamente soportado en su familia de productos.
Ha habido esfuerzos en la comunidad del audio profesional por crear un formato de archivo estndar de edicin no destructiva, es decir un formato que pueda contener tracks, regiones, fades, envolventes, todo lo que un programa DAW salva en su archivo de sesin. OMF, OMFI (open media framework interchange) Desarrollado por AVID (digidesign, ProTools). Soporta tracks, clips y fades; no soporta automatizacin, plugins, MIDI. El audio puede ser WAV o AIFF, y puede estar separado o dentro del mismo archivo. Adems de ProTools, los siguientes productos son compatibles con OMF: Sonar, Nuendo, Logic, Digital Performer, SADiE (DAW dedicada). AAF (Advanced Authoring Format) Este formato es ms complejo y soporta eventualmente cualquier tipo de data. Muchas DAWs lo estn adoptando. Tanto OMF como AAF trabajan tambin con video. AES31 Es el formato de intercambio sugerido por la AES (Audio Engineering Society), orientado slo a audio. Es soportado por varios fabricantes pero no por ProTools, por ejemplo.
Intercambio
Sequencer (MIDI)
El MIDI es un lenguaje nico en su naturaleza, y por tanto absolutamente universal. Todos los productos que trabajan con este tipo de informacin, soportan la llamada Standard MIDI File (.MID), definida por la MMA (Midi Manufacturers Association) en la misma especificacin 1.0 de 1982; un formato muy simple basado en texto. Desde DAWs, instrumentos musicales, todos los players de audio, telfonos celulares y el propio Windows XP, que implementa un sintetizador virtual para reproducir las MIDI files. Los archivos MIDI son muy livianos (del orden de unos pocos KB), necesitan un sintetizador para ser escuchados, y por esta misma razn suenan distinto segn el reproductor que se use. El sintetizador MIDI era una parte obligatoria en las tarjetas de sonido (tanto domsticas como pro) pero ha entrado en decadencia en la actualidad, con el auge de la sntesis virtual. Los programas DAW, por su parte, salvan la informacin MIDI en el propio archivo de sesin.
Sampler
Todos estos aparatos fsicos y softwares tienen un formato de archivo asociado. El archivo de sampler comprende 2 partes: el audio por un lado, y por otro el keymap, o sea la informacin de asignacn de las regiones de audio a las teclas musicales y los eventos MIDI. Ambas partes pueden estar juntas (.GIG, Gigastudio; SF2, SoundFont, SoundBlaster) o puede estar el keymap en un formato propio y los audios en formato WAV o AIF (Halion, Kontakt). El formato DLS de la MMA pertenece al primero de estos grupos.
MIDI + Audio
Los antiguos archivos .MOD, tambin llamados tracker modules debido al software donde se originaban, eran una forma de codificar la msica en la Commodore Amiga (1987) y consisten ni ms ni menos que en una secuencia MIDI acompaada de sus propios samples, todo en un mismo archivo, una especie de archivo MIDI que suena siempre igual y no necesita sintetizador. Algunos players como Winamp, por ejemplo, siguen soportando este tipo de formatos. El formato XMF de la MMA responde exactamente a esta naturaleza. El MPEG4-Structured Audio es algo vagamente parecido, una forma de codificar msica mediante sntesis.
Sliced Audio
Los loops son otra cosa de naturaleza hbrida entre MIDI y audio, en este caso, audio que puede ser reproducido a distintos tempos, sin alterar el pitch. En realidad se trata de simples archivos PCM pero divididos en regiones o slices, a veces utilizando para ello las opciones de metadata disponibles en el propio formato WAV, como es el caso del ACIDized WAV (llamado as por el programa Sony ACID que lo emplea), en otros casos formatos propios como el RX2 de Reason.
1) Caractersticas de un sistema
Respuesta en frecuencia
La respuesta en frecuencia es la grfica que describe el comportamiento de un dispositivo con respecto a la frecuencia de la seal de entrada. El espectro de un sistema nos determina los mrgenes de frecuencia en los que puede trabajar. Dentro de esos mrgenes la respuesta debera ser plana, es decir, igual tratamiento para todas las frecuencias, pero habitualmente no es asi, existen diferencias del nivel de salida segn la frecuencia de la seal de entrada; estas diferencias se expresan en dB, por ejemplo 1dB, 3dB, 6dB, etc. Un equipo ideal es aquel que tiene una respuesta en frecuencia de 20Hz a 20KHz con 1dB o menos de variacin. El rango dinmico es una caracterstica fundamental de un aparato, nos dice qu tan grande es la gama de niveles de seal distintos con los que puede trabajar. El rango dinmico se mide en dB y es la diferencia entre el nivel mximo y el mnimo que el dispositivo puede soportar; no expresa los valores concretos de estos lmites sino el margen que existe entre ellos. Tanto en dispositivos analgicos como digitales, el nivel mnimo corresponde al piso de ruido del sistema y el mximo al punto por encima del cual la seal sufre una distorsin importante. Un rango dinmico ideal sera de 130 dB, por ejemplo. El ruido es un componente no deseado, de caractersticas ms o menos aleatorias, espectro amplio y denso, que se agrega a la seal al pasar por un sistema. Todos los sistemas, tanto analgicos como digitales, producen un cierto nivel de ruido, aunque de maneras distintas; en el dominio digital el ruido se produce por la cuantizacin, y no hay ruido de fondo, aunque frecuentemente ste es agregado (dither) para evitar efectos peores. El slo transporte de seal de un punto a otro no agrega ruido en digital, como s lo hace en analgico.
Rango dinmico
Ruido
1) Muestreo
Cualquier seal puede ser reconstruida sin error a partir de muestras tomadas a intervalos regulares de tiempo, siempre que la frecuencia de estas muestras sea al menos el doble de la mxima frecuencia contenida en la seal. Esto es lo que nos dice el teorema de muestreo de Nyquist-Shannon para el caso del audio. La mxima frecuencia que puede representar un sistema con frecuencia de muestreo FS es FS/2, llamada por eso mismo frecuencia Nyquist (FN). Cualquier sinusoide puede ser reconstruida en frecuencia, amplitud y fase con al menos dos muestras por ciclo; la nica excepcin es la propia FN que puede tener error de amplitud y fase. La reconstruccin de una sinusoide de frecuencia F mayor que FN a partir de muestras tomadas a FS da como resultado otra sinusoide de frecuencia menor (FS F). Esta distorsin se conoce como aliasing. Para evitarla, es absolutamente necesario que la seal a muestrear no contenga ningn componente de frecuencia mayor que FN. Esto conduce a la necesidad de un filtro pasa-bajo, llamado anti-aliasing, a la entrada del convertidor, en todos los casos, incluso si FN est por encima del mximo audible (20KHz), puesto que la seal a muestrear puede contener ruido que no escuchamos, y que se volver audible por el aliasing, luego de la conversin A/D. Asi como la conversin A/D requiere un pasa-bajo previo al muestreo, la conversin D/A utiliza otro pasa-bajo, llamado filtro de reconstruccin o anti-imaging, que se encarga de reconstruir la onda original a partir de la secuencia de muestras (tcnicamente lo que este filtro hace es eliminar las imgenes del espectro del audio alrededor de FS y cada uno de sus armnicos). Ambos filtros deberan tener una frecuencia de corte igual a FN y una pendiente tericamente infinita. Est claro que tal tipo de filtro no existe en analgico, y esta es la nica razn por la que en la prctica se utilizan frecuencias de muestreo superiores a 40KHz. Se trata de darle a los filtros espacio entre la frecuencia de corte 20KHz y una FN superior a sta, donde la atenuacin tiene que llegar a por lo menos 90dB, y no de aumentar la calidad del muestreo, como suele creerse errneamente; si FS cumple con la condicin de Nyquist, la reconstruccin es matemticamente perfecta.
Nyquist
Aliasing
Filtros
2) Cuantizacin
La cuantizacin es el proceso de asignar a las muestras valores discretos de amplitud, codificados como nmeros binarios de n-bits. Al hacerlo se introduce un error, dado que la amplitud original de la muestra no tiene por qu coincidir con ninguno de los valores disponibles para la cuantizacin. La magnitud de este error ser ms pequea cuanto mayor sea el nmero de valores disponibles, que a su vez depende de n, la cantidad de bits de cuantizacin, tambin llamadada profundidad (bit depth) o resolucin. Cada bit de resolucin duplica la cantidad de valores (2n), por lo tanto hace que el error sea 6dB ms pequeo con respecto a la amplitud mxima. As, el rango dinmico del sistema ser de aproximadamamente n6 dB. El error de cuantizacin es el equivalente al piso de ruido en analgico, sin embargo, es un error que depende de la seal. Cuando no hay seal, no hay ruido, y cuando hay seal, y cuanto ms pequea sea la amplitud de esta seal, el error de cuantizacin se manifestar como una distorsin (armnica) de la misma. Si la seal es ms compleja, el error tiende a manifestarse como ruido, de hecho se le suele llamar ruido de cuantizacin.
Error de cuantizacin
Dither
La idea del dither es hacer que el error de cuantizacin sea completamente aleatorio, y, al no depender de la seal, se manifieste como un ruido de fondo, (como ocurre en analgico), y no como distorsin. Esto mejora notablemente la calidad del sistema desde el punto de vista perceptivo, ya que el oido puede separar el ruido de la seal til, y percibir esta ltima con mucha mayor fidelidad. Se dice que el dither desparrama la energa del error de cuantizacin a lo largo de todo el espectro del sistema.
La tcnica para lograr esto consiste en agregar un cierto nivel de ruido a la seal, previo a su digitalizacin, de amplitud aproximadamente igual a la de un escaln de cuantizacin (intervalo entre dos valores vecinos). Esto hace que el ltimo bit de cuantizacin est variando permanentemente de forma aleatoria, absorbiendo al error original, y permitiendo que el valor exacto de la muestra aparezca como la probabilidad de que la aproximacin se haga hacia uno u otro de los valores entre los que se encuentra (ver figura).
Companding
En espaol compansin, significa compresin-expansin, y se refiere al rango dinmico. La idea es usar una escala de cuantizacin no-lineal, logartmica, de manera que queden ms bits de cuantizacin para las partes de dinmica baja y menos bits para las altas. Dicho de otro modo, los intervalos de cuantizacin no son equidistantes en el eje de la amplitud, y hay ms de ellos cerca del 0 y menos en los extremos. Esto reduce la distorsin en las seales bajas o partes bajas de la seal. En esto consisten los formatos A-Law y -Law. En el Adaptive Differential PCM, no se codifican las muestras en s, sino la diferencia entre una prediccin de la muestra y la muestra original. La prediccin se hace a partir de las muestras previas, de tal manera que la diferencia (o residuo) es suficientemente pequea para ser cuantizada con pocos bits (habitualmente 4). El ADPCM adems adapta la gama de amplitud representada por esos 4 bits, en el caso de que el error de prediccin sea muy grande. Tanto el companding como el ADPCM son usados sobre todo en voz y telefona. De todo lo dicho se desprenden las siguientes conclusiones:
ADPCM
- La frecuencia de muestreo determina el espectro del audio, el cual es siempre levemente inferior a la mitad de aquella. La FS determina tambin el margen de accin para los filtros anti-aliasing y de reconstruccin.
- La resolucin (cantidad de bits) del PCM determina el rango dinmico del audio, el cual es aproximadamente igual a 6dB multiplicado por la cantidad de bits, cuando la cuantizacin es lineal.
Audio analgico
En todo sistema de audio, existen componentes que trabajan con una seal elctrica en la cual el voltaje vara en forma continua en funcin de la presin sonora, adoptando infinitos valores sucesivos, es decir, una seal analgica. Los transductores (micrfonos, parlantes) son los encargados de pasar del dominio fsico presin al analgico voltaje y viceversa, y la electrnica asociada a ellos (preamplificadores, amplificadores de potencia) es tambin forzosamente analgica. Entre estos dos extremos de la cadena puede existir, segn el caso, diverso tipo de equipamiento tanto analgico como digital (procesadores, grabadores, trasmisores, etc.)
En el dominio analgico la seal tiende a degradarse con gran facilidad, por lo que es necesario poner especial atencin a los niveles, impedancias, cables, conectores, etc. Asimismo, el diseo de componentes analgicos de alta fidelidad involucra conocimientos profundos de acstica, matemtica, fsica, electrnica, etc., que no sern abordados aqu.
1) Componentes de la cadena
Transductores de entrada: Micrfonos
Los micrfonos pueden clasificarse segn su uso, su direccionalidad, su respuesta en frecuencia, sensibilidad, etc., o, como lo haremos aqu, segn su principio de funcionamiento. Mencionaremos los 3 tipos principales de uso comn en la actualidad. Tambin llamados de bobina mvil, constan de un diafragma suspendido frente a un imn permanente; ste cuenta con una hendidura en la que va acoplada una bobina mvil solidaria al diafragma. Cuando las ondas sonoras hacen vibrar al diafragma, la bobina se desplaza dentro del campo magntico produciendo un voltaje inducido, proporcional a la velocidad del movimiento. Pros:
Micrfonos dinmicos
- son robustos, de construccin slida, soportan mal trato, humedad, temperatura, etc. - son relativamente econmicos (en comparacin con los de condensador). - no requieren fuente de alimentacin externa. - su respuesta en frecuencia es limitada e irregular; su pico de respuesta se sita en torno a los 5 KHz, y a partir de los 8 o 10 KHz su respuesta decae rpidamente (debido a la propia estructura mecnica que impide que el diafragma se mueva a suficiente velocidad). - son sensibles a campos magnticos - se utilizan tpicamente para cantantes e instrumentos en amplificaciones en directo. - Shure SM58.
Contras:
Usos: Ejemplos:
Micrfonos de condensador
Pros:
- respuesta en frecuencia muy amplia, tpicamente de 20Hz a 18 KHz. - respuesta polar uniforme, varios patrones polares posibles. - pueden ser construidos de tamao pequeo. - son ms sensibles a cambios de temperatura y humedad. - por su alta sensibilidad, pueden distorsionar, son ms sensibles al popeo y a ruidos (tienen de por s ms ruido intrnseco). - necesitan una fuente de alimentacin externa. - uso profesional; estudios de grabacin, etc. Su elevado costo, fragilidad y sensibilidad hace que sean menos usados en amplificaciones directas. - AKG C-414, Neumann U87.
Contras:
Usos: Ejemplos:
Su funcionamiento es muy similar al de los micrfonos de condensador, la diferencia radica en que los elementos del condensador han sido permanentemente polarizados en el proceso de fabricacin, por lo que estos micrfonos no necesitan voltaje de polarizacin, aunque siguen requiriendo alimentacin para el circuito preamplificador. Su respuesta en frecuencia est entre la de los dinmicos y los de condensador. Suelen ser omnidireccionales.
Micrfonos electret
Pros:
- son robustos y pueden ser de pequeo tamao; son econmicos. - respuesta en frecuencia bastante buena (50Hz - 15KHz), sin llegar a la de un condensador. - al no requerir polarizacin, la fuente de alimentacin puede ser una simple pila de 1,5V. - son sensibles a cambios de temperatura y humedad. - se deterioran con el tiempo de uso, tienen una duracin limitada. - como micrfonos solaperos, en grabadores porttiles, computadoras, vinchas, etc. - Audio-Technica ATM10a.
Preamplificadores
Como ya dijimos, tanto los transductores de entrada como los de salida necesitan conectarse a circuitera electrnica analgica especialmente diseada para ellos. En el caso de los de entrada, se trata del preamplificador, un dispositivo diseado para trabajar con seales muy dbiles (del orden de los pocos mV), provenientes de un tipo de fuente especfica, cuya impedancia debe ser tenida en cuenta, y que segn el caso puede requerir una correccin de frecuencias (ver ecualizacin). El preamplificador amplifica estas seales a efectos de hacerlas manejables por la equipacin de audio estndar, que trabaja con seales de nivel de lnea -ya veremos lo que es-, introduciendo el mnimo ruido y distorsin posibles en el proceso. Este circuito se encuentra en las entradas de las consolas, tarjetas de sonido, etc, pero tambin puede existir como equipo independiente.
Procesadores de espectro
Filtros pasivos: el filtro es el elemento bsico de los procesadores de espectro. Los filtros pasivos son aquellos formados exclusivamente por componentes pasivos (redes RLC) y que en consecuencia slo pueden atenuar ciertas bandas y dejar pasar otras. Los tipos de filtros pasivos bsicos son el pasa-bajos (low-pass) y el pasa-altos (high-pass); la combinacin de stos da origen al pasa-banda (band-pass) y el rechazo-de-banda (band-reject o notch filter). Los parmetros de un filtro pasa-bajos o pasa-altos son su frecuencia de corte (Hz) y su pendiente (dB/oct).
Procesadores de dinmica
Compresor / expansor: tanto el compresor como el expansor actan sobre la seal cuando sta supera el umbral de amplitud (treshold) ajustable, atenundola o amplificndola, respectivamente, en una proporcin establecida por el ratio, tambin ajustable. Por ejemplo, toda seal que supere los -15dB (con respecto al nivel nominal del equipo, 0dB) ser atenuada en una razn 4:1. Para determinar si la seal supera el umbral, se utiliza un detector de envolvente, que a su vez puede tener 2 parmetros ajustables: attack y decay; estos parmetros controlan la velocidad con que el detector reacciona a los cambios de amplitud de la seal (o, lo que es lo mismo, el tiempo de integracin).
Consolas de mezcla
Niveles estandarizados
Adaptacin de impedancias.
La impedancia (Z) es el equivalente a la resistencia, cuando hablamos de circuitos de corriente alterna, y al igual que sta, se mide en ohms. Del mismo modo que ocurre con los niveles, en audio analgico hay que prestar atencin a las impedancias de salida y de entrada de dos equipos que se quieren acoplar, ya que de la relacin entre ellas depende, a su vez, que se mantengan los niveles de seal, de distorsin y de ruido. El acoplamiento entre la salida de un dispositivo y la entrada de otro, puede ser visto como un circuito con un generador de voltaje y dos resistencias en serie, la propia impedancia interna del emisor ZG impedancia de salida y la impedancia de carga ZL impedancia de entrada del receptor. Mientras que en algunas tecnologas como radiofrecuencia o telefona se utilizan enlaces de potencia (matching), en los que ZG y ZL deben ser iguales, en audio, para todos los casos, incluso el de los parlantes con la salida de potencia del amplificador, se utiliza un enlace de voltaje (bridging), en el que ZL debe ser varias veces ms alta que ZG (tpicamente, 10 veces, o ms), para conseguir la mxima transferencia de voltaje. Los micrfonos trabajan con una impedancia de salida baja (low-Z), del orden de los 200W, lo que reduce las interferencias en tendidos largos de cable, y la incidencia del efecto capacitivo de ste. Las entradas de micrfono LZ tienen una impedancia del orden de los 2KW, mientras que las de lnea suelen ser de 10KW o ms. Dispositivos de alta impedancia de salida, como guitarras elctricas o micrfonos domsticos, no pueden ser conectados ni a una ni a otra, en el primer caso por razones de impedancia y en el segundo, de nivel; para estos casos existen los llamados adaptadores de impedancia (DI box).
PLUG 1/8