Sunteți pe pagina 1din 66

Pequeo

Manual de Audio

para el
Tcnico Informtico

Introduccin
Objetivo: dar soporte a sistemas de audio
Estudiar los problemas tpicos de los sistemas de audio digital Conocer las Estaciones de audio, su funcionamiento y su relacin con el hardware y software de la computadora en que se hospedan

Audio analgico. Preamplificadores, niveles, espectro, seal/ruido, etc.

Hardware de audio: tarjetas de sonido Pro, DSP, mesas de control.

Conocer los elementos informticos propios de una estacin de audio

calidad del audio

Drivers, estndares, compatibilidad hardsoft, arquitectura de una DAW

Fsica del sonido

Software de audio: editores, multitrackers, plugins, midi, etc

Principios de audio digital

Archivos de audio. Formatos, compresin, etc.

Fallas tpicas del audio


1) No escuchamos nada, al reproducir o grabar.
Para encarar este tipo de problema, debemos revisar toda la ruta del audio, desde que entra hasta que sale de la computadora, e incluso fuera de ella. He aqu un ejemplo de dicha ruta:

Equipacin externa

Tarjeta de Sonido

Drivers

Panel de control y Mixer de la Tarjeta de sonido

Configuracin de audio y Mixer de Windows

Configuracin de audio de la aplicacin

Conexiones analgicas o digitales. En el segundo caso se aade una variable: el Clock

Volmenes, muteos, solos, mixer, etc., etc. dentro de la aplicacin

La configuracion de audio de la aplicacin y los drivers de la tarjeta determinan tambin el comportamiento del sistema en presencia de otras aplicaciones o servicios que hagan uso del audio, por ejemplo, players, messenger, etc. (ver: Multicliente)

La ruta dentro de la aplicacin puede ser tan compleja o ms que todo el resto ya visto.

Fallas tpicas del audio (cont.)


2) Saltos, ruidos, trancadera, lentitud
Hay varias situaciones que pueden provocar este tipo de sntomas. Casi todas tienen como denominador comn la falta de recursos hardware o el mal funcionamiento del mismo. A) Problema de buffer El buffer funciona como un reservorio de samples destinado justamente a compensar el tiempo de respuesta del CPU debido a la carga total de tareas o a su propia ineficiencia. Cuando el buffer es muy pequeo pueden ocurrir saltos, ruidos o incluso trancadera total del programa. En esos casos subir el tamao del mismo puede ser una solucin, que a su vez trae aparejado otro problema, conocido como Latencia. B) Problema de DMA del disco duro En Windows, es frecuente que se desactive el modo de transferencia DMA en los discos duros y unidades pticas. Cuando esto ocurre, las consecuencias en cualquier aplicacin de audio, hasta en un simple player, son notorias, ya que, no slo la tasa de transferencia de la unidad baja considerablemente, sino que adems el consumo de CPU en cualquier tarea que implique acceso a ella se multiplica, ocasionando un doble problema para el audio. C) Sistema mal configurado o recursos insuficientes. Conflicto hardware Con esto nos referimos a cualquier situacin que provoque un bajo rendimiento del hardware, desde los seteos en la BIOS, algn driver corrupto o ausente, compartimiento de IRQ, hasta la presencia de software o servicios que consuman demasiado CPU, por ejemplo un virus, o un anti-virus. Finalmente puede tratarse simplemente de que la sesin que estamos intentando correr en un multitrack es demasiado pesada para ese sistema (demasiadas pistas, plugins, etc). D) Sistema de almacenamiento lento o defectuoso Por ltimo, si hay un componente del hardware que puede dar una falla del tipo volverse lento, es el disco duro, y naturalmente esto afectara a los sistemas de audio que leen informacin directamente de l. La fragmentacin puede ser determinante cuando se est trabajando al borde de lo que los recursos hardware permiten.

Fallas tpicas del audio (cont.)


3) Latencia
La latencia es un retraso en el audio, introducido por los buffers que se implementan a nivel del driver de la tarjeta de audio. Este retraso es fcilmente apreciable, pero no constituye siempre un autntico problema. Solamente en algunos esquemas de trabajo se requiere una baja latencia (inferior a los 20 ms), mientras que en otras aplicaciones no importa en absoluto el tiempo de latencia. A) Sntomas asociados con la latencia Pequea pausa entre el momento en que se da la orden play y el arranque de la reproduccin; tambin entre la orden stop y el detenimiento de la misma. Es decir, el sistema responde lento. Tambin tarda en hacer efecto cualquier cambio que se haga desde los controles de volumen, paneo, ecualizacin, etc. Ntese que esto afecta a los mixers virtuales y no a los basados en el DSP de la tarjeta de audio. Monitoreo: el audio que sale por la salida de la tarjeta est atrasado con respecto al que entra, siempre que el monitoreo est hecho desde dentro del programa y no desde el DSP-Mixer de la tarjeta. En ocasiones, cuando estn activadas ambas rutas, lo que ocurre es que se escucha doble. Tambin estn atrasados con respecto a la entrada los vmetros o medidores implementados a nivel de la aplicacin. El sonido generado por plugins que responden a mensajes MIDI (instrumentos virtuales) tambin est atrasado con respecto al momento de recepcin de dichos mensajes. B) Requisitos de un sistema para lograr Baja Latencia (< 20ms) CPU potente y sistema despojado de servicios y programas residentes que consuman muchos recursos (ver: Optimizacin de un sistema para audio) Tarjeta de sonido profesional con drivers eficientes y compatibles con las APIs de audio Pro (ASIO) La aplicacin tiene que estar configurada para usar ASIO u otro protocolo eficiente de comunicacin con los drivers de la tarjeta. El buffer de audio tienen que ser pequeo (no ms de 512 muestras, a 44.1KHz)

Fallas tpicas del audio (cont.)


4) Otras causas tpicas de problemas
A) Tarjetas de sonido externas. Las tarjetas de sonido externas se comunican con el hardware de la PC a travs de los puertos USB o FireWire (IEEE1394), o mediante un tipo de puerto propio con una tarjeta PCI o PCIe del mismo fabricante. Es importante distinguir cualquiera de estos casos con aquellos en que la break box no consta de ningn sistema de comunicacin digital con el resto del hardware y es en cambio una simple caja para albergar los conectores de audio analgicos.

Tarjeta de sonido externa


Conectores Convertidores DSP, etc. Puerto USB, FireWire o proporcionado por una tarjeta PCI

Falsa tarjeta externa


Caja de conectores

BUS

Cable analog.

Autntica tarjeta de Audio PCI

Est claro que de estos 2 casos, el primero es el que ofrece ms beneficios, pero tambin el que trae ms complicaciones. Como si se tratara de cualquier dispositivo USB, pueden darse problemas de comunicacin, bajo rendimiento del puerto, conflictos, y cuelgues del hardware externo, que segn el caso pueden solucionarse o no apagando y prendiendo, desenchufando y volviendo a enchufar, reinstalando el driver, o incluso en algunos casos obligan a desconectar completamente tanto tarjeta como computadora de la alimentacin, y volver a cargar el S.O. con el hardware reseteado. Es importante tener en cuenta todo esto, porque nos puede complicar bastante la ecuacin a la hora de hacer un troubleshooting

Fallas tpicas del audio (cont.)


B) El Clock de audio digital Otra variable que complica los troubleshootings cuando se trabaja en Audio Profesional, es que muchas veces la tarjeta de sonido est seteada para recibir una seal de clock desde un dispositivo externo. Cuando esta seal est ausente, pueden ocurrir cosas como que sencillamente no sea posible la reproduccin o grabacin de sonido alguno, hasta que el mismo se escuche a otra velocidad. Es conveniente saber tambin que, por el contrario, cuando se trabaja con S/PDIF u otra conexin de audio digital pero no se hace caso del seteo del clock, son otros los problemas que aparecen, como por ejemplo un tipo de distorsin llamada jitter (que por cierto, nada tiene que ver con el dither, aunque suene parecido) Tambin, dicho sea de paso, en algunas tarjetas profesionales ocurren problemas con el clock aunque est seteado en interno, por ejemplo, el clsico que se empieza a escuchar todo ms lento despus de que suena inesperadamente alguno de los sonidos del sistema de Windows, que suelen estar a 22,05KHz.

C) Problemas de timing (sincro entre pistas) Los problemas de timing suelen confundirse con los de latencia, aunque no es exactamente lo mismo. Que un sistema tenga alta latencia no significa que tenga que tener necesariamente problemas de timing; en cambio si tiene baja latencia, puede tener independientemente problemas de timing y los mismos quedar encubiertos, he ah el origen de la confusin. Vamos a explicar primero qu es lo que aqu llamamos problema de timing y luego cul es su origen.

Tengo una pista, en un multitrack

Al grabar una nueva pista, la misma aparece desfasada con respecto a la anterior

Fallas tpicas del audio (cont.)


Lo primero que nos viene a la mente es el tema de la latencia, no es cierto?, y de hecho, la latencia tiene mucho que ver en esto, aunque no es la responsable directa del problema. Dado que todos los sistemas de audio usan Buffers, todos tienen latencia, a veces audible y a veces no. Ante esta realidad, los programas multitrack disponen de un sistema de compensacin automtica de latencia, para que las pistas estn siempre en sincro, no importa cul sea la configuracin de audio que usemos. Dicho de otra manera, el programa sabe cunta latencia tiene el sistema y gracias a ello puede corregir automticamente el desfasaje. Es fcil ver ahora que el problema ocurre cuando fallan los mecanismos mediante los cuales el programa sabe la latencia. Y cules son estos mecanismos? Dependen de la comunicacin entre el programa y el Driver de la tarjeta de sonido. Esta es otra de las razones de la importancia de un protocolo estndar de audio profesional, como lo es el ASIO. Cuando se utiliza ASIO, rara vez ocurren estos problemas. Si no disponemos de ASIO, o si el problema ocurre de todas maneras, podemos intentar las siguientes soluciones: - Instalar una versin distinta de drivers y/o software. Obviamente lo ms recomendable es que sea la ltima versin de ambos. - Bajar al mnimo la latencia (el buffer) para minimizar (encubrir) los efectos del problema. - Casi todos los multitrackers tienen una opcin de correccin manual del sincro entre pistas. D) Problemas de compatibilidad entre programas, plugins, formatos, drivers. Estos no son problemas en s sino simplemente limitaciones de los productos. No obstante, dada la multiplicidad de productos, fabricantes y versiones de productos distintos, tanto hardware como software, que intervienen en una estacin de audio digital tpica, es muy frecuente que estas limitaciones no estn debidamente documentadas, y provoquen comportamientos anmalos que dificultan o a veces imposibilitan totalmente el trabajo.

Como ejemplo de la conjugacin de productos distintos, mencionemos: chipset (fundamental), tarjeta de video (no menos importante), tarjeta de sonido, drivers de todas estas cosas, S.O., service packs, cualquier servicio o software residente, aplicacin principal, cada uno de los plugins instalados en el sistema.
Como ejemplo de comportamiento anmalo citemos: al estar instalado cierto plugin la aplicacin no levanta, o se vuelve inestable; al estar instalado cierto hardware, otro hardware deja de funcionar, etc., etc., etc.

Fallas tpicas del audio (cont.)


E) Los drivers multicliente Muchos usuarios se quejan de que al estar trabajando con un programa, les es imposible reproducir audio desde otro que est corriendo simultneamente. Cuando el driver de la tarjeta permite reproducur audio desde muchas aplicaciones simultneamente, se dice que es multicliente. Esto sera lo normal en la mayora de los casos; sin embargo, existen ciertas limitaciones. Muchas veces el comportamiento multicliente radica en la API de audio que se est usando. Por ejemplo, cuando utilizamos DirectSound (como hace por defecto el XP) es posible reproducir audio desde varias aplicaciones a la vez. En cambio cuando utilizamos ASIO, no siempre es posible. Este comportamiento vara entre una tarjeta y otra, entre una aplicacin y otra y entre una versin y otra del driver de la tarjeta. La regla es que cuanto ms profesional es la aplicacin, ms tendencia tiene a apropiarse del hardware de sonido y no permitir que otro programa acceda a l (lo cual es lgico, al final de cuentas). El ProTools, por ejemplo, slo funciona con ciertos modelos de hardware (de su propia compaa), se comunica con ellos mediante un protocolo exclusivo (DAE), y bloquea totalmente el acceso a ellos por otro programa mientras est corriendo. Otras veces es el propio driver, que para implementar funcionalidades como el ASIO debe deshabilitar otras como el multicliente.

F) Las tarjetas de sonido multicanal Cul puede ser la razn para que en mi aplicacin no aparezcan todas las entradas y salidas de mi tarjeta? Nuevamente, un problema de drivers o de protocolo. Algunas tarjetas slo muestran correctamente todas las entradas y salidas cuando se las accede en ASIO o en algn otro modo especfico. Tambin puede pasar que algunos canales estn en uso por programas o servicios que corren por lo bajo, como por ejemplo, el Gigastudio.

G) El GigaStudio (y otros soft-synths stand-alone) Es un programa de sampler, que funciona en modo stand-alone hasta la versin 2, en Rewire a partir de la 3, y como plugin VST en la 4. Este programa surgi en el ao 97, cuando las computadoras personales no eran lo que son ahora. En aquella poca, reproducir hasta 32 samples a tiempo real desde el disco duro, sin latencia, slo poda lograrse con un motor de audio muy eficiente, apropindose totalmente del hardware, y accediendo a la tarjeta de

Fallas tpicas del audio (cont.)


sonido mediante su propia API, no multicliente, llamada GSIF. Por otro lado, al funcionar en modo stand-alone, el Giga instalaba unos drivers MIDI virtuales para comunicarse con los programas de sequencer. La consecuencia de todo esto es que, con slo estar instalado este programa, sobre todo si es una versin vieja, el sistema se vuelve un tanto inhspito para otras aplicaciones de audio. Aunque no est corriendo la interfaz del programa, sus drivers virtuales cargados a nivel del sistema se apropian de la tarjeta de sonido o de un canal de la misma, provocando conflictos y hasta cuelgues en las otras aplicaciones. Con las versiones modernas tiende a pasar menos, y la recomendacin es, por supuesto, usarlo siempre que sea posible en modo Rewire o plugin. Tambin es importante la configuracin de las opciones dentro del propio Gigastudio, pero lamentablemente perderamos la generalidad que pretende tener este documento si nos pusiramos a hablar de ello aqu. Cabe notar que, sin ser tan drsticas las consecuencias, algo parecido ocurre cuando se utiliza cualquier tipo de sintetizador software que no sea plugin, como por ejemplo el propio sintetizador MIDI de Windows XP (GS Wavetable) H) Los plugins y la latencia En un sistema nativo, los plugins corren a expensas del CPU. Ocurren aqu 2 cosas a tener en cuenta: - Algunos plugins al ser insertados obligan a subir el tamao del buffer para que el motor de audio funcione o para evitar saltos y ruidos

- En ciertas aplicaciones host, algunos plugins al ser insertados automticamente hacen que el sistema empiece a tener latencia. Caso conocido: el L3 de Waves al ser usado en Nuendo.

I) Las carpetas del audio Es importante conocer al menos mnimamente como funciona un multitrack. Existe un archivo de sesin y una carpeta con los archivos de audio. Si esta carpeta se mueve o se renombra, el programa nos va a decir que no encuentra los archivos de audio. Otra carpeta cuyo conocimiento nos puede ser de enorme utilidad, es la carpeta de plugins VST, habitualmente situada en c:\Archivos de Programa\Steinberg\Vstplugins. A ella podemos acceder y sacar algun dll que est causando problemas en una aplicacin y tambin poner algn otro que por error no se haya instalado en esa carpeta.

Situaciones que provocan mal funcionamiento del audio


Drivers de audio defectuosos, inapropiados o no actualizados. Aplicacin mal configurada (apuntando a otro hardware o no utilizando el protocolo correcto, por ejemplo ASIO) Tarjeta de audio compartiendo IRQ con otro hardware de alto trfico (video, disco duro, ethernet gigabit, etc.)

Faltan drivers para alguna parte del hardware, o los que se estn usando no son los mejores.
Demasiada carga en el bus PCI, o el que se est usando para audio (USB, FireWire) A veces, la sla presencia de otra tarjeta de sonido (por ejemplo la onboard) u otro dispositivo multimedia provoca fallos. CPU lento, recursos hardware insuficientes, o hardware mal configurado. Opciones de Clock de la Tarjeta de sonido errneas. Usar varios hardwares de audio de fabricantes distintos, o del mismo fabricante pero no expresamente diseados para trabajar juntos, dentro de una misma aplicacin. Incompatibilidad conocida con cierto chipset. Versin vieja de algn plugin o sintetizador virtual, o plugin malo que consume excesivos recursos. Efectos grficos de Windows consumiendo muchos recursos. DMA en discos duros y unidades de CD: volvemos a insistir en este punto, porque es muy frecuente que se desconfigure y es de una importancia vital. (El DMA fue lo que permiti que las DAW comenzaran a migrar a la plataforma PC con sus discos IDE; anteriormente la tendencia era hacia el Mac y el SCSI)

La tarjeta de sonido es vieja y fue diseada para un S.O. ms viejo que el que se est usando.
Se han instalado otras aplicaciones, como ser juegos, que optimizaron el sistema para sus propias necesidades, llegando a sustituir DLLs y provocando comportamientos anmalos en otras aplicaciones. Cabe destacar que este fenmeno es mucho ms probable que ocurra en entornos basados en el antiguo Windows 98, que bajo XP, donde el S.O. restringe mucho ms el acceso a su propio ncleo. Demasiados programas y servicios en el inicio de windows, provocando un alto consumo de recursos. Presencia de aplicaciones que corren a alta prioridad, como antivirus, etc. Falta memoria RAM, y el constante acceso a disco impide trabajar con audio. El buffer de audio est configurado con un tamao muy chico o muy grande.

Configuracin y optimizacin del Sistema para Audio


HARDWARE
Las aplicaciones de audio con procesamiento real-time nativo hacen un uso intensivo del CPU. Se recomienda como mnimo un procesador de 1,5 GHz, no estando de ms cualquier mejora que se quiera hacer en este punto. Un Core 2 Quad de 3,0 GHz? Bienvenido. Algunas aplicaciones (muy pocas) exigen adems que el procesador implemente determinadas extensiones como SSE2, SSE3, etc. por lo que algunos procesadores antiguos, en especial de AMD, podran no servir. La cantidad de memoria necesaria para un sistema vara bastante segn el uso que se haga del mismo. En cualquier caso, nunca debe ser menos de 512MB. Las aplicaciones qu ms consumen RAM son los samplers y los sintetizadores basados en samples, ya que bufferean o directamente cargan el audio en memoria. En una estacin donde se utilicen este tipo de programas no es de extraar que se necesiten 2GB de RAM o ms. Cabe sealar que cualquiera sea la cantidad de memoria que finalmente no se use, esta no afectar en nada al sistema ni lo har ms rpido, constituyendo un encarecimiento intil del mismo. Otro aspecto de la RAM es su velocidad, la cual afecta al rendimiento global del sistema. Vale aqu lo mismo que se dijo para el CPU, toda mejora es bienvenida (DDR2-800, Dual-channel, etc.) La velocidad del disco duro es de suma importancia para una estacin de audio, dado que el disco es constantemente accedido al reproducir y grabar, y si se trabaja con varias pistas, es mayor la tasa de transferencia sostenida que de l se exige. Como regla general, el disco desde donde se trabaja el audio tiene que ser de 7200 rpm o ms. Los discos de 5400 rpm no son aceptables para audio y esto incluye los discos internos de los notebooks, por ejemplo. Se ha constatado que rinde ms un disco de 3,5 7200 rpm en un gabinete externo con conexin USB 2.0 o FireWire que el disco interno de un notebook. En caso de usar un disco USB o FireWire, tener mucho cuidado si la tarjeta de sonido tambin usa estos interfaces (ver Reparto del ancho de banda) Respecto al cache y al interface del disco duro, recomendamos Serial-ATA2 (3,0Gb/s) y cache de 8 o 16MB. El bus y el cache del disco aumentan notoriamente su performance aunque la tasa de transferencia derivada de sus propias latencias mecnicas est muy por debajo de los 3,0Gb/s. Respecto al SCSI: es muy caro, y no siempre ms rpido que el S-ATA. El SCSI ha tenido su propia evolucin, y no es lo mismo el viejo SCSI-II que el SCSI320, por ejemplo, pero este ltimo s que es caro, y no se justifica su uso en audio.

CPU

RAM

Disco Duro

Configuracin y optimizacin del Sistema para Audio (cont.)


Cuntos discos duros? Adems de la clsica recomendacin de tener un disco para el S.O. y otro para datos, es posible obtener un mayor rendimiento en una DAW usando varios discos duros. Por ejemplo, si se trabaja con audio multitrack y con sintetizadores basados en samples simultneamente, nada mejor que lograr que ambas bases de archivos de audio se lean de discos distintos. Se sobreentiende que estamos hablando de discos fsicos y que nada ganaramos con hacer 2 particiones en un mismo disco, al menos desde el punto de vista del rendimiento del hardware. Conviene hacer un RAID de velocidad (RAID-0)? No est de ms, tampoco es estrictamente necesario, y tampoco tiene contraindicaciones, salvo las conocidas respecto a la tolerancia a fallos. (El ProTools parece tener problemas con las controladoras RAID, pero dudo que esta situacin se mantenga) Sistema de archivos: NTFS (razn principal: tolerancia a fallos, pero hay otras). Tamao del cluster: grande en disco de audio, pequeo en disco de sistema. Fragmentacin: lo ms prctico es formatear cada tanto el disco de data, y volver a restaurar desde un back-up, dado que el respaldo es obligatorio de todas maneras. Pieza fundamental del hardware, ampliamente subvalorada. El chipset determina aspectos gruesos de la performance del sistema y tambin aspectos interesantes de compatibilidad. Por ejemplo, softwares como Pro Tools no garantizan el funcionamiento ni dan soporte en sistemas que no estn basados en ciertos modelos de chipset. Claro est que el software igual funciona con los otros chipsets, pero es muy elocuente esta pltica. Lamentablemente no hay una regla de oro para elegir un chipset, pero s ciertos lineamientos, por ejemplo: elegir siempre un chipset sin video integrado; no necesariamente por performance pero s por compatibilidad, chipsets Intel; alternativamente, VIA, nVidia; por performance, lo ms nuevo posible; por compatibilidad (y economa), un modelo antes del ms nuevo. Es un error muy frecuente creer que una tarjeta de video slo es importante para juegos y aplicaciones 3D. En el caso del audio, una buena tarjeta de video mejora sensiblemente la performance, al liberar al CPU de las tareas grficas; y en audio, tener el CPU libre es algo muy apreciado, y es una de las claves para obtener baja latencia. - Desactivar todos aquellos perifricos que no se utilizan, sobre todo puertos paralelos, serie, etc. (el audio onboard a veces conviene dejarlo aunque usemos una tarjeta de sonido profesional, justamente para aplicaciones menores, players, sonidos del sistema, messenger, etc.) - Evitar que compartan IRQ cualquier combinacin de estos 3 sub-sistemas: Video, Audio y Almacenamiento.

Disco Duro (cont.)

Chipset

Tarjeta de video

Config. hardware

Configuracin y optimizacin del Sistema para Audio (cont.)


Config. Hardware
- Algunos documentos recomiendan desactivar el ACPI, alegando que es el responsable de que varios dispositivos usen la misma IRQ; considero que esto se aplica ms bien a los antiguos sistemas basados en Windows 98. - Tambin se suele recomendar desactivar la administracin de energa del CPU (AMD Cool nQuiet, Intel similar.)

Reparto del ancho de banda


Al conectar perifricos que utilizan una gran tasa de transferencia (los de audio y almacenamiento, por ejemplo), hay que tener en cuenta la arquitectura del hardware para evitar configuraciones de bajo rendimiento.
Tarjeta de sonido PCI BUS PCI Controladora FireWire (IEEE1394)

Tarjeta de sonido externa

BUS PCI

Disco duro externo

Controladora SCSI PCI


Ethernet Gigabit PCI

?
400Mb/s 133MB/s

?
133MB/s

400Mb/s
Tarjeta de sonido externa Controladora FireWire (IEEE1394) Tarjeta de sonido PCI

133MB/s

BUS PCI

BUS PCI

Disco duro externo

Controladora USB 2.0

Controladora SCSI PCIe Ethernet Gigabit PCIe

300MB/s
SouthBridge

480Mb/s

133MB/s

300MB/s

Configuracin y optimizacin del Sistema para Audio (cont.)


Tarjeta de sonido
Las tarjetas de sonido Profesionales son las recomendadas para el trabajo profesional con audio. Qu caracteriza a estas tarjetas y las diferencia de las no-profesionales? - Mltiples entradas y salidas. Analgicas, digitales, pticas, de clock, de sincro, SMPTE, MIDI, etc. - Entradas y salidas analgicas respetando los conectores y niveles nominales estndar, balanceadas y con una buena relacin S/R y respuesta en frecuencia. - Soporte para 24bit / 96KHz. Buenos convertidores A/D y D/A (hoy en dia es posible encontrarlos en una tarjeta no-pro) - Compatibilidad probada con las principales aplicaciones Audio Profesional. - Contar con drivers eficientes, y soporte para ASIO y otros protocolos usados en audio Pro.

- Baja Latencia. Aqu conviene aclarar un par de cosas:


Primero, la posibilidad de trabajar con baja latencia depende de otros factores adems de la tarjeta de audio, por ejemplo, el rendimiento global del hardware, la velocidad del CPU, y muy importante tambin, que el sistema est despojado de tareas que compitan con el audio. Segundo, se suele creer que para que una tarjeta tenga baja latencia, alcanza con que tenga drivers ASIO y esto no es exactamente asi. Lo cierto es que los drivers de la tarjeta trabajan en conjunto con el hardware de la misma, para lograr, en definitiva, una transferencia de audio slida y rpida que permita minimizar el tamao del buffer. El diseo del hardware de la tarjeta cumple un rol importante en esto, y su componente activo es el DSP, que se encarga internamente de muchas funciones liberando a la dupla driver-CPU de las mismas. Es por esto que las tarjetas domsticas no tienen drivers ASIO, simplemente porque no estn diseadas para audio Pro ni para baja latencia, y no son cosas que se logren exclusivamente con software. Y es por esto tambin que algunas tarjetas semi-profesionales como la Sound Blaster Audigy, pueden trabajar en modo ASIO a costa de deshabilitar funciones internas, como por ejemplo el soporte para frecuencias de muestreo distintas de 48KHz. - Y ya que hablamos de DSP, otro requisito de las tarjetas profesionales es que cuenten con un mixer digital totalmente implementado en el hardware, a base de DSP, que permita, entre otras cosas, rutear y mezclar audio entre las entradas y salidas software y hardware, a efectos, por ejemplo, de monitorear sin latencia. Algunas tarjetas permiten adems agregar efectos y sintetizadores basados en su propio DSP. - Respecto al interface: PCI, PCIe, USB 2.0 y FireWire son aceptables. USB 1.1 no es aceptable para una tarjeta multicanal.

Configuracin y optimizacin del Sistema para Audio (cont.)


SOFTWARE
Sistema Operativo
Los sistemas operativos usados para Audio Profesional son 2: Windows XP y MacOS X. Aqu hablaremos del Windows. La eleccin del XP Pro SP2 frente a cualquier otra versin de Windows, incluyendo el Vista (marzo de 2008), no hace falta justificarla en absoluto. Se puede implementar una DAW sobre Linux? Se puede, pero no con los productos comerciales clsicos, siendo esta una prctica muy infrecuente. Presenta ventajas el MacOS X? Seguramente, pero es otra discusin que queda fuera del alcance de este documento. 32 o 64 bits? Performance: 64; Compatibilidad: 32. Los drivers son una parte fundamental del sistema. De nada sirve tener un hardware performante sin unos buenos drivers que lo exploten y no se molesten entre s. He aqu las 3 recomendaciones bsicas en cuanto a drivers, que se deben aplicar siempre que sea posible: - Desactivar los drivers de todo aquel hardware que no se usa y no se ha deshabilitado de otra manera (por ejemplo modems, tarjeta de red WiFi, etc.)

Drivers

- Evitar en especial los drivers de aquellos dispositivos tontos o virtuales, nos referimos a dispositivos con un hardware muy bsico que dejan en manos del driver toda la gestin, provocando un mayor consumo de recursos, o dispositivos que son totalmente emulados y no existen en el hardware (por ejemplo, sintetizadores MIDI virtuales, unidades de CD virtuales, etc.) - Utilizar los drivers actualizados y provistos por el fabricante. Evitar que los dispositivos queden sin driver, o que sean manejados por un driver genrico de Windows. Esto es vlido tanto para la tarjeta de sonido como para el resto del hardware, en especial: video, chipset y almacenamiento. Se recomienda tener a mano los siguientes add-ons para Windows XP:

Service Packs, librerias, cdecs

- DirectX ltima versin. - Apple QuickTime 6 o 7. - Windows Media Player 11. - .net Framework, todas las versiones.

- DivX, AAC, MP3, etc., etc.

Configuracin y optimizacin del Sistema para Audio (cont.)


Configuracin del Windows XP
Recomendaciones para configurar el XP para audio, tambin aplicables a otros casos. No vamos a decir la secuencia de teclas y botones para llegar a cada una de estas opciones, ni tampoco la justificacin terica, cuando sta resulte demasiado obvia. Bsicamente, se trata de deshabilitar todo aquello que genere un consumo de CPU, por mnimo que sea, y que no sea estrictamente necesario para el audio. Sigamos esta consigna: En hardware + es +; en software es +.

1) Opciones de energa Ponerlo en Siempre encendido. Que no se apaguen los discos duros y que no pase nunca a inactividad. Deshabilitar la hibernacin.

2) Opciones de rendimiento Opciones avanzadas Estas opciones especifican el criterio que el S.O. utiliza para dar prioridad a las tareas, tanto en el scheduling del CPU como en el uso de memoria. El criterio, en general, es ajustarlo para servicios en segundo plano y para cache del sistema, pero se recomienda probar en cada caso el resultado. Respecto a la tercera opcin, la de Memoria Virtual, hablaremos en el punto 3). Es importante saber que, de todas maneras, la prioridad de los procesos se puede cambiar manualmente desde el Administrador de tareas, y aunque no sea una prctica muy cmoda, puede ser la frutilla en la torta de una buena optimizacin.

3) El archivo de Paginacin (swap file) Si buscamos en internet informacin sobre cmo configurar estas opciones, encontraremos cientos de consejos, todos parcialmente justificados y contradictorios entre s, desde hacer un archivo fijo, que tenga el doble de tamao de la RAM, que est en tal disco, o en tal otro, hasta incluso no usar memoria virtual en absoluto. Ante la duda, mi recomendacin es dejarlo en Tamao administrado por el Sistema.

Configuracin y optimizacin del Sistema para Audio (cont.)


4) Opciones Grficas y otras. - No utilizar fondo de pantalla grfico. Esto aliviana la tarea grfica, y lo poco o mucho que tenga que ver el CPU con ella se va a ver beneficiado. - No utilizar salvapantallas. - Desactivar los efectos visuales (Propiedades de pantalla, Apariencia, Efectos) - Algunos recomiendan bajar la profundidad de color a 16 bits; esto s me parece exagerado. En 16 bits, siceramente las cosas se ven mal, y no es la idea. - Propiedades de sistema, Opciones avanzadas, Opciones de rendimiento, Efectos visuales: Ajustar para obtener el mejor rendimiento - Algunos documentos, incluyendo uno de Pro Tools, recomiendan ir a Propiedades de pantalla, Configuracin, Opciones Avanzadas, Solucionador de Problemas y desde all quitar completamente la Aceleracin de hardware. Por decirlo en palabras tcnicas, esto es una barrabasada si se toma como consejo para aumentar el rendimiento (lo correcto es dejarlo como est, es decir, la aceleracin al mximo o completa). La razn de la existencia de estas opciones es slo a efectos de diagnsitico. - Desactivar los sonidos de Windows, o asignarlos a una tarjeta secundaria. Simplificaremos considerablemente el panorama para las aplicaciones de audio.

5) Programas y procesos en el background. Se recomienda evitar a toda costa que haya otros procesos corriendo a la par del audio. Esto incluye: Messengers, calendarios, software de mantenimiento de discos, de medicin de temperatura del CPU, Antivirus, Antispyware, Firewalls, Virus, Spyware, Notificadores de esto y aquello, aceleradores de aquello otro, buscadores, administradores de conectividad con dispositivos USB, BlueTooth, Wireless, infrarrojos, clasificadores de fotos, monitoreadores de cambios en el registro, en el disco, etc., etc. Enfin, si lo que queremos es enlentecer la mquina, vaya si hay formas de hacerlo! Otra cosa a evitar es tener ms de una sesin de usuario abierta.

Configuracin y optimizacin del Sistema para Audio (cont.)


6) Programas al inicio de Windows. Con la utilidad msconfig.exe podemos deshabilitar algunos de los procesos que se ejecutan automticamente al iniciar Windows. Como regla general, se pueden sacar absolutamente todos los programas de la seccin inicio sin perder prcticamente ninguna funcionalidad en el sistema. Se recomienda verificar a qu software corresponde cada proceso y decidir si es realmente necesario; muchsimas veces no lo es, y es un proceso que se iniciar de todas maneras al usar ese software y no tiene por qu estar corriendo desde que se inicia la sesin en Windows.

7) Servicios de Windows y terceros. En la seccin servicios del msconfig.exe, o ejecutando services.msc, podemos tambin desactivar los servicios. A diferencia del caso anterior estos s aportan funcionalidad, pero muchas veces es una funcionalidad que no necesitamos o que no deseamos.

El msconfig permite aislar los servicios que no son de Microsoft, es decir los servicios de 3os. Dentro de este grupo, y con mucha precaucin, vale ms o menos lo mismo expresado con respecto a los programas de inicio.
Con respecto a los servicios de Microsoft, hay una cantidad que no son de utilidad para prcticamente ningn usuario, y otro grupo mayor constituido por aquellos servicios que se pueden desactivar sin que se vea afectado el audio. Este ltimo grupo comprende prcticamente a todos los servicios excepto los esenciales y el Audio de Windows. Si se prueba desactivarlos todos, obtendremos una mquina super veloz, en la que corren perfectamente las aplicaciones de audio, pero que no sirve prcticamente para ms nada; sin red, sin internet, etc.

Va aqu una breve lista de los servicios que habitualmente se pueden desactivar sin perder nada importante:
Index server, Restauracin de sistema, Temas, Ayuda y soporte tcnico, Cambio rpido de usuario, Cola de impresin (si no hay impresora), Telnet, Actualizaciones automticas, Escritorio remoto, Asistencia Remota, Fax, Netmeeting, Registro remoto, Carpetas compartidas de Messenger, Network sharing de Media Player, Configuracin inalmbrica rpida (si no tenemos Wireless), portable media serial number service, etc. Muchas de estas funciones se pueden desactivar por otros caminos. Una funcin que conviene desactivar pero no figura entre los servicios, talvez haya que cambiarla desde el registro, es la Notificacin de Auto-insercin del CD.

Configuracin y optimizacin del Sistema para Audio (cont.)


Opciones de Audio del S.O.
Las opciones de audio de Windows son bien sencillas y no entran en juego a menos que la aplicacin est configurada para usar el Windows sound system o el Dispositivo por defecto, Microsoft sound Mapper, Asignador de sonido Microsoft, Windows default o como sea que le llamen. Algunas aplicaciones, por ejemplo los players, suelen no tener opciones para elegir dispositivo y suenan a travs del sistema de Windows siempre. Los sonidos del sistema obviamente tambin responden a esta configuracin. Por eso es importante tenerla en cuenta y que no se nos pase por alto a la hora de hacer un troubleshooting. El mixer de Windows El mixer de Windows se comunica con el driver de la tarjeta a travs del Mixer API, y de esta manera controla los parmetros del mixer de la tarjeta de audio, que, a su vez, puede estar implementado en software o hardware. Con esta aplicacin podemos entonces controlar volmenes de entradas y salidas, muteo, seleccin de entradas y otros parmetros internos del dispositivo de audio. El mixer de Windows est pensado para la topologa clsica de las tarjetas domsticas (tipo Sound Blaster), y no llega a abarcar la complejidad que puede tener una tarjeta profesional. Estas tienen su propio panel de control y mixer, y muchas veces no muestran al mixer de Windows ms que unos pocos controles. Por el contrario, las tarjetas de audio baratas (o manejadas con un driver estndar provisto por Windows) no cuentan con ningn software de control propio, y toda su configuracin est en el mixer de Windows. Esto es importante ya que, si queremos capturar audio con una de estas tarjetas, debemos seleccionar la entrada en el menu de grabacin de este mixer (como muestra la figura)

Configuracin y optimizacin del Sistema para Audio (cont.)


Opciones de Audio en la Aplicacin
Las aplicaciones que utilizan audio suelen tener un men de configuracin de las opciones de audio, ms o menos complejo, segn el caso. Las ms complejas permiten elegir no slo el/los dispositivo/s que se van a usar para entrada y salida de audio, sino, antes que ello, el interface, o protocolo de comunicacin con el hardware de audio, lo que aqu vamos a llamar el API de audio. Luego de elegir uno de estos APIs, el nombre y la cantidad de dispositivos que aparecen para seleccionar puede variar totalmente. Esto se debe a que la aplicacin ve lo que el driver de audio le muestra, y los drivers de audio pueden tener o no, o implementar de manera muy distinta el soporte para cada una de las APIs que maneja la aplicacin. De la observacin del men de audio de un programa cualquiera (en este caso un editor de video) surgen las siguientes anotaciones: 1 Casi todos los programas soportan, adems del ya mencionado Sistema de audio de Windows, 3 modos de comunicacin con el driver de audio: - MME, Multimedia, Wave, etc. es el API clsico de Windows. - DirectSound, es el API moderno de Windows. - ASIO es el API profesional, y no es de Windows. - Algunas aplicaciones soportan tambin el llamado WDM/KS. 2 Las tarjetas de sonido presentan sus entradas y salidas organizadas en pares, 1/2, 3/4, etc. 3 Adems de las opciones de entradas y salidas, suele haber algun tipo de control del buffer de audio. 4 Cuando utilizamos ASIO esta opcin del buffer no est, ya que se encuentra en el panel de control de la tarjeta, es uno de los requisitos de toda implementacin del protocolo ASIO.

Relacin del audio con los recursos de la mquina


En cualquiera de sus formas, desde el simple reproductor de sonidos, hasta la complejidad de un programa de msica, donde se trabaja con mltiples pistas de sonido, efectos en tiempo real, automatizaciones, instrumentos MIDI virtuales, loops de batera, etc., el audio es una aplicacin REAL TIME. Esto significa que en cualquier caso en donde se trabaje con audio, necesitamos que la mquina responda en el momento y no que procese y luego arroje el resultado. Esta es la razn por la cual constituye una ciencia tan interesante la configuracin de un sistema para trabajar con audio. Analicemos primero la cadena de procesos comn a todas las aplicaciones:

Lectura/escritura directa desde/al disco duro

Procesamiento real-time basado en el CPU

Streaming hacia/desde el hardware (I/O)

Esta cadena debe ser cumplida en forma continua, y en algunos casos con un tiempo de respuesta de menos de 10ms.

Sistema de almacenamiento rpido. Esto incluye al propio disco duro, al hardware donde se conecta (controladora IDE, S-ATA, SouthBridge, Chipset, motherboard) y al software de manejo (drivers, S.O.)

CPU potente y lo ms libre posible de otras tareas que atender. El S.O. es en parte responsable del tiempo de respuesta del CPU. La cantidad de servicios y programas corriendo en el background. El resto del hardware y sus drivers tambin juegan un papel en esto (por ejemplo, tarjeta de video)

Hardware: sistema de I/O, buses, PCI, USB, etc. Nuevamente, el chipset y sus drivers. Hardware especfico de audio y sus drivers. S.O. y su soporte para dispositivos de audio y soluciones software de terceros.

Como vemos, en toda aplicacin de audio juegan un rol importantsimo, el hardware en su conjunto, el CPU en particular, y el S.O. y su manejo de estas dos cosas.

Relacin del audio con los recursos de la mquina (cont.)


La cantidad de tracks depende de la velocidad del sistema de almacenamiento. Cada pista de audio consume una cierta cantidad de transferencia del disco duro. Por ejemplo un stream de 1 canal de audio PCM a 44,1KHz/16bits consume aproximadamente 0,7Mb/s. Multiplicando esto por la cantidad de pistas obtendremos la tasa de transferencia total que necesitamos del sistema de almacenamiento.

Cantidad de Tracks

No confundir la velocidad terica de un bus (por ejemplo 3Gb/s) con la tasa de transferencia sostenida real de un disco duro (por ejemplo ~30MB/s). Tampoco confundir la cantidad de pistas que se leen/escriben real-time desde/hacia el disco duro, con la cantidad de canales que se streamean hacia el hardware de audio. Esta ltima suele ser menor, aunque nada impide que sea igual o mayor. Y otra cosa muy importante: no olvidemos que el hardware de audio y el sistema de almacenamiento coinciden finalmente en un mismo bus, ms tarde o temprano en la arquitectura del hardware (southbridge, PCI, USB, etc.), dependiendo del hardware que se trate. La cantidad de canales de I/O no tiene por qu coincidir ni con la cantidad de pistas de un multitrack, ni con la cantidad de entradas y salidas fsicas que tenga el dispositivo de audio, pudiendo ser menor o mayor que cualquiera de stas. Veamos el grfico:

Cantidad de canales de I/O

Mixer Aplicacin (CPU) Pistas leidas desde el disco duro Canales enviados a la tarjeta

Mixer Tarjeta (DSP) Entradas y salidas fsicas

La cantidad de canales de I/O es a los buses de I/O (PCI, USB, etc.) lo que la cantidad de tracks es al disco duro. Las tarjetas de audio que utilizan USB 2.0 o FireWire estn limitadas en este aspecto frente a las PCI o PCIe. Por esta misma razn, USB 1.1 no es un interface aceptable para ninguna tarjeta profesional, y menos aun si es multicanal. Por otro lado, el rendimiento del streaming de mltiples canales de audio hacia o desde el dispositivo de audio, depende como se ve, de la eficiencia del bus al que est conectado, la presencia de otros dispositivos consumiendo ancho de banda o compartiendo la misma IRQ, el chipset, los drivers, etc.

Relacin del audio con los recursos de la mquina (cont.)


La suma de todos los efectos que se aplican real-time al audio, desde la simple mezcla de 2 streams o el cambio de nivel de una seal digital, hasta los ms sofisticados reverbs, ecualizadores, procesadores de dinmica y efectos diversos, puede ser vista como un gran algoritmo de procesamiento que el CPU debe aplicar continuamente a la cadena total de muestras, resultado de la cantidad de pistas y canales de audio que intervienen en esos procesos. La complejidad de ese inmenso algoritmo est limitada por la velocidad de procesamiento del CPU. Cada plugin que agregamos consume un porcentaje de esa capacidad. Ntese que en los sistemas llamados no-nativos el procesamiento del audio est a cargo de un hardware dedicado a ello, habitualmente con muchos chips DSP. Pero hoy en dia son cada vez menos los sistemas puramente no-nativos.

Plug-ins y efectos

Los sintetizadores MIDI virtuales consumen CPU igual que los plugins, pero pueden agregar ms variables aun, a la ya compleja ecuacin del audio. Aquellos instrumentos basados en samples (pre- grabaciones de audio digital), o los propios llamados justamente samplers, funcionan como sub-multitrackers dentro del multitrack, y su polifona es la cantidad de pistas, ya que los samples con los que trabajan se leen en gran medida directamente desde el disco duro (DFD), exactamente igual que las tracks de audio, y se procesan con algoritmos y se mezclan antes de ser ruteados dentro de la aplicacin host, que a su vez procesar este audio, lo mezclar con otras fuentes y lo rutear todo hacia el hardware de audio. Como la polifona de estos instrumentos suele ser grande (24, 32 o ms voces), todos ellos permiten hacer un pre-buffereo parcial de los samples en RAM, o directamente cargarlos ntegramente en la memoria y no utilizar el disco duro. Esto aliviana bastante el consumo de disco duro pero eleva la RAM requerida a cantidades de las que habitualmente no se dispone (varios GB).

Instrumentos MIDI virtuales

Lectura directa desde disco duro

Procesamiento basado en CPU

Streaming hacia la tarjeta de audio

multitrack dentro del multitrack

Relacin del audio con los recursos de la mquina (cont.)


Qu impacto tendr sobre el sistema trabajar a una frecuencia de muestreo y resolucin mayores en nuestra aplicacin de audio? La respuesta es bastante sencilla: mayor frecuencia de muestreo y resolucin implican mayor cantidad de informacin por unidad de tiempo, dicho de otra manera, mayor bitrate, mayor cantidad de MB/s. Todas las exigencias mencionadas anteriormenten se vern incrementadas: mayor tasa de transferencia en disco duro y en buses de I/O, mayor cantidad de informacin por segundo a pasar por el algoritmo de procesamiento a cargo del CPU, derivado de la combinacin de efectos, mezclas, automatizaciones, instrumentos virtuales, etc., o sea, ms consumo de CPU.

Formato del audio PCM. Compresin

Qu ocurre con la latencia? Si el buffer se mantiene en la misma cantidad de muestras, la latencia sera menor al subir la frecuencia de muestreo, pero es obvio que con el incremento masivo del consumo de recursos resulta ingenuo esperar que no haya que subir el tamao del buffer. Respecto a la compresin: a diferencia de lo que ocurre con el video, las plataformas de edicin y mezcla de audio digital trabajan con archivos PCM. La razn es que no hay necesidad de usar compresin, dado que el bitrate del audio PCM, incluso a altas frecuencias de muestreo y resoluciones, sigue siendo pequeo frente a las velocidades actuales de los discos duros y buses de I/O, cosa que no ocurre con el video de alta definicin. En audio la compresin se usa en otros puntos de la cadena, por ejemplo el delivery, internet streaming, dispositivos porttiles y por supuesto, en el audio que acompaa al video. Si se trabajara sobre archivos comprimidos disminuira la carga sobre el disco duro y aumentaria la del CPU. La latencia, en audio, se define como la diferencia de tiempo entre la entrada y la salida del audio, o, de un modo ms general, la diferencia de tiempo entre el momento en que el software cambia un sonido y el momento en que ese cambio es odo. En la ruta del audio, diversas cosas producen ese retraso. Una fuente de latencia son los procesos mismos por los que pasa el audio (latencia algortmica) y la otra fuente tiene que ver con los tiempos de respuesta del procesador en un contexto determinado (interrupt latency, scheduling latency). Dentro del primer grupo se encuentra la latencia de los convertidores (2ms) y la latencia que introduce el sistema de audio de Windows, mayormente un componente del mismo llamado kmixer (kernel mixer). Esta ltima es la que se evita usando los famosos drivers ASIO. Nos queda la otra fuente de latencia. Para mantener un flujo constante de audio a pesar de las demoras del CPU, se utiliza un buffer, que es el que determina la latencia. Qu ocurre si bajamos el tamao del buffer? Aparecen saltos y ruidos a causa de esas demoras en la respuesta del CPU. Qu se necesita entonces para tener baja latencia, adems de una tarjeta de sonido con drivers ASIO o equivalentes? Respuesta: un CPU rpido y libre, en lo posible, de otras tareas adems de la de procesar audio.

Baja latencia

Relacin del audio con los recursos de la mquina (cont.)


De todo lo visto hasta ahora parece ser que lo que se necesita para audio es: disco duro, CPU, ms disco duro y ms CPU. Cabe entonces preguntarse: y la RAM... qu papel juega?
Bueno, no existe ninguna funcin en el audio que se vea afectada directamente por la falta de memoria RAM. La falta de memoria RAM afecta al comportamiento general del sistema, de acuerdo a las siguientes reglas:

Qu papel juega la RAM?

1) cuando un equipo tiene menos memoria fsica que la requerida por la suma de programas y procesos que se estn corriendo en determinado momento, entonces toda la mquina va a andar ms lenta (debido al constante acceso a disco), y talvez algunos procesos real-time no puedan ser llevados a cabo. 2) la cantidad de memoria fsica que un equipo tenga por encima de la cantidad que estn utilizando los programas, no afecta en absolutamente nada el funcionamiento del mismo, ni lo hace ms rpido. O sea que para el caso del audio, si le falta memoria, es muy probable que directamente no funcione, y si en cambio ya tiene sufuciente RAM y est andando bien, agregarle ms no mejorara nada tampoco. Y cunta RAM se necesita? Depende de cada caso, pero nunca menos de 512MB. Recordemos tambien que se precisa mucha memoria para trabajar con samplers virtuales o sintes virtuales basados en samples. Cualquier actividad que provoque consumo de CPU o trfico en el disco duro o en los buses de E/S va a afectar al audio. Partimos de la base de que tenemos un sistema al borde de sus posibilidades. Obviamente si lo que estamos haciendo es reproducir un MP3 en un Core 2 Quad con 2GB de RAM y un disco de 10000 rpm, difcil que logremos interrumpir el flujo del audio, por ms cosas que hagamos con la computadora. En cambio si tenemos un PC estndar, y estamos corriendo una sesin con 40 pistas de audio, a 24/96, con 3 plugins en cada pista y una latencia de 10ms, ahora s el sistema est sensible a otros procesos. Veamos algunos ejemplos: - Mover o copiar data de un disco a otro, o a traves de una red a 100 o 1000 Mb/s. - Capturar video desde una cmara digital. - Grabar un DVD. - Comprimir un video, o hacer un batch-processing de fotos. - Reproducir un video (esto muchas veces lo hacen los propios programas de edicin de audio, y s, aumenta el consumo de recursos).

Procesos que interfieren con el audio

Estaciones de Audio Digital


Estacin de Audio Digital (Digital Audio Worstation, DAW) es el nombre que se le da a una computadora equipada con hardware y software de audio profesional, que puede utilizarse para: grabacin y reproduccin de audio en varios canales simultneos, edicin no lineal / no destructiva, proceso del audio mediante efectos real-time y mezcla de varias fuentes, todo en el dominio digital, disponiendo adems de una interfaz grfica avanzada, y opcionalmente una superficie de control, sequencer MIDI y video-playbak sincronizado. Es decir, una DAW es un sistema informtico destinado a hacer cualquier tipo de trabajo con audio. Tambien se le llama DAW al software que corre esa estacin, por ejemplo ProTools, Digital Performer, Nuendo, Sonar, etc.

El trabajo en DAWs suele estar orientado a 2 campos: Msica (produccin, grabacin, mezcla, masterizacin, etc) y Audiovisual (cine, publicidad, video, etc). Asimismo, las plataformas informticas son moneda corriente en cualquier actividad que involucre presentacin o difusin de material sonoro, por ejemplo TV, Radio, espectculos y el hogar mismo. Hoy en dia podra decirse que donde hay audio, hay audio digital, y donde hay audio digital, hay una computadora detrs (en forma de PC o no).
Veamos algunos aspectos del trabajo con audio digital. Es la funcin bsica de toda DAW. Para ello la computadora hace uso de los convertidores A/D y D/A que estn en el hardware de audio (tarjeta de sonido). Muchas veces la toma de sonido se hace en varios canales simultneos, provenientes de distintas fuentes, pasando por equipacin de audio analgica; para ello, el dispositivo de sonido deber tener las entradas y salidas correspondientes. La reproduccin puede involucrar tambin varias pistas de sonido, que se procesan, mezclan y rutean hacia una o ms salidas de la tarjeta en tiempo real. Tambin suele haber reproduccin y grabacin simultneamente, combinada a veces con reproduccin de video, cuando se trabaja en postproduccin audiovisual. Una verdadera revolucin ocurri en el audio a principios de los 90s con la aparicin de la llamada edicin no lineal. Los sistemas no lineales son aquellos basados en un soporte digital con acceso aleatorio, como es el disco duro, e involucran el uso de una computadora. En ellos existe una capa de edicin virtual entre la informacin almacenada en el medio y lo que el usuario escucha al reproducir. Esa capa permite modificar el orden de las partes, los volmenes, ecualizacin, etc., etc., sin alterar los archivos de audio que estn en el disco duro, por eso se habla tambin de edicin no destructiva. Los datos de edicin se guardan en un archivo independiente, pudiendo incluso salvarse varias versiones distintas y alternar entre unas y otras sin necesidad de tocar nada a nivel de los archivos de audio, la media. Tambin existe la edicin basada en archivos, por ejemplo, en los casos en que el poder de procesamiento del hardware no es suficiente para trabajar real-time, pero obviamente la tendencia es a virtualizar cada vez ms y ms funciones en la DAW.

Grabacin y reproduccin

Edicin

Estaciones de Audio Digital (cont.)


Esta es otra rea que se ha visto inmensamente favorecida por la tecnologa digital y el creciente poder de procesamiento de los sistemas. El procesamiento de seales digitales (DSP) permite aplicarle al audio digital los mismos efectos que se utilizaban en el dominio analgico (filtros, ecualizadores, procesadores de dinmica, etc.) pero con una sofisticacin aun mayor, y tambin infinidad de algoritmos relativamente nuevos, como la emulacin de ambientes acsticos reales, reduccin de ruido, cambio de altura de la voz, etc., todo ello con absoluta transparencia, reduciendo al mnimo la distorsin y ruido generados en el proceso. Este procesamiento, en la DAW, estaba originalmente a cargo exclusivamente de chips especializados (DSPs ubicados en el hardware de audio), pero conforme a la rpida evolucin de los sistemas informticos, fue ganando terreno el procesamiento nativo, es decir, basado en el propio CPU de la computadora.

Proceso

Los plugins son los encargados, en una DAW, de aplicarle al audio estos procesos y efectos en tiempo real.
El procesamiento digital de seal es usado tambin en la codificacin y decodificacin del audio digital, los algoritmos de compresin que son la clave del desarrollo de dispositivos porttiles, la telefona digital, celular, el audio en internet, VoIP, etc. En audio se conoce como mezcla al proceso de combinacin de mltiples fuentes (pistas) de sonido en una sola fuente final, pasando cada pista o grupo de ellas por procesos que, a su vez, pueden variar en el tiempo, por ejemplo, volumen, ecualizacin, etc. Esto es lo que se hace, por ejemplo, en una grabacin o amplificacin en vivo de msica, donde cada canal representa a un instrumento, o en la sonorizacin de una pelcula de cine, en donde tenemos msica, dilogos, varias pistas de efectos sonoros, etc. En el dominio digital, la mezcla no es ms que otro proceso DSP. Los programas de edicin multitrack poseen un mixer virtual y cuentan con el recurso de automatizar los cambios de volumen y de cualquier otro parmetro que las pistas deban sufrir a lo largo de la duracin de la pieza, mediante unos graficos manipulables, habitualmente llamados envolventes. La generacin (sntesis) de sonido es ampliamente utilizada en msica y en algunas otras reas (sntesis de voz, por ejemplo). Los sintetizadores utilizados en msica tuvieron una larga evolucin que se remonta a la primera mitad del siglo XX, y conocieron la era digital durante la dcada del 80. Fue en esa poca tambin que surgi el protocolo MIDI, que aun hoy sigue siendo la esencia de la unin entre msica e informtica. A fines de los 90 aparecen los sintetizadores virtuales, es decir, generadores de sonido totalmente basados en software, controlados por MIDI, que se integran dentro de un programa DAW, y pueden emular a los antiguos sintes analgicos y digitales, y tambien superar a estos, en polifona y complejidad del sonido. El uso de soft synths exige casi siempre, algo que aun sigue siendo no del todo fcil de lograr en una DAW: la baja latencia.

Mezcla

Generacin de sonido

Estaciones de Audio Digital (cont.)


Soportes y conexiones de Audio Digital
Cinta. Estreo: DAT; Multicanal: ADAT (VHS), DA-88 (Hi8) Opticos: CD-Audio, DVD-Audio.

Soportes

Sony Mini-Disc (magneto-ptico, estreo, con compresin)


Unidades de almacenamiento: en el Disco Duro, CD y DVD-Rom y en unidades Flash / USB, el audio digital puede existir en multiplicidad de formatos, PCM, compresin lossless, compresin psicoacstica, etc., etc. Estreo: S/PDIF (coaxial y ptico), AES/EBU

Conexiones

Multicanal: ADAT, TDIF Streaming directo a travs de Internet, LAN (ethernet), USB, FireWire.

DAWs dedicadas y hospedadas, nativas y no-nativas


Toda DAW supone la existencia de un sistema informtico (desde el momento en que su soporte de grabacin es una unidad de almacenamiento con sistema de archivos, por no hablar de la interfaz grfica y dems carctersticas complejas). Pero este soporte no tiene por qu ser una computadora personal con un S.O. estndar. Las DAWs dedicadas utilizan una computadora dedicada con S.O. propio. Las primeras DAWs del mercado fueron de este tipo, pero pronto surgieron empresas (por ejemplo Digidesign) dedicadas a desarrollar productos hospedados, que aprovechaban los recursos (principalmente grficos y de interfaz-usuario) de las computadoras personales existentes. La primer plataforma que se mostr apta para ello fue el Apple Macintosh, pero progresivamente el PC fue ganando terreno hasta ubicarse a la misma altura. A principios de los 90s las computadoras personales no tenan el poder de procesamiento y ancho de banda requeridos para el trabajo con audio digital, de manera que slo servan como soporte para correr el software, que a su vez manejaba un costoso hardware -provisto de convertidores, chips DSP y hasta en ocasiones el propio disco duro de audio- conectado al bus de expansin de la mquina. Esto es lo que llamamos una DAW no-nativa. Por el contrario, a fines de esa misma dcada, surgen productos que trabajan nativamente con los recursos de la PC, a la cual slo hay que agregarle una -en comparacin- simple y accesible tarjeta con convertidores. Estas DAW nativas utilizan el CPU de la computadora en que se hospedan para desempear prcticamente todas las funciones requeridas por el software, y por ello dependen mucho ms de un sistema potente y bien configurado.

Historia del Audio Digital y la DAW


1957. Max Mathews, Bell Labs: primeros sonidos generados por ordenador. 1975. EMT Model 250, el primer Reverb digital. 1977. Sony PCM-1, grabador digital en cinta de vdeo Beta. 1978-79. N.E.D. Synclavier. y Fairlight CMI. Primeros sintetizadores digitales. 1982. Sony y Philips Compact Disc (CD). 44,1KHz/16bit. 1983. MIDI. Yamaha DX7, sintetizador digital FM. 1985. DigiDesign Sound Designer. Editor de samples Emu. (Mac) 1986. AMS Audiofile. 1 DAW dedicada, usada en postproduccin. 1986. Primeras consolas digitales. 1986. Sony DAT (Digital Audio Tape) 1986. Akai S900. MIDI Sampler basado en RAM. 1987. Digidesign Sound Tools. Sound Designer + Hardware dedicado. (Mac) 1987. Sonic Solutions NoNoise. 1er. software de reduccin de ruido. (Mac) 1987. Fraunhofer desarrolla el algoritmo posteriormente conociodo como MP3. 1988. Se forma el MPEG (Moving Picture Experts Group). 1988-89. AdLib 1 tarjeta de sonido para PC. Creative Sound Blaster (8bit A/D) 1990. Sequencers MIDI + Audio en Mac: Opcode Studio Vision y MOTU Digital Performer. Ambos usaban DAE (hardware Digidesign) 1990. CD-R. Grabadoras de CD. 1991. Alesis ADAT. 1er. grabador digital multipista de precio accesible. (VHS) 1991. Digidesign Pro Tools (Mac). Tarjetas DSP Nubus. 1992. Turtle Beach Multisound. Tarjeta ISA para PC 44KHz/16bit, DSP Motorola 56001. 1992. El algoritmo de Fraunhofer (MP3) fue integrado en el standard MPEG-1. 1992. Dolby Digital (AC-3) 1992. Sony MiniDisc (magneto-ptico con compresin) 1992-93. Digital Audio Labs Card-D y SAW. Primeras DAW para PC. 1993. Digidesign Session8. 1er. producto de Digidesign para PC. HD SCSI propio. 1994. Pro Tools III TDM. 1er. DAW con soporte para plugins de terceros. 1994. Fraunhofer l3enc, 1er. programa disponible al pblico para crear mp3s en un PC. 1994. Yamaha ProMix 01. 1er. Consola digital de precio accesible. 1995-96. Sequencers MIDI + Audio, esta vez en PC: Cakewalk Pro Audio (Sonar), y en PC y Mac: Emagic (Apple) Logic Audio, Steinberg Cubase VST. 1996. Aparece el estndar 24 bits / 96 kHz.
1996. Roland VS-880. 1 DAW dedicada de precio accesible. 1997. Orban Audicy. 1er. DAW dedicada del famoso desarrollador de tecnologas para broadcast. 1997. DVD video. 1997-00. Softwares nativos en PC: SonicFoundry (Sony) Vegas, SekD (Magix) Samplitude 2496, Sintrillium Cool Edit Pro (Adobe Audition), Steinberg Nuendo. 1997-98. Aparecen los plugins nativos: Waves Native, TC|Works Native. 1997-99. Tarjetas de sonido Pro PCI: Korg 1212, Echo Layla, Gina & Darla, Aardvark 20/20+, MOTU 2408, Frontier Design Dakota, M-audio Delta Series. 1998. Pro Tools|24MIX (Mac & PC) 1er. Pro Tools para PC (Windows NT). A partir de este, todos los productos Digidesign son para Mac y PC. 1998. Nemesys (Tascam) GigaSampler y Gigastudio (PC). 1998. Tarjetas de sonido con efectos DSP: Yamaha DSP Factory, Creamware PULSAR. 1999. Sintetizadores virtuales (VSTi). 1999. Digi 001 y Pro Tools LE. 1er. Pro Tools nativo. 1999. Audio DVD Standard 1.0. 1999. Primeros dispositivos porttiles para reproducir MP3s. 2001. Tarjetas de sonido Pro externas: Tascam US-428 (USB), MOTU 828 (FireWire). 2001-02. Tarjetas slo DSP TC Powercore, Universal Audio UAD1. 2002-03. Pro Tools|HD, Pro Tools|HD Accel.
1981. IBM PC. Intel 8086 (16bit) 4,7MHz, 64KB RAM. 1984. Apple Macintosh. CPU Motorola 68000. S.O. grfico. 1985. Atari 520 ST. Puertos MIDI incorporados. Commodore Amiga. Conversores D/A de 8 bits. 1987. Mac II. Nubus, SCSI. 1992. Atari Falcon 030. Ultimo modelo de Atari, orientada a multimedia. 1993. PCI. El PC cuenta con un bus de expansin rpido. Busmastering DMA 1994. Mac Motorola PPC. 1998. ATA33. Los discos duros IDE se vuelven rpidos. 1999. MacOS X. 2001. Windows XP. 32bit. Audio WDM. Buen soporte multimedia. 2006. Mac PPCx86.

Software de audio
Players
Programas sumamente sencillos, destinados a reproducir archivos de audio y otros. Ejemplos: Windows Media Player, Winamp, iTunes, Nero Media Player, etc. En esta categora incluimos aquellos programas que trabajan directamente sobre un archivo de audio, permitiendo modificarlo, procesarlo, cortarlo, combinarlo, etc., anlogamente a lo que los editores de fotos o de texto hacen con sus respectivos archivos. Ejemplos: Sony Sound Forge, Adobe Audition (en modo editor, antes llamado Cool Edit), Steinberg Wavelab. Este es el grupo de programas basados en el principio de edicin no-destructiva introducido por ProTools a comienzos de los 90s. Permiten grabar, editar y mezclar varias pistas de audio, cortar, mover, repetir regiones, procesar, agregar efectos, fades, cross-fades, automatizaciones, etc., todo real-time sin modificar los archivos de audio, salvando toda la edicin en un archivo independiente. Actualmente todos los programas DAW permiten trabajar tambin con MIDI, pero originalmente esto no era as; por eso tenemos, si se quiere, dos sabores en programas DAW: los MIDI-DAW como Digital Performer, Logic Audio, Sonar, Steinberg Cubase, y los Audio-DAW como ProTools, Samplitude Studio, Adobe Audition, Steinberg Nuendo. Funcionalmente ambos grupos son similares, siendo su nica diferencia el hecho de que los primeros eran originalmente programas de sequencer MIDI. Los plugins son programas que no funcionan por s solos, sino que lo hacen en el seno de una aplicacin host, agregndole a sta nuevos algoritmos de procesamiento de audio, o efectos como se les suele llamar. Un plugin puede ser un simple archivo .DLL, que la aplicacin carga cuando el usuario coloca ese plugin en algn punto de la ruta del audio, dentro del mixer virtual de la aplicacin. Los plugins pueden ser usados de esta manera (real-time) o puntualmente para procesar destructivamente un archivo de audio. Tanto los programas DAW como los editores y los programas de msica pueden compartir un mismo set de plugins instalados en el sistema. Existen varios formatos de plugins, compatibles con unos o otros hosts (DX, VST, RTAS, TDM, etc.); habitualmente un mismo producto suele traer el instalador para varios de estos formatos, por ejemplo: DX, VST y RTAS.

Editores

Multitrackers (DAW)

Plugins

Software de audio (cont.)


Los sintetizadores virtuales (Dxi, VSTi) son un tipo de plugins que en lugar de procesar audio, generan sonido a partir de mensajes MIDI. Los plugins pueden recibir desde la aplicacin host, adems de audio y MIDI, informacin de automatizacin, con la cual el plugin puede variar automticamente cualquiera de sus parmetros a lo largo de la duracin de la pieza, como ya lo hace la aplicacin con sus propios parmetros.

Plugins (cont.)

Los plugins han llegado a ser tan importantes en el audio, que existen aplicaciones que son meros racks virtuales para insertar efectos y sintetizadores y utilizarlos en modo stand-alone, como simples procesadores dentro de una cadena con equipos de audio externos, o como instrumentos musicales en un espectculo en vivo (muchos sintes virtuales ya traen una aplicacin para usarlos stand-alone). Ejemplos de plugins de audio: Waves Bundle, TC Bundle, Antares Auto-Tune; instrumentos virtuales: Native Instruments B4, FM8, Pro53. Dentro de esta categora encontramos diversos programas orientados a la produccin de msica. Estos programas pueden poseer una o ms de, o incluso todas, las siguientes propiedades: - Loops (por ejemplo, Sony Acid Pro, Ableton Live, Reason, Fruity Loops). Los loops son pequeos segmentos de audio que se repiten en sincrona con otros elementos musicales.

Msica

- MIDI y sntesis (Live, Reason, Reaktor, Fruity) A fines de los 80 y principios de los 90 existan programas que solamente trabajaban con MIDI, utilizando generadores de sonido externos a la computadora. Actualmente lo ms interesante de esta tcnica es que los generadores son tambin programas que corren en la misma PC. - Sampler (Tascam Gigastudio, Reason). Los samplers son otro tipo de sintetizadores, que generan el sonido a partir de archivos de audio en la computadora, a veces muchos de ellos simultneamente y muy pesados. - Audio (Acid Pro, Live) Pistas de audio, exactamente igual que en un multitrack. ...se preguntar el lector. MIDI es un sistema de comunicacin digital estndar entre instrumentos musicales, sintetizadores y otros dispositivos electrnicos, desarrollado a principios de los 80. Incluye un protocolo hardware (interface serial a 31,25 Kb/s) y sobre l un protocolo software, consistiente en un conjunto de mensajes mediante los cuales se puede trasmitir por ejemplo la ejecucin que se hace sobre un instrumento de teclado (mensajes de nota, de pitchbend, etc.), el cambio de preset en un equipo, etc. El MIDI tambin se utiliza como soporte para el cdigo de tiempo SMPTE (MTC) utilizado en el campo de la post-produccin audiovisual profesional para sincronizar dispositivos entre s.

Qu es MIDI?

Drivers, estndares, arquitectura de una DAW


El audio es prcticamente el nico terreno en donde se da este curioso fenmeno de cruzamiento entre productos: una aplicacin puede utilizar un hardware que fue diseado para otra, exactamente el mismo efecto puede estar disponible en distintas aplicaciones, dos aplicaciones pueden funcionar simultneamente y compartir el mismo motor de audio, etc. Esto le da al software de audio una increble versatilidad pero tambin, en contrapartida, una gran complejidad. Veremos aqu aspectos de la relacin entre aplicaciones, hardware de audio y Sistema Operativo.

1) Drivers
La arquitectura de drivers WDM del Windows XP provee soporte para diversos tipos de hardware de audio, a travs de varios componentes de bajo nivel (kernel), de tal manera que el fabricante slo tiene que proveer un nico mdulo (.SYS) que se inserta dentro de esa estructura, lo que llamaremos el driver propiamente dicho. A nivel de la aplicacin, el Windows provee dos APIs mediante las cuales acceder al driver de audio: MME y DirectSound. Finalmente existe tambin una manera de bypassear las APIs de Windows y acceder directamente al mdulo kernel, el llamado WDM/KS (kernel streaming). MME o wave existe desde las primeras versiones de Windows con audio, mientras que DS es contempornea del DirectX, pero ambas APIs son insuficientes para los requisitos del audio profesional, sobre todo en materia de latencia y sincronizacin (en tarjetas multicanal).
winMM.DLL

APLICACION

Dsound.DLL

ASIO (Audio Streaming Input/Output) es una API no incluida en el Windows, desarrollada por un fabricante de Audio Pro (Steinberg), con las necesidades del Audio Pro en mente, y progresivamente adoptada por todos los softwares de audio profesional. Como puede verse en el esquema, el driver de audio provisto por el fabricante de la tarjeta, tiene que incluir un soporte para ASIO, a los efectos de poder usar esta API, y por supuesto la aplicacin tambin. El WDM/KS existe slo en las versiones modernas de Windows, y es una alternativa al ASIO, pero no tiene la simpleza y universalidad de ste.

Kernel Streaming

ASIO.DLL

GSIF, EASI, DAE, etc.

USER MODE KERNEL MODE WDM ASIO ETC.

DRIVER.SYS

HARDWARE

Drivers, estndares, arquitectura de una DAW (cont.)


Ventajas del ASIO
- Baja latencia. - Tamao de buffer regulable. Arquitectura de buffers eficiente. Calcula el tamao de bloque ideal para comunicarse con el driver, y deja a ste gestionar el acceso directo a memoria. - Soporte para hardware multicanal (el sistema de audio de Windows trata a las tarjetas multicanal como varios dispositivos estreo, sin preocuparse por mantener una sincronizacin muestra-a-muestra entre ellos) - Menos consumo de CPU - La implementacin 2.0 introduce algunas mejoras, como por ejemplo el soporte multicliente.

No olvidemos adems que las APIs de Windows no streamean el audio directo desde la aplicacin al driver, sino que lo pasan por una serie de instancias intermedias (entre ellas el kmixer.sys) en las que, no slo le introducen latencia, sino que eventualmente lo re-muestrean. En resumen: el sistema de audio de Windows constituye un soporte muy bueno para aplicaciones no-profesionales. Kmixer.sys (kernel mixer) forma parte del sistema de audio de windows de bajo nivel (kernel) y existe con el propsito de generar una capa previa al envio del audio al driver, que pueda recibir varios streams simultneos, provenientes de distintas aplicaciones, e incluso a distintas frecuencias de muestreo. Este mixer virtual garantiza que cualquier aplicacin puede hacer uso del sistema de audio con xito en cualquier momento, sin importar el tipo de hardware de audio que se tenga. Lamentablemente, esta interesante funcionalidad se logra a costa de introducir latencia y de re-muestrear todo el audio, con la consiguiente eventual prdida de calidad que esto supone.

Esto nos ilustra nuevamente algo que ya habamos constatado antes (ver Fallas tpicas del audio, Los drivers multicliente): permitir que todas las aplicaciones puedan hacer uso del hardware de audio simultneamente va en contra de los intereses de una aplicacin de audio profesional.

Drivers, estndares, arquitectura de una DAW (cont.)


APLICACION

ASIO4ALL ASIO2KS

ASIO.DLL

ASIO emulado

WDM / KS

ASIO

ASIO nativo

DRIVER.SYS

HARDWARE

ASIO nativo, ASIO emulado

Dijimos tambin que para que exista ASIO, el driver de la tarjeta debe abstraer el hardware de la misma, de la forma en que ASIO necesita para trabajar con l. Esto equivale a decir que el mdulo kernel (el driver) debe soportar el interface ASIO. Algunas implementaciones de ASIO, en lugar de usar un driver compatible, utilizan un emulador que en verdad se comunica con el driver utilizando WDM/KS. Esto es lo que ocurre en los programas como ASIO4ALL y ASIO2KS, y tambin, se presume, en algunos drivers propietarios de tarjetas. Obviamente, el rendimiento que puede esperarse de estos casos es inferior al de un ASIO nativo; ASIO4ALL y ASIO2KS se focalizan en dar compatibilidad con ASIO a tarjetas no-pro y on-board.

Drivers, estndares, arquitectura de una DAW (cont.)


Otras APIs de audio:
Es una API de sonido de baja latencia, de slo reproduccin, asociada con un software especfico: el Tascam (antes Nemesys) GigaStudio (antes Gigasampler). El Gigasampler fue el primer sampler virtual basado en disco duro, lanzado en 1998 para funcionar exclusivamente en la plataforma PC. En este contexto, ningn producto de este tipo podra haber funcionado sin su propio modelo de drivers. Al igual que ASIO, GSIF necesita ser implementado a nivel del mdulo kernel del driver de audio, y a pesar de servir para un solo producto, no existe tarjeta de audio profesional que no lo soporte.

GSIF

EASI

Otra alternativa en la misma direccin que ASIO fue esta API de Emagic (hoy Apple), en la que se basaba el motor de audio del Logic Audio. (Tanto el Logic como el Cubase de Steinberg fueron en principio secuenciadores MIDI, para la Atari 520 ST, luego para Mac y finalmente para Windows; en el caso del Logic, la versin de Windows fue discontinuada y actualmente existe slo en Mac). Hoy en dia el soporte para EASI es casi inexistente, optando la mayora de los productos entre ASIO o el soporte de audio del S.O. (WDM-KS y CoreAudio, en Mac).

D.A.E.

Digidesign Audio Engine. Todas las versiones de ProTools, tanto las de arquitectura no-nativa (TDM, HD) como las versiones basadas en CPU (LE, M-Powered) utilizan este layer, que se encarga de gestionar tanto el acceso al hardware como al disco duro y los plugins. No olvidemos que todas estas versiones de ProTools, incluso las de arquitectura nativa, funcionan exclusivamente con hardware de la compaa, el cual cuenta con los drivers necesarios para DAE, sin dejar de soportar otras APIs como ASIO o el sistema de audio de Windows. Recprocamente, algunos softwares pueden funcionar como capa superior del DAE, por ejemplo, Digital Performer (en Mac). Este recurso se vuelve interesante cuando trabajamos con hardware de arquitectura no-nativa, ya que slo a travs de DAE podemos usar los plugins TDM, basados en los DSPs del hardware Digidesign, y de esta manera explotarlo totalmente; si en cambio usamos el driver ASIO, el hardware se convierte en una simple tarjeta de sonido I/O.

Drivers, estndares, arquitectura de una DAW (cont.)


2) Formatos de Plugins
El concepto de plugin de audio (procesador real-time de fabricante independiente que corre dentro de una aplicacin host) lo introdujo -como tantas otras cosas- ProTools, en su versin III de 1994. Dicha versin soportaba 2 tipos de plugins: los real-time, utilizando sus propios DSPs, llamados TDM y los destructivos, llamados Audio Suite. En el 96, Steinberg incorpor por primera vez un tipo de plugins basados en el CPU de la computadora, los VST. A instancias de Cakewalk (hoy Sonar), como ocurriera ms tarde con el WDM-KS, Microsoft introdujo el soporte para plugins de audio a nivel del S.O., los DirectX. Otro tanto hizo MacOS X con los Audio Units. Debido al gran desarrollo que adquiri el audio nativo -con las nuevas generaciones de CPUs- ya para el 2001 Digidesign sac su propia lnea de productos de consumo (LE y ms tarde M-powered), y su formato de plugins nativos RTAS. Las siguientes innovaciones de Steinberg, los VST-instruments (VSTi) y la automatizacin de plugins, fueron rpidamente incorporadas a los otros formatos: DXi, RTAS-i, etc. El estndar de plugins nativos de Microsoft, soportado por todo el software de audio disponible en Windows. Los plugins DX pueden tener la extensin AX o DLL, pueden estar en cualquier carpeta pero tienen que ser declarados en varias secciones del Registro de Windows. El verdadero estndar de plugins nativos; al igual que ASIO, el modelo de Steinberg se transform en el estndar de facto del Audio Pro, tanto en PC como en Mac. Los plugins VST en Windows son archivos DLL, no precisan ser registrados pero deben estar en una nica carpeta, esta s declarada en el Registro . Del mismo modo que lo hace con el hardware de audio, ProTools usa sus propios formatos de plugins; el RTAS es el nativo, o sea el que corre a fuerza de CPU, como los VST y los DirectX. La lnea no-nativa o TDM de ProTools (ProTools HD, HD-accel) sigue siendo la referencia a nivel profesional en DAWs, y tambin uno de los productos ms costosos que existen. El tipo de plugins que corre con el poder de las tarjetas DSP de esta lnea es el TDM. Posteriormente Digidesign introdujo en esta plataforma los plugins HTDM, una especie de plugins hbridos que usan DSP y CPU. Un protocolo inventado por Propellerhead y Steinberg, extiende el concepto de plugin, y ya es toda una aplicacin que funciona como esclava de la otra, permitiendo intercambiar varios canales de audio y MIDI entre ambas. Ejemplos: Reason, FruityLoops, ACID, GigaStudio, funcionan como Rewire Slave, en hosts como Nuendo o Sonar.

DirectX

VST RTAS

TDM

Rewire

Drivers, estndares, arquitectura de una DAW (cont.)


3) Motor de audio, buffers, latencia
El motor de audio es la parte real-time de un programa, que gestiona la comunicacin con el hardware de audio (a travs de las APIs y los drivers recin vistos) con el disco duro y con la arquitectura de procesamiento del audio que incluye soporte para los plugins. Esta arquitectura puede estar basada en el CPU de la computadora (DAW nativa) o en un hardware dedicado con procesadores DSP (DAW no-nativa), y es muy comn adems, que combine ambas tecnologas.

Buffers y latencia
Los buffers son usados en audio para mantener un flujo constante de informacin (muestras) a nivel de los convertidores, sin importar lo que pasa en el resto de la cadena. Lo que pasa en el resto de la cadena es que esa informacin tiene que pasar por procesos que requieren en pequea o gran medida la intervencin del CPU, quien necesariamente atender esos procesos en forma interrumpida. En una primera instancia, el hardware de audio enva y recibe la informacin directamete hacia/desde la memoria, en bloques, usando busmastering / DMA, dado que no puede estar generando una interrupcin por cada byte que tiene que traficar. A partir de aqu los drivers y luego la aplicacin se hacen cargo de ese audio, y como stos son a su vez tareas que corren en el CPU, es muy frecuente que tengan que trabajar con una reserva de varios de estos bloques, ms grande o ms chica dependiendo de la compejidad de sus propios procesos y la disponibilidad del procesador, la cual a su vez depende de una cantidad de factores ya vistos. Este buffereo es lo que provoca la latencia en el audio. A mayor cantidad de muestras en el buffer, ms retraso en el audio, y a menor cantidad, ms posibilidad de que el flujo se vea interrumpido provocando saltos y ruidos. Cabe observar que, si bien puede ser necesario tambin un buffereo a nivel de la comunicacin con el disco duro, ste no afectara a los procesos real-time como monitoreo de las entradas, cambios de parmetros en los plugins, sintetizadores virtuales, etc. El buffer de disco slo provocara una pequea demora al arrancar o detenerse la reproduccin, con muchsima mayor tolerancia para el trabajo. Esto tambin nos ilustra cmo en las arquitecturas puramente no-nativas, no existe el problema de la latencia, dado que, si hay que hacer un buffereo, este queda fuera de la ruta del audio (ver figura). Cuando hablamos de compensacin automtica de latencia, nos referimos a las tcnicas que utilizan los programas de audio para mantener sincronizadas las pistas, en la grabacin (el programa sabe la latencia del sistema) y en la reproduccin, en la que cada track pasa por procesos distintos (el programa sabe la latencia de los plugins).

Drivers, estndares, arquitectura de una DAW (cont.)


ARQUITECTURA NATIVA

ARQUITECTURA NO-NATIVA

Hardware de audio
El hardware que hay que agregarle a una PC para convertirla en DAW, ha variado con el desarrollo mismo de las tecnologas del audio digital, y hoy abarca una amplsima gama de productos con distintos tipos de prestaciones y precios, desde la simple tarjeta de sonido estndar hasta las costosas tarjetas de DSP, interfaces con mltiples entradas y salidas, superficies de control, etc, etc.. Analizaremos todo este conjunto desde la perspectiva funcional. Los dispositivos de audio pueden presentarse de 3 formas: integrados en el motherboard, como una tarjeta de expansin (PCI, PCIe) o como una unidad externa conectada a un puerto USB, FireWire o a otra tarjeta de expansin. Los dispositivos integrados en el motherboard, pese a tener una calidad de sonido aceptable en algunos casos, son muy limitados en cuanto a los requisitos del audio Pro (drivers, latencia, conectores, DSPmixer, multi-canal, funciones adicionales, etc.). No existen tarjetas de audio Pro integradas en un motherboard. Las tarjetas de expansin clsicas tienen la ventaja de utilizar buses de expansin ms rpidos y eficientes que los externos, pero presentan el inconveniente del alto nivel de interferencia y ruido que existe en el interior de la PC, que lo hace un medio no recomendado para circuitera de audio analgica, y el escaso espacio que existe en la placa para esta misma circuitera y los conectores, en caso de ser una tarjeta multi-canal. Generalmente en este formato encontramos tarjetas domsticas (Sound Blaster), semi-profesionales (MAudio Delta 1010LT) o profesionales multi-canal pero de interface slo digital (Frontier Design Dakota). Este es el formato elejido para los dispositivos profesionales: una unidad (generalmente rackeable) externa con toda la circuiteria tanto analgica como digital, conectada a la PC mediante un bus de expansin externo estndar o dedicado (provisto por una tarjeta PCI o PCIe). La tendencia es a utilizar el interface FireWire (IEEE1394) como estndar para dispositivos de audio profesional. El USB 1.1 naturalmente no sirve por su escaso ancho de banda. En tarjetas que utilizan USB 1.1 no es de extraar que ocurran cosas como que reduce la cantidad de canales cuando subimos la resolucin del audio, o deshabilita salidas para habilitar entradas, etc. Las tarjetas pueden diferenciarse por el nmero de entradas y de salidas de audio que poseen, su tipo (analgicas, S/PDIF, ADAT, etc.), y en el caso de las analgicas, por el tipo de conector, el/los nivel/es nominal/es que manejan, si tienen phantom power (en caso de tener preamplificador de micrfono), si son balanceadas y sus caractersticas de audio como rango dinmico, relacin S/R, respuesta en frecuencia, etc. Respecto al nmero, hay que tener en cuenta que la posibilidad de usar ms de un dispositivo para llegar a cierto nmero de E/S, est restringida slo a ciertos modelos de la misma marca, y no es algo que pueda hacerse en todos los casos ni con 2 tarjetas cualesquiera.

Tarjetas onboard

Tarjetas PCI, PCIe

Tarjetas externas

E/S de audio

Hardware de audio (cont.)


Otras E/S
Adems de las entradas y salidas de audio analgicas y digitales en los distintos formatos que existen, una tarjeta de audio profesional puede tener otros tipos de E/S, como por ejemplo: MIDI, Word Clock y SMPTE. Una parte esencial de la tarjeta de sonido son los convertidores A/D y D/A. Como sabemos, la conversin A/D y D/A es una tarea delicada, y puede provocar altos niveles de distorsin y ruido si no se hace correctamente. La creencia de que el audio, slo por ser digital tiene siempre una calidad ptima, es falsa. En los comienzos del audio digital, contar con convertidores buenos significaba afrontar un costo muy elevado. Actualmente, en cambio, hasta los productos ms baratos utilizan tecnologas avanzadas como oversampling, noise-shaping, modulacin sigma-delta, etc., obteniendo una conversin ms que aceptable en muchos casos. (El problema de estos productos baratos sigue estando en la etapa analgica, la cual no ha bajado de precio, ajena a los avances de la tecnologa digital).

ADC, DAC Formatos de PCM

Otro aspecto a tener en cuenta son las frecuencias de sampleo y resoluciones a las que trabajan los convertidores. El estndar de la AES hoy en dia es 24bit / 96KHz, pero algunas tarjetas no lo soportan, y otras, (pocas), en cambio, lo sobrepasan. Algunas tarjetas, bajo ciertas condiciones, pueden trabajar slo a 48KHz / 16bit (Sound Blaster Audigy con drivers ASIO); esto es importante porque, como sabemos, el resampleo es otra operacin delicada que puede degradar la calidad del audio digital. Existen marcas que nombran sus productos como 64bit, 128bit, etc.; debemos entender que sea lo que sea a lo que se refieren estos bits, no es a la resolucin del audio digital. El DSP es otra parte esencial de todo hardware de audio. Lo encontramos incluso en los dispositivos ms simples, pero sobre todo, y jugando un rol importantsimo, en los ms costosos equipos profesionales.
El DSP es necesario puesto que, en el dominio digital, hasta la tarea ms simple como cambiar el nivel de una seal o mezclar dos seales, requiere hacer clculos en tiempo real con los valores de las muestras (aunque a simple vista esto puede parecer una desventaja del audio digital frente al analgico, recordemos que con clculos un poco ms complejos que esos, podemos, en cambio, lograr efectos y procesos que en analgico son sencillamente imposibles). Una primera divisin del hardware de sonido segn el DSP, pone de un lado a las tarjetas de sonido comunes y de otro a los productos en los que el DSP se usa para correr plugins. En las tarjetas comunes el DSP es importante porque es el que gestiona el mixer de la tarjeta, permitiendo rutear el audio de las entradas directamente hacia las salidas y de esta manera tener un monitoreo sin latencia (ZLM). En ocasiones es posible agregar efectos, pero a toda la mezcla de audio, no a canales que lleguen independientemente al dispositivo. Esto ltimo, en cambio, es caracterstico de los productos que analizaremos en el siguiente apartado.

Digital Signal Processor

Hardware de audio (cont.)


Los procesos de audio que se usan para ecualizar, modificar dinmica, aplicar efectos, reverb, etc. a las pistas de audio en una DAW, no son otra cosa que algoritmos que operan en tiempo real con los valores de las muestras del AD. Este procesamiento est a cargo de programas, que pueden correr sobre el procesador central (CPU) o sobre algn procesador ubicado en el hardware de audio. En los comienzos de la DAW hospedada, la segunda opcin era la nica disponible; actualmente ambas opciones son posibles, y existen muchos productos que brindan la posibilidad de utilizar efectos por hardware, o sea, con su propio DSP, sin consumir CPU. Nuevamente haremos aqu una clasificacin, para entender con ms claridad. Por un lado existen tarjetas de sonido que integran DSPs para procesar efectos, y por otro lado tenemos tarjetas que solamente tienen DSPs, sin entradas ni salidas de audio. La lnea de ProTools llamada TDM es un tipo de producto que debemos estudiar con detenimiento para decidir a cul de estos 2 grupos pertenece. Por un lado tiene una tarjeta principal que posee muchos DSPs y se conecta a la interface de audio (una unidad de rack con E/S fsicas). Pero por otro lado, permite agregar ms tarjetas, con ms DSPs y ms posibles conexiones a interfaces de audio... Esta estructura aparentemente compleja, en realidad es equivalente arquitectnicamente a las tarjetas del primer grupo, porque ProTools incluye un bus digital (el bus TDM), es decir, un cable que interconecta todas las tarjetas entre s, formando una nica gran tarjeta con muchos DSPs, muhcas E/S fscas y ms de una conexin al bus de la computadora. PCI I/O
DSP DSP

Audio + DSP

PCI

I/O rack
I/O

PCI

PC

PC

DSP

DSP

DSP

DSP Cards
DSP DSP DSP

PC

Bus TDM

Tarjeta Audio + DSP

Tarjeta slo DSP

Pro Tools TDM

Hardware de audio (cont.)


La diferencia de estas con las del apartado anterior radica en que, al no tener entradas ni salidas de audio, las DSP-cards reciben el audio desde la aplicacin host y lo devuelven a sta, generando una latencia que es automticamente compensada por la aplicacin, pero que dificulta el uso de los plugins de la tarjeta en la ruta del monitoreo del audio. Las tarjetas de audio + DSP, como las hemos llamado, permiten monitorear a travs de plugins, pero requieren que los efectos sean insertados en su propio mixer y no en el mixer virtual del programa de audio, lo cual deviene en un diagrama de flujo del audio bastante complicado; o de lo contrario, se integran dentro del una solucin software total, como es el caso del ProTools.
monitoreo aplicacin Mixer software Pistas leidas desde el disco duro Canales enviados a la tarjeta Mixer hardware Entradas y salidas fsicas monitoreo tarjeta

Slo DSP

Plugins nativos (CPU)

Plugins DSP-card

Plugins no-nativos

Drivers y soporte

La mayora de las aplicaciones profesionales de audio que corren en Windows XP, pueden trabajar con cualquier tarjeta de sonido que tenga drivers genricos para este sistema (excepto los productos que usan un hardware especfico, como es el caso del ProTools). No obstante, los programas que trabajan con mltiples tracks, plugins real-time, sintes virtuales, baja latencia, etc., suelen tener un motor de audio optimizado para cierto modelo de drivers. Actualmente el modelo universal para todo el Audio Pro es el ASIO. Toda tarjeta diseada para trabajar con aplicaciones de audio profesional tiene que tener drivers ASIO; secundariamente, la mayora de las tarjetas de esta gama suelen contar tambin con soporte para GSIF. Algunas tarjetas noprofesionales tambin pueden tener soporte ASIO. Cuando una tarjeta no tiene ASIO, su desempeo dentro de programas multitrack puede llegar a no ser bueno, y adems exige de parte del usuario y/o tcnico, mucho ensayo y error con configuraciones distintas hasta encontrar una que funcione. De hecho, cuando no se los configura en ASIO, los mismos programas tienen que hacer un testeo del hardware (profiling). Otro aspecto importante de un producto, en el mundo del Audio Pro, es el soporte on-line y la actualizacin peridica de drivers, firmware, software de control, etc.

Hardware de audio (cont.)


Las tarjetas profesionales multi-canal cuentan con un mixer digital implementado a nivel de hardware, que se controla con una aplicacin propia, la cual se instala normalmente junto con los drivers. La estructura de este mixer puede llegar a ser bastante compleja, y para entenderla mejor vamos a introducir dos conceptos que son comunes en las aplicaciones de control. Las E/S hard son las entradas y salidas fsicas que tiene el dispositivo hacia el exterior, mientras que las E/S soft son los canales virtuales que la aplicacin tiene para mandar y recibir audio hacia/desde el mixer de la tarjeta. Las soft I/O son los pares de canales que el driver declara o muestra a la aplicacin. En tarjetas simples, hard I/O y soft I/O coinciden totalmente; en situaciones un poco ms complejas, coinciden en nmero y vienen asiganadas 1 a 1 por defecto, pero se pueden cambiar. En situaciones ms complejas aun, hard I/O y soft I/O ni siquiera coinciden en nmero.

DSP-mixer Hard I/O, Soft I/O

Analog IN Analog OUT


S/PDIF IN S/PDIF OUT

WaveIN 1/2
WaveOUT 1/2

HARD I/O

SOFT I/O
WaveIN 3/4 WaveOUT 3/4

Monitor mix

Ejemplo de DSP-Mixer bsico en tarjeta de 4 entradas / 4 salidas (M-Audio Delta Audiphile 2496). Las entradas fsicas van directo al software, mientras que las salidas del software junto con las entradas fscas van a un mixer cuya salida se puede asignar opcionalmente a una de las salidas fsicas. Este es un caso de igual nmero de entradas y salidas software y hardware. Una variante tpica es cuando cada par de entradas software y cada par de salidas fsicas tiene asignado un mixer propio de todas las seales de la tarjeta; imaginarse eso en una tarjeta de 10 entradas / 10 salidas.

Hardware de audio (cont.)

Las tarjetas multimedia clsicas, las Sound Blaster clsicas, las on-board tipo AC97, etc. no poseen un DSP-mixer sino un sencillsimo mixer analgico. Aqu vemos tambin como las 3 entradas fsicas confluyen en una nica entrada software.

Esquema que ilustra el ruteo del audio desde el programa Cubase hacia la tarjeta Lexicon Studio, cuyo DSP alimenta a las unidades de reverb PC-90. En este caso tenemos 3 salidas software y una sola salida fsica.

Son dispositivos de interfaz humana (como el teclado y el mouse de la computadora) con los que podemos controlar el software de una DAW. El primer producto de este tipo fue lanzado por Mackie en 1998, para ProTools, pero pronto fueron adoptadas por el resto de las DAWs.

Superficies de control

Las superficies de control poseen potencimetros y botones que se pueden asignar a parmetros dentro de la DAW, y utilizan el protocolo MIDI para enviar y recibir informacin desde el programa, ya sea a travs de un puerto MIDI propiamente dicho, o con una conexin USB o FireWire. Existen muchos productos que integran interfaz de audio y superficie de control en el mismo dispositivo.

Yamaha 01X: Interfaz de audio con efectos DSP y mesa de control DAW en una misma unidad.

Archivos de sonido
1) Formatos PCM.
Los formatos PCM representan el Audio Digital en su forma ms bsica, tal como sale de un convertidor A/D, como viaja por un cable S/PDIF o como se graba en los CDs con formato CD-audio. La diferencia entre unos y otros puede radicar en: el soporte para distintas frecuencias de muestreo y resoluciones, cantidad de canales, codificacin de las muestras (orden, signo, enteros/decimales, lineal/no-lineal, diferencial, etc.), estructura que permita otro tipo de datos, metadatos y soporte para compresin de dominio temporal (ADPCM, etc) e incluso codificaciones no-PCM (aunque suene paradjico). Formato de audio por defecto de Windows, desarrollado por Microsoft e IBM en el ao 91. Posee una estructura en chunks (bloques), basada en el RIFF, que a su vez es muy similar al IFF en que se basa el AIFF. La principal diferencia entre stos radica en el orden de los bytes. El WAV soporta hasta 2 canales de hasta 192Khz / 32bits, coma fija o flotante, PCM lineal y tambin multiplicidad de esquemas de compresin, siendo los ms comunes los basados en PCM diferencial (ADPCM) y companding (A-law, -law). En cuanto a meta-data, el WAV tiene algunas funciones interesantes como los cue points, pero le faltan otras como el timestamp. El Broadcast Wave Format fue creado por la EBU en 1997, con el propsito de convertirse en el formato por defecto de los sistemas DAW. Es similar al WAV de Microsoft, pero le agrega a ste la compatibilidad con audio multicanal surround (5.1 canales, etc.) y agrega un chunk nuevo de metadata, el Broadcast audio extension, que contiene, entre otras cosas, informacin de timestamp. Es el formato por defecto de los sistemas operativos de Mac. Bastante similar al WAV, excepto por el orden de bytes que es el inverso, y sin limitacin en cuanto a nmero de canales, frecuencia de muestreo y resolucin. Tambin ms completo que el WAV en materia de meta-data. SD1 y SD2 son los formatos exclusivos de Digidesign, usados en las versiones antiguas de ProTools en Mac. Actualmente ProTools utiliza WAV o AIFF indistintamente tanto en Mac como en PC, pero todava existen en los estudios proyectos con el audio en este formato. La estructura es ms simple que la del WAV o el AIFF: cabecera y data, y la cabecera en el SD2 se encuentra en el resource fork del sistema de archivos de Mac. Son tambin bastante limitados en cuando a funcionalidad, el SD1 por ejemplo slo soporta archivos mono. Es el formato de audio de las plataformas Next y Sun, tambin adoptado por Linux y por el editor de cdigo abierto Audacity. Una estructura basada en cabecera-data, con un solo chunk opcional de metadata. Soporta bastantes frecuencias de muestreo y resoluciones, y algunos esquemas de compresin, tpicamente -law.

WAV

BWF

AIFF

Sound Designer

AU/SND

Archivos de sonido (cont.)


2) Compresin con prdida
El propsito de la compresin en audio es reducir la cantidad de informacin por segundo (data-rate o bitrate), para poder cumplir con ciertas metas de almacenamiento o transporte en medios de escasa capacidad o trasmisores con ancho de banda reducido (video, dispositivos porttiles, internet, telefona, etc.). Los algoritmos con prdida logran este cometido mejor que los sin prdida, pero a costa de someter al audio, en su codificacin, a un proceso irreversible; al ser decodificado, el archivo resultante no es igual al original, ha sufrido una prdida. Todos los formatos hacen uso de principios psicoacsticos bien estudiados (umbral de audicin, enmascaramiento temporal, enmascaramiento simultneo, etc.) para que esta prdida, a un bitrate razonable, no sea percibida por el oido humano. La forma de lograr esto es pasar del dominio temporal al dominio de la frecuencia, y all distribuir inteligentemente los bits disponibles entre las distintas bandas, de acuerdo a un modelo de la audicin humana. Los esquemas se diferencian entre s, principalmente por el tipo de mapeador tiempo-frecuencia (banco de filtros, transformada, hbrido) y las mejoras, trucos y sofisticaciones que agregan al esquema bsico para optimizar el rendimiento frente a distintos tipos de material de entrada (joint stereo, SBR, etc.). El resultado de esto es, en cada caso, distintos bitrates mnimos necesarios para lograr un audio indistinguible del original, distintas demandas de cmputo, distintos rendimientos a bitrates bajos, a bitrates altos, frente a determinado tipo de material de entrada, etc.

Hay que tener en cuenta estos factores al comparar un esquema con otro, o incluso dos implementaciones software de un mismo esquema (cdecs). Por ejemplo las frases el AAC es mejor que el MP3 o el WMA suena mejor que el MP3 carecen de sentido. En cambio las frases a tal bitrate, este codec suena mejor que este otro o a igual calidad de sonido, el archivo comprimido con este esquema pesa menos que el comprimido con este otro, a pesar de ser discutibles, ya tienen bastante ms sentido. Tambin podramos agregar para tal material de entrada, este codec trabajando a tal bitrate y con tales opciones, funciona mejor que este otro a tal otro bitrate y con tales otras opciones, o la cantidad de cmputo que demanda tal codec lo hace inutilizable para tal aplicacin, etc. Respecto a esto ltimo, no hace falta aclarar que los esquemas ms complejos son los que logran mejor calidad a bitrates bajos y tambin los que demandan ms procesador, y tambin que la compresin psicoacstica es siempre ms compleja que la compresin del dominio temporal (ADPCM, companding, etc.)
La codificacin a bitrate variable reduce aun ms el peso del archivo, aprovechando el fenmeno recin mencionado de la relacin entre el bitrate necesario para un audio bueno y la complejidad del material de entrada. Los extremos de esta variacin son el silencio (0 Kb/s) y el ruido completamente aperidico, para el cual no alcanzaran los bitrates ms altos. Una compresin VBR-X tal que A<X<B da como consecuencia un archivo que no suena mejor que un CBR-B ni peor que un CBR-A, aunque s puede sonar igual que cualquiera de los dos, y su peso estar comprendido entre ambos.

CBR vs. VBR

Archivos de sonido (cont.)


Compresin con prdida (cont.)
Por lejos el algoritmo ms popular, desarrollado por el instituto alemn Fraunhofer en 1987, su licencia es propiedad de Fraunhofer y Thomson Multimedia, figura en la especificacin MPEG 1 de 1992 como Layer 3, y es ampliamente soportado por sistemas operativos, reproductores stand-alone, y software de audio.

MP3

Basado en el principio psicoacstico recin visto, utiliza un mapeador tiempo-frecuencia hbrido (banco de filtros / MDCT) con tamao de bloque variable para evitar el pre-eco, e implementa las mejoras bsicas como reservorio de bits, codificacin Huffman (compresin entrpica, lossless) para las muestras ya cuantizadas y Joint Stereo. Aproximadamente a 192 Kb/s para una seal estreo, el MP3 logra un audio indistinguible del original para prcticamente cualquier material de entrada (voz, msica, etc.) El Advanced Audio Codec es el sucesor del MP3 dentro de los algoritmos del MPEG; figura en la especificacin 2 y la 4, con leves diferencias entre ambas implementaciones. Comparte el mismo principio que el MP3 pero tiene varias mejoras con respecto a ste: el mapeador tiempo-frecuencia es un MDCT puro, con mayor margen de variacin del tamao del bloque, implementa funciones avanzadas (TNS, frequency domain prediction, etc.) y soporta frecuencias de muestreo de 8 a 96 KHz (el MP3 de 16 a 48 KHz) y audio multicanal de hasta 48 canales. El AAC, al igual que otros codecs post-MP3, logra un audio excelente a tasas tan bajas como 128Kb/s.

AAC

WMA

Windows Media Audio es un formato propiedad de Microsoft. Es otro codec psicoacstico post-MP3, bastante similar al AAC en trminos tcnicos, que ha conocido varias versiones desde su lanzamiento en 1999, las ltimas de las cuales soportan VBR y audio multicanal, entre otras cosas. Actualmente existe tambin el WMA-lossless. Una de las principales caractersticas del WMA es su tecnologa para proteccin de copyright. El WMA es tambin implementado en muchos reproductores stand-alone.

Ogg Vorbis

Otro codec similar al AAC y al WMA, pero de licencia libre, a pesar de lo cual es menos popular que los otros. Tanto AAC como WMA y Vorbis se basan en la MDCT y estn optimizados para bitrates muy bajos, mostrando una clara superioridad frente al MP3 en esta franja.

Archivos de sonido (cont.)


Compresin con prdida (cont.)
Adaptative TRansform Acoustic Codec. Es el algoritmo de compresin usado por Sony en su popular MiniDisc, desde el ao 92. Su principio es el mismo que el de el resto de los codificadores psicoacsticos. La transformacin tiempo-frecuencia se hace en primera instacia con QMF (quadrature mirror filters) y luego se aplica MDCT, con 2 tamaos de ventana distintos. El formato original trabaja a un bitrate de 292Kb/s para seales estreo, mientras que las versiones mejoradas ATRAC3 y ATRAC3+ lo hacen a 132 y 64Kb/s respectivamente. Tambin conocido como Dolby Digital, es el formato ms usado para el audio surround en el estndar DVDvideo. Dolby Digital es un formato de audio multi-canal surround, con 5 canales de rango normal y 1 para graves, usado en cine y en varios estndares de video digital. La compresin es psicoacstica, y utiliza un banco de filtros para la conversin tiempo-frecuencia. En el cine se usa con un bitrate de 640Kb/s, y en el DVD tpicamente a 448Kb/s. Es un formato de audio propietario de RealNetworks, cuya principal aplicacin es el streaming de audio a travs de internet. Real audio ha utilizado varios codecs distintos, en sus sucesivas versiones, basados en tecnologas como VSELP*, G.728, Dolby AC3, ACELP*, Cook Codec, ATRAC3, LC-AAC, HE-AAC, etc. Es un conjunto de herramientas multimedia de Apple, orientadas a reprodicir, codificar y streamear contenido multimedia. El formato .MOV de QuickTime es un contenedor (como el AVI de Microsoft), en el cual el audio suele estar en AIFF, MP3, AAC, QCELP* o su codec propietario, QDMC. G.711, G.722, G723, G.727, etc. son una serie de estndares del ITU-T (sector de estandarizaciones de la International Telecommunication Union) usados en telefona digital y streaming de audio a travs de redes digitales e IP. La mayora de ellos se centran en la codificacin del reducido espectro de la voz humana, usando para ello frecuencias de muestreo del orden de los 8KHz y compresin del dominio temporal como ADPCM, companding, A-law, -law, etc. debido a su baja demanda de cmputo. Los bitrates tpicos de estos codecs van de 6 a 64Kb/s, lo que los hace ideales para el campo de la telecomunicacin.

ATRAC

AC3

Real Audio

QuickTime

G.7xx

* VSELP, ACELP, QCELP, etc. son codificadores de la voz (speech coders) basados en un principio llamado Linear Prediction.

Archivos de sonido (cont.)


3) Compresin sin prdida
La compresin de audio sin prdida (lossless) utiliza algoritmos similares a los usados en los compresores de propsito general (ZIP, RAR, etc.) pero adaptados al audio y a la decodificacin real-time. El pincipio bsico de estos mtodos es buscar patrones redundantes que puedan ser expresados de una manera ms corta (codificacin entrpica, estadstica).
Dado que la compresin lossless permite regenerar el material de entrada bit a bit, las diferencias entre los distintos codecs no son de calidad, sino que stos pueden diferir en velocidad (consumo de cmputo), rango de compresin (el cual depende de la fuente, y nunca supera el 3:1), soporte en software y dispositivos stand-alone, soporte para tags, RIFF chunks, etc. Free Lossless Audio Codec, forma parte del proyecto Ogg, es de cdigo abierto, y es uno de los codecs lossless con ms soporte en reproductores, sobre todo hardware. Tiene una buena velocidad de codificacin y decodificacin, ratio de compresin estndar, soporta tagging, streaming, multicanal, altas resoluciones. Tambin conocido como True Audio. Otro codec de licencia libre, muy rpido, similar al FLAC en prestaciones, excepto que no soporta streaming y s soporta tags en formato ID3. Es otro codec libre, muy completo, sumamente rpido, con amplio soporte para audio multi-canal, de cualquier frecuencia de muestreo y resolucin, incluso de coma flotante, soporta tags, streaming, y lo ms interesante, puede trabajar en modo hbrido, generando un archivo con prdida que puede ser usado solo, y un pequeo archivo de correccin; los dos archivos juntos constituyen una compresin lossless.

FLAC

TTA

WavPack

MLP APE

Meridian Lossless Packing, es el formato usado en el DVD-audio. Es un codec cerrado, con licencia propietaria, y no es de los ms eficientes.
o Monkeys Audio, es de cdigo abierto, ms simple, con menos funcionalidades que FLAC o WavPack. WMA-lossless, ALAC y RealAudio-lossless son los formatos sin prdida de Microsoft, Apple y RealNetworks, respectivamente. Cada uno de ellos es ampliamente soportado en su familia de productos.

WMA, Apple, Real

Archivos de sonido (cont.)


4) Otros formatos
Hablaremos aqu de formatos de archivo cuyo uso est ms restringido al mbito de las DAW y los programas de msica.

Ha habido esfuerzos en la comunidad del audio profesional por crear un formato de archivo estndar de edicin no destructiva, es decir un formato que pueda contener tracks, regiones, fades, envolventes, todo lo que un programa DAW salva en su archivo de sesin. OMF, OMFI (open media framework interchange) Desarrollado por AVID (digidesign, ProTools). Soporta tracks, clips y fades; no soporta automatizacin, plugins, MIDI. El audio puede ser WAV o AIFF, y puede estar separado o dentro del mismo archivo. Adems de ProTools, los siguientes productos son compatibles con OMF: Sonar, Nuendo, Logic, Digital Performer, SADiE (DAW dedicada). AAF (Advanced Authoring Format) Este formato es ms complejo y soporta eventualmente cualquier tipo de data. Muchas DAWs lo estn adoptando. Tanto OMF como AAF trabajan tambin con video. AES31 Es el formato de intercambio sugerido por la AES (Audio Engineering Society), orientado slo a audio. Es soportado por varios fabricantes pero no por ProTools, por ejemplo.

Intercambio

Sequencer (MIDI)

El MIDI es un lenguaje nico en su naturaleza, y por tanto absolutamente universal. Todos los productos que trabajan con este tipo de informacin, soportan la llamada Standard MIDI File (.MID), definida por la MMA (Midi Manufacturers Association) en la misma especificacin 1.0 de 1982; un formato muy simple basado en texto. Desde DAWs, instrumentos musicales, todos los players de audio, telfonos celulares y el propio Windows XP, que implementa un sintetizador virtual para reproducir las MIDI files. Los archivos MIDI son muy livianos (del orden de unos pocos KB), necesitan un sintetizador para ser escuchados, y por esta misma razn suenan distinto segn el reproductor que se use. El sintetizador MIDI era una parte obligatoria en las tarjetas de sonido (tanto domsticas como pro) pero ha entrado en decadencia en la actualidad, con el auge de la sntesis virtual. Los programas DAW, por su parte, salvan la informacin MIDI en el propio archivo de sesin.

Archivos de sonido (cont.)


Otros formatos (cont.)
Los samplers son: reproductores de audio PCM controlados por MIDI. Los primeros samplers (E-mu*, Akai, 1986) eran aparatos fsicos y utilizaban RAM como soporte del audio; los actuales son software y utilizan disco duro (Gigastudio, Halion, Kontakt). Existieron tambin samplers implementados en las tarjetas de audio (Sound Blaster Live, por ejemplo) utilizando RAM propia o del sistema.

Sampler

Todos estos aparatos fsicos y softwares tienen un formato de archivo asociado. El archivo de sampler comprende 2 partes: el audio por un lado, y por otro el keymap, o sea la informacin de asignacn de las regiones de audio a las teclas musicales y los eventos MIDI. Ambas partes pueden estar juntas (.GIG, Gigastudio; SF2, SoundFont, SoundBlaster) o puede estar el keymap en un formato propio y los audios en formato WAV o AIF (Halion, Kontakt). El formato DLS de la MMA pertenece al primero de estos grupos.

MIDI + Audio

Los antiguos archivos .MOD, tambin llamados tracker modules debido al software donde se originaban, eran una forma de codificar la msica en la Commodore Amiga (1987) y consisten ni ms ni menos que en una secuencia MIDI acompaada de sus propios samples, todo en un mismo archivo, una especie de archivo MIDI que suena siempre igual y no necesita sintetizador. Algunos players como Winamp, por ejemplo, siguen soportando este tipo de formatos. El formato XMF de la MMA responde exactamente a esta naturaleza. El MPEG4-Structured Audio es algo vagamente parecido, una forma de codificar msica mediante sntesis.

Sliced Audio

Los loops son otra cosa de naturaleza hbrida entre MIDI y audio, en este caso, audio que puede ser reproducido a distintos tempos, sin alterar el pitch. En realidad se trata de simples archivos PCM pero divididos en regiones o slices, a veces utilizando para ello las opciones de metadata disponibles en el propio formato WAV, como es el caso del ACIDized WAV (llamado as por el programa Sony ACID que lo emplea), en otros casos formatos propios como el RX2 de Reason.

* Desde 1993 E-mu pertenece a Creative Technology.

Calidad del audio


Qu entendemos por calidad del audio? El trmino calidad se emplea normalmente de dos maneras en el audio: para referirse a las caractersticas de un sistema (un amplificador, una tarjeta de sonido, el audio PCM a 44KHz/16bit, etc.), por ejemplo su rango dinmico, respuesta en frecuencia, etc., o en relacin al grado de similitud de un audio dado con respecto a una referencia (el audio original), la fidelidad. Este ltimo concepto es ms completo que el anterior, puesto que, si bien la similitud de un audio con respecto al original depende de la calidad de los sistemas involucrados en la cadena por la que ste pasa, puede ocurrir que suene mal a pesar de usar sistemas de buena calidad y puede sonar bien a pesar de usar sistemas con caractersticas limitadas. Ello se debe a que en esta nueva ecuacin se agregan dos variables ms: las caractersticas del audio original y la calidad resultante de la interaccin y operacin de sistemas.

1) Caractersticas de un sistema
Respuesta en frecuencia
La respuesta en frecuencia es la grfica que describe el comportamiento de un dispositivo con respecto a la frecuencia de la seal de entrada. El espectro de un sistema nos determina los mrgenes de frecuencia en los que puede trabajar. Dentro de esos mrgenes la respuesta debera ser plana, es decir, igual tratamiento para todas las frecuencias, pero habitualmente no es asi, existen diferencias del nivel de salida segn la frecuencia de la seal de entrada; estas diferencias se expresan en dB, por ejemplo 1dB, 3dB, 6dB, etc. Un equipo ideal es aquel que tiene una respuesta en frecuencia de 20Hz a 20KHz con 1dB o menos de variacin. El rango dinmico es una caracterstica fundamental de un aparato, nos dice qu tan grande es la gama de niveles de seal distintos con los que puede trabajar. El rango dinmico se mide en dB y es la diferencia entre el nivel mximo y el mnimo que el dispositivo puede soportar; no expresa los valores concretos de estos lmites sino el margen que existe entre ellos. Tanto en dispositivos analgicos como digitales, el nivel mnimo corresponde al piso de ruido del sistema y el mximo al punto por encima del cual la seal sufre una distorsin importante. Un rango dinmico ideal sera de 130 dB, por ejemplo. El ruido es un componente no deseado, de caractersticas ms o menos aleatorias, espectro amplio y denso, que se agrega a la seal al pasar por un sistema. Todos los sistemas, tanto analgicos como digitales, producen un cierto nivel de ruido, aunque de maneras distintas; en el dominio digital el ruido se produce por la cuantizacin, y no hay ruido de fondo, aunque frecuentemente ste es agregado (dither) para evitar efectos peores. El slo transporte de seal de un punto a otro no agrega ruido en digital, como s lo hace en analgico.

Rango dinmico

Ruido

Calidad del audio (cont.)


Relacin Seal / Ruido
La relacin S/R (en ingls S/N o SNR) es la diferencia en dB entre el nivel de la seal y el nivel de ruido generado por el equipo. Pero... el nivel de la seal es siempre el mismo? No, por eso lo que el SNR mide es la diferencia entre el nivel nominal del equipo y su nivel de ruido. Relacin S/R y rango dinmico son dos medidas muy parecidas, en ocasiones se confunden una con otra. La diferencia entre ambas es el headroom o sea el espacio que el equipo tiene por encima de su nivel nominal para picos de seal. La distorsin es otro fenmeno no deseado, y tambin puede consistir en algo agregado a la seal, pero, a diferencia del ruido, guarda una relacin con sta, es una deformacin de la seal. Existen varios tipos de distorsin, distorsin lineal (de amplitud y de fase), distorsin armnica y por intermodulacin. La distorsin armnica es la que ocurre en mayor medida, debido a la no-linealidad de un sistema, que produce una variacin en la forma de onda, equivalente a sumarle armnicos a la seal. La THD se expresa como un porcentaje, que corresponde al nivel de armnicos presente en la seal de salida. Valor ideal: 0,01%.

Distorsin Armnica Total

2) Calidad del audio en la prctica


Caractersticas de la seal
Un sistema con un espectro de 20KHz y rango dinmico de 120 dB sonar bien en todos los casos. No obstante, uno con un espectro de 15KHz sonar bien para seales cuyo espectro no sobrepase los 15KHz. Un sistema con un rango dinmico de 90dB sonar bien si la dinmica de la seal de entrada no sobrepasa los 90dB. Si el transductor de salida recorta frecuencias por encima de los 11KHz, no gano nada con muestrear el audio a 96KHz. Si estoy capturando sonido con un micrfono de 40 dB de dinmica, en un ambiente ruidoso, tampoco gano nada con hacer la toma a 24bits. Etc., etc., etc. Esta ley dice: el audio sonar, en el mejor de los casos, igual que el peor componente de la cadena. Dado que un equipo bueno es aquel que no altera nada en la seal excepto su amplitud, un audio pasado por una cadena de sistemas slo puede mantenerse igual o empeorar su calidad, nunca mejorarla. Un mp3 a 64Kb/s seguir siendo un mp3 a 64Kb/s, aunque lo reproduzca en un equipo de altsima fidelidad. Recprocamente, nadie notar la calidad de un AAC a 256Kb/s si en algn punto de la cadena hay algo que suena mal. La fuente de degradacin de la seal puede estar en el acoplamiento entre dispositivos. Por ms que mi equipo tenga una dinmica de 100dB, si lo excito con una seal demasiado dbil, introducir ruido en la misma. Si por el contrario, lo excito con una seal demasiado fuerte, generar distorsin en las partes de dinmica alta; y si para evitarla, bajo el volumen en la etapa anterior, probablemente estar atenuando la seal de entrada de esa etapa, introduciendo all otra vez ruido en el sistema. Etc., etc., etc.

Ley del peor componente

Principios de audio digital


La conversin del audio analgico en digital consiste en dos procesos: muestreo y cuantizacin. El primero discretiza el tiempo y el segundo hace lo mismo con la amplitud. El muestreo responde al teorema de Nyquist, puede producir una distorsin llamada aliasing, y requiere el uso de dos filtros, uno a la entrada del conversor A-D y otro a la salida del D-A. La cuantizacin, por su parte, introduce el llamado error de cuantizacin, cuyos efectos ms negativos pueden ser mejorados gracias a una tcnica llamada dither. Finalmente el audio as obtenido se codifica como una seal PCM, cuyos dos parmetros, frecuencia de muestreo y resolucin, determinan el espectro y rango dinmico del sistema, respectivamente.

1) Muestreo
Cualquier seal puede ser reconstruida sin error a partir de muestras tomadas a intervalos regulares de tiempo, siempre que la frecuencia de estas muestras sea al menos el doble de la mxima frecuencia contenida en la seal. Esto es lo que nos dice el teorema de muestreo de Nyquist-Shannon para el caso del audio. La mxima frecuencia que puede representar un sistema con frecuencia de muestreo FS es FS/2, llamada por eso mismo frecuencia Nyquist (FN). Cualquier sinusoide puede ser reconstruida en frecuencia, amplitud y fase con al menos dos muestras por ciclo; la nica excepcin es la propia FN que puede tener error de amplitud y fase. La reconstruccin de una sinusoide de frecuencia F mayor que FN a partir de muestras tomadas a FS da como resultado otra sinusoide de frecuencia menor (FS F). Esta distorsin se conoce como aliasing. Para evitarla, es absolutamente necesario que la seal a muestrear no contenga ningn componente de frecuencia mayor que FN. Esto conduce a la necesidad de un filtro pasa-bajo, llamado anti-aliasing, a la entrada del convertidor, en todos los casos, incluso si FN est por encima del mximo audible (20KHz), puesto que la seal a muestrear puede contener ruido que no escuchamos, y que se volver audible por el aliasing, luego de la conversin A/D. Asi como la conversin A/D requiere un pasa-bajo previo al muestreo, la conversin D/A utiliza otro pasa-bajo, llamado filtro de reconstruccin o anti-imaging, que se encarga de reconstruir la onda original a partir de la secuencia de muestras (tcnicamente lo que este filtro hace es eliminar las imgenes del espectro del audio alrededor de FS y cada uno de sus armnicos). Ambos filtros deberan tener una frecuencia de corte igual a FN y una pendiente tericamente infinita. Est claro que tal tipo de filtro no existe en analgico, y esta es la nica razn por la que en la prctica se utilizan frecuencias de muestreo superiores a 40KHz. Se trata de darle a los filtros espacio entre la frecuencia de corte 20KHz y una FN superior a sta, donde la atenuacin tiene que llegar a por lo menos 90dB, y no de aumentar la calidad del muestreo, como suele creerse errneamente; si FS cumple con la condicin de Nyquist, la reconstruccin es matemticamente perfecta.

Nyquist

Aliasing

Filtros

Principios de audio digital (cont.)


Oversampling
Una forma de minimizar el impacto de los filtros analgicos es trabajar a una frecuencia de muestreo varias veces ms alta en la entrada del convertidor, y luego re-muestrear a frecuenca ms baja (decimation) usando un filtro digital. Del mismo modo, a la salida se re-muestrea a frecuencia superior (interpolation) usando un filtro de reconstuccin digital y luego se convierte a analgico. El oversamplig tambien presenta la ventaja de poder distribuir el error de cuantizacin sobre un espectro ms amplio y desplazarlo hacia las zonas no audibles de ste (noise shaping). Ambas tcnicas son utilizadas en el tipo de convertidores llamado Sigma-Delta.

2) Cuantizacin
La cuantizacin es el proceso de asignar a las muestras valores discretos de amplitud, codificados como nmeros binarios de n-bits. Al hacerlo se introduce un error, dado que la amplitud original de la muestra no tiene por qu coincidir con ninguno de los valores disponibles para la cuantizacin. La magnitud de este error ser ms pequea cuanto mayor sea el nmero de valores disponibles, que a su vez depende de n, la cantidad de bits de cuantizacin, tambin llamadada profundidad (bit depth) o resolucin. Cada bit de resolucin duplica la cantidad de valores (2n), por lo tanto hace que el error sea 6dB ms pequeo con respecto a la amplitud mxima. As, el rango dinmico del sistema ser de aproximadamamente n6 dB. El error de cuantizacin es el equivalente al piso de ruido en analgico, sin embargo, es un error que depende de la seal. Cuando no hay seal, no hay ruido, y cuando hay seal, y cuanto ms pequea sea la amplitud de esta seal, el error de cuantizacin se manifestar como una distorsin (armnica) de la misma. Si la seal es ms compleja, el error tiende a manifestarse como ruido, de hecho se le suele llamar ruido de cuantizacin.

Error de cuantizacin

Dither

La idea del dither es hacer que el error de cuantizacin sea completamente aleatorio, y, al no depender de la seal, se manifieste como un ruido de fondo, (como ocurre en analgico), y no como distorsin. Esto mejora notablemente la calidad del sistema desde el punto de vista perceptivo, ya que el oido puede separar el ruido de la seal til, y percibir esta ltima con mucha mayor fidelidad. Se dice que el dither desparrama la energa del error de cuantizacin a lo largo de todo el espectro del sistema.
La tcnica para lograr esto consiste en agregar un cierto nivel de ruido a la seal, previo a su digitalizacin, de amplitud aproximadamente igual a la de un escaln de cuantizacin (intervalo entre dos valores vecinos). Esto hace que el ltimo bit de cuantizacin est variando permanentemente de forma aleatoria, absorbiendo al error original, y permitiendo que el valor exacto de la muestra aparezca como la probabilidad de que la aproximacin se haga hacia uno u otro de los valores entre los que se encuentra (ver figura).

Principios de audio digital (cont.)


3) PCM
Pulse Code Modulation, es el audio digital codificado como una sucesin temporal de muestras, cada una de ellas representada por un nmero binario de n-bits. La utilizacin de esos n bits para codificar los valores de las muestras puede variar. As tenemos por ejemplo, nmeros con signo, sin signo, complemento a 2, enteros, nmeros con coma flotante, etc; la escala de cuantizacin puede ser lineal o logartmica (companding) y el PCM puede ser tambn diferencial (DPCM, ADPCM). Toda seal PCM supone un clock a la frecuencia de muestreo; la imprecisin temporal de este clock (jitter) es otra fuente ms de efectos no deseados (distorsin, ruido) en el audio digital.
Efecto del Dither, visto en el dominio temporal.

Companding

En espaol compansin, significa compresin-expansin, y se refiere al rango dinmico. La idea es usar una escala de cuantizacin no-lineal, logartmica, de manera que queden ms bits de cuantizacin para las partes de dinmica baja y menos bits para las altas. Dicho de otro modo, los intervalos de cuantizacin no son equidistantes en el eje de la amplitud, y hay ms de ellos cerca del 0 y menos en los extremos. Esto reduce la distorsin en las seales bajas o partes bajas de la seal. En esto consisten los formatos A-Law y -Law. En el Adaptive Differential PCM, no se codifican las muestras en s, sino la diferencia entre una prediccin de la muestra y la muestra original. La prediccin se hace a partir de las muestras previas, de tal manera que la diferencia (o residuo) es suficientemente pequea para ser cuantizada con pocos bits (habitualmente 4). El ADPCM adems adapta la gama de amplitud representada por esos 4 bits, en el caso de que el error de prediccin sea muy grande. Tanto el companding como el ADPCM son usados sobre todo en voz y telefona. De todo lo dicho se desprenden las siguientes conclusiones:

ADPCM

Espectro y Dinmica del Audio PCM

- La frecuencia de muestreo determina el espectro del audio, el cual es siempre levemente inferior a la mitad de aquella. La FS determina tambin el margen de accin para los filtros anti-aliasing y de reconstruccin.

- La resolucin (cantidad de bits) del PCM determina el rango dinmico del audio, el cual es aproximadamente igual a 6dB multiplicado por la cantidad de bits, cuando la cuantizacin es lineal.

Audio analgico
En todo sistema de audio, existen componentes que trabajan con una seal elctrica en la cual el voltaje vara en forma continua en funcin de la presin sonora, adoptando infinitos valores sucesivos, es decir, una seal analgica. Los transductores (micrfonos, parlantes) son los encargados de pasar del dominio fsico presin al analgico voltaje y viceversa, y la electrnica asociada a ellos (preamplificadores, amplificadores de potencia) es tambin forzosamente analgica. Entre estos dos extremos de la cadena puede existir, segn el caso, diverso tipo de equipamiento tanto analgico como digital (procesadores, grabadores, trasmisores, etc.)

En el dominio analgico la seal tiende a degradarse con gran facilidad, por lo que es necesario poner especial atencin a los niveles, impedancias, cables, conectores, etc. Asimismo, el diseo de componentes analgicos de alta fidelidad involucra conocimientos profundos de acstica, matemtica, fsica, electrnica, etc., que no sern abordados aqu.

1) Componentes de la cadena
Transductores de entrada: Micrfonos
Los micrfonos pueden clasificarse segn su uso, su direccionalidad, su respuesta en frecuencia, sensibilidad, etc., o, como lo haremos aqu, segn su principio de funcionamiento. Mencionaremos los 3 tipos principales de uso comn en la actualidad. Tambin llamados de bobina mvil, constan de un diafragma suspendido frente a un imn permanente; ste cuenta con una hendidura en la que va acoplada una bobina mvil solidaria al diafragma. Cuando las ondas sonoras hacen vibrar al diafragma, la bobina se desplaza dentro del campo magntico produciendo un voltaje inducido, proporcional a la velocidad del movimiento. Pros:

Micrfonos dinmicos

- son robustos, de construccin slida, soportan mal trato, humedad, temperatura, etc. - son relativamente econmicos (en comparacin con los de condensador). - no requieren fuente de alimentacin externa. - su respuesta en frecuencia es limitada e irregular; su pico de respuesta se sita en torno a los 5 KHz, y a partir de los 8 o 10 KHz su respuesta decae rpidamente (debido a la propia estructura mecnica que impide que el diafragma se mueva a suficiente velocidad). - son sensibles a campos magnticos - se utilizan tpicamente para cantantes e instrumentos en amplificaciones en directo. - Shure SM58.

Contras:

Usos: Ejemplos:

Audio analgico (cont.)


En estos micrfonos, el diafragma es un disco conductor montado sobre una placa metlica posterior fija, separado de sta por un pequeo volumen de aire, formando un condensador de capacidad variable. Estas placas necesitan ser polarizadas con un voltaje, para generar una variacin de la carga en funcin de las ondas sonoras que hacen vibrar el diafragma. La seal generada por la cpsula es de muy bajo nivel, por lo cual el micrfono incluye un preamplificador, que, al igual que la propia cpsula, requiere una alimentacin externa (ver Phantom Power).

Micrfonos de condensador

Pros:

- respuesta en frecuencia muy amplia, tpicamente de 20Hz a 18 KHz. - respuesta polar uniforme, varios patrones polares posibles. - pueden ser construidos de tamao pequeo. - son ms sensibles a cambios de temperatura y humedad. - por su alta sensibilidad, pueden distorsionar, son ms sensibles al popeo y a ruidos (tienen de por s ms ruido intrnseco). - necesitan una fuente de alimentacin externa. - uso profesional; estudios de grabacin, etc. Su elevado costo, fragilidad y sensibilidad hace que sean menos usados en amplificaciones directas. - AKG C-414, Neumann U87.

Contras:

Usos: Ejemplos:

Su funcionamiento es muy similar al de los micrfonos de condensador, la diferencia radica en que los elementos del condensador han sido permanentemente polarizados en el proceso de fabricacin, por lo que estos micrfonos no necesitan voltaje de polarizacin, aunque siguen requiriendo alimentacin para el circuito preamplificador. Su respuesta en frecuencia est entre la de los dinmicos y los de condensador. Suelen ser omnidireccionales.

Micrfonos electret

Pros:

- son robustos y pueden ser de pequeo tamao; son econmicos. - respuesta en frecuencia bastante buena (50Hz - 15KHz), sin llegar a la de un condensador. - al no requerir polarizacin, la fuente de alimentacin puede ser una simple pila de 1,5V. - son sensibles a cambios de temperatura y humedad. - se deterioran con el tiempo de uso, tienen una duracin limitada. - como micrfonos solaperos, en grabadores porttiles, computadoras, vinchas, etc. - Audio-Technica ATM10a.

Contras: Usos: Ejemplos:

Audio analgico (cont.)


Transductores de salida: Altavoces o parlantes
Aunque existen diversos tipos, por lejos el ms utilizado es el dinmico o electrodinmico, del que hablaremos aqu. Su funcionamiento es similar al de un micrfono dinmico invertido. Cuando se aplica a la bobina mvil una seal elctrica, sta crea un campo magntico variable que la hace alejarse y acercarse al imn permanente; estos movimientos se trasmiten a la membrana que est acoplada a la bobina, la que a su vez los trasmite al aire. Como vemos en la figura, el diseo de un altavoz dinmico consta de diversas partes mecnicas; las caractersticas fsicas de este diseo hacen que los altavoces, en general, tengan un rendimiento muy bajo (la mayor parte de la energa elctrica que se les entrega la convierten en calor y no en sonido) y que su respuesta en frecuencia sea muy limitada, en el entorno de la frecuencia de resonancia propia de su estructura. Es por estas razones que los altavoces necesitan ser excitados con seales de alto nivel, provenientes de un amplificador de potencia, y que normalmente se utilicen en sistemas que combinan 2 o 3 altavoces especializados en cubrir distintas partes del espectro, con su correspondiente red divisoria de frecuencias (crossover). No menos importante es el diseo de las cajas acsticas, sin las cuales el rendimiento de un parlante es prcticamente nulo (por la cancelacin recproca de las ondas anterior y posterior). Cabe sealar que adems de su bajo rendimiento y limitado ancho de banda, los parlantes introducen altos niveles de distorsin (por causas variadas, entre ellas la alinealidad de las suspensiones) siendo el componente ms problemtico de toda la cadena. Es imprescindible entonces poner especial atencin en la eleccin del sistema de altavoces.

Preamplificadores
Como ya dijimos, tanto los transductores de entrada como los de salida necesitan conectarse a circuitera electrnica analgica especialmente diseada para ellos. En el caso de los de entrada, se trata del preamplificador, un dispositivo diseado para trabajar con seales muy dbiles (del orden de los pocos mV), provenientes de un tipo de fuente especfica, cuya impedancia debe ser tenida en cuenta, y que segn el caso puede requerir una correccin de frecuencias (ver ecualizacin). El preamplificador amplifica estas seales a efectos de hacerlas manejables por la equipacin de audio estndar, que trabaja con seales de nivel de lnea -ya veremos lo que es-, introduciendo el mnimo ruido y distorsin posibles en el proceso. Este circuito se encuentra en las entradas de las consolas, tarjetas de sonido, etc, pero tambin puede existir como equipo independiente.

Audio analgico (cont.)


Amplificadores de potenca
Un amplificador es simplemente un dispositivo que multiplica la amplitud de una seal. Los preamplificadores elevan la dbil seal de los transductores de entrada, a un nivel estndar llamado de lnea, mientras que los de potencia parten de una seal de lnea y la amplifican al nivel necesario para obtener determinada sonoridad en los transductores de salida. Los parlantes necesitan un nivel alto de seal para funcionar, debido a su bajo rendimiento; el amplificador de potencia est diseado para entregar determinada potencia sobre la impedancia especfica de los altavoces, que suele ser de 4 u 8 ohms. Tanto los preamplificadores como los amplificadores de potencia estn sujetos a las consideraciones vistas en el captulo calidad del audio (respuesta en frecuencia, relacin seal ruido, distintos tipos de distorsin, etc.) y a las que veremos en este, respecto a niveles e impedancias. Lo mismo ocurre con el resto de los componentes analgicos y tambin slo en la calidad, no en lo relativo a niveles e impedancias en los digitales.

Procesadores y consolas de mezcla


Ya hemos visto las puntas de la cadena, los transductores y sus respectivos circuitos asociados. El resto de los componentes que existen en el audio pueden ser tanto analgicos como digitales (aunque hay una fuerte tendencia hacia estos ltimos) y abarcan funciones como registro, trasmisin, mezcla de varias fuentes, modificacin de la seal, y otras ms aun, sobre todo en el dominio digital (edicin, codificacin, sntesis, etc). Muchas de estas funciones, en particular el registro, se hacen hoy en da ntegramente en computadoras personales, tema del cual se ocupa este documento, por lo tanto no hablaremos aqu de sistemas de registro analgico. Respecto a los encargados de modificar la seal (procesadores) y mezclar varias fuentes (consolas), su diseo digital o hasta virtual (software) est bsicamente inspirado en los tradicionales mdulos analgicos que veremos a continuacin. Son dispositivos capaces de modificar el contenido espectral de una seal, o sea la amplitud relativa de cada una de las frecuencias o bandas de frecuencia que la componen.

Procesadores de espectro

Filtros pasivos: el filtro es el elemento bsico de los procesadores de espectro. Los filtros pasivos son aquellos formados exclusivamente por componentes pasivos (redes RLC) y que en consecuencia slo pueden atenuar ciertas bandas y dejar pasar otras. Los tipos de filtros pasivos bsicos son el pasa-bajos (low-pass) y el pasa-altos (high-pass); la combinacin de stos da origen al pasa-banda (band-pass) y el rechazo-de-banda (band-reject o notch filter). Los parmetros de un filtro pasa-bajos o pasa-altos son su frecuencia de corte (Hz) y su pendiente (dB/oct).

Audio analgico (cont.)


Filtros activos: combinando redes RC con amplificadores operacionales, segn distintos diseos posibles, obtenemos filtros activos, es decir, filtros que no slo atenan sino que pueden amplificar ciertas bandas de frecuencia. Tenemos as los filtros estante (high-shelf, low-shelf) y los campana (bell o peak). Estos ltimos poseen 3 parmetros: frecuencia (Hz), ganancia (dB) y factor Q o ancho de banda. El ancho de banda puede medirse en Hz o en octavas, pero el Q suele expresarse como el cociente entre la frecuencia central y el ancho de banda medido en Hz. Ecualizador grfico: 2 filtros tipo shelf en las puntas y varios filtros bell con frecuencias y anchos de banda fijos y ganancias regulables en el medio, constituyen un ecualizador (EQ) grfico. Este puede ser de 3 bandas (graves, medios y agudos) hasta 30 o ms bandas. Las frecuencias de los filtros estan ajustadas a intervalos regulares en octavas (o fracciones de octava), y sus Q lo estn de manera acorde. La ganancia de cada banda suele ser ajustable en un rango no superior a los 12dB. Ecualizador paramtrico: cuando 1 o ms filtros pueden ajustarse libremente en sus 3 parmetros, estamos frente a un EQ paramtrico. Es comn combinar ambos tipos de EQ, por ejemplo, bandas fijas en los extremos (graves y agudos) y 1 o 2 bandas de medios con filtros paramtricos. Diseo de un filtro: desde el punto de vista de su diseo, los filtros tienen una funcin de transferencia y un orden. Algunos diseos tpicos son Butterworth, Chebyshev y Bessel. Filtros Digitales: los filtros digitales son una de las pricipales aplicaciones del DSP. En digital, el filtrado se logra mediante la combinacin lineal del valor actual de la muestra y los valores de muestras pasadas. Si se utilizan adems valores de muestras de la salida, estamos ante un filtro recursivo o IIR (infinite impulse response), de lo contrario se trata de un FIR (finite impulse response). Podramos decir que los procesadores de dinmica son amplificadores selectivos al igual que los de espectro, pero a diferencia de stos, en lugar de variar su ganancia con respecto a la frecuencia, lo hacen con respecto a la propia amplitud de la seal.

Procesadores de espectro (cont.)

Procesadores de dinmica

Compresor / expansor: tanto el compresor como el expansor actan sobre la seal cuando sta supera el umbral de amplitud (treshold) ajustable, atenundola o amplificndola, respectivamente, en una proporcin establecida por el ratio, tambin ajustable. Por ejemplo, toda seal que supere los -15dB (con respecto al nivel nominal del equipo, 0dB) ser atenuada en una razn 4:1. Para determinar si la seal supera el umbral, se utiliza un detector de envolvente, que a su vez puede tener 2 parmetros ajustables: attack y decay; estos parmetros controlan la velocidad con que el detector reacciona a los cambios de amplitud de la seal (o, lo que es lo mismo, el tiempo de integracin).

Audio analgico (cont.)


Visto de esta manera, lo que hace un compresor es atenuar los niveles altos. Sin embargo, si agregamos una etapa de amplificacin a continuacin del compresor, podramos observar que lo que hace es acentuar los niveles bajos; en ambos casos, lo que realmente hace el compresor es reducir el rango dinmico de la seal. De idntica manera, el expansor aumenta la dinmica de una seal. Limitador: es un compresor ajustado de tal manera que la seal de salida nunca supere el treshold, o, dicho de otro modo, un compresor con un ratio infinito. Gate o compuerta: este procesador lo que hace es reducir a 0 toda seal que est por debajo del umbral, dejando intacto el resto. Vale decir que el gate abre la compuerta slo cuando la seal supera el treshold. Una tcnica muy difundida en el audio es grabar los sonidos secos (en salas anecoicas) y luego agregarles artificialmente la reverberacin, es decir el efecto producido por las mltiples reflexiones del sonido en un recinto dado. Dicho efecto se consigue con los llamados procesadores de tiempo, es decir, dispositivos que mezclan la seal con versiones retrasadas en el tiempo y filtradas de ella misma. Otros efectos clsicos que se consiguen con tcnicas similares son el delay, chorus, flanger y phaser. Cabe destacar que este tipo de efectos tiene muchsimo ms desarrollo en el rea digital, en donde existen adems multiplicidad de nuevos procesamientos que no tienen par en analgico, como el pitch/time comp/exp, extraccin de ruido, etc., y los emuladores acsticos por convolucin. Las consolas o mesas de mezcla son dispositivos capaces de recibir muchas seales provenientes de fuentes distintas, y procesarlas y combinarlas de diversas maneras. La consola posee entradas, salidas y controles. Existen mesas de 4, 8, 12, 16, 24, 32, 48 o ms entradas o canales. Cada entrada consta de un preamplificador adaptado para distintos tipos de fuente de seal, por ejemplo nivel de lnea o micrfono. Cada canal de la consola tiene tpicamente un control de nivel (volumen), un control panormico (ver estereofona), un ecualizador grfico/paramtrico de 2 a 4 bandas, una salida directa, una entrada de insercin para procesadores dinmicos, y una serie de conexiones, cada una de ellas con su respectivo control de nivel, a los buses de la consola: salida principal (main o master), salida de monitoreo, salidas para procesadores externos de efectos (aux), salida para grabacin, sub-grupos (submasters), etc. Las consolas se utilizan tpicamente en estudios de grabacin, amplificacin en directo, radio y TV y, en general, en todo lo que es produccin y emisin de audio. Existen tambin un tipo de mesas especialmente diseadas para DJs, mucho ms simples que las descritas arriba y con el tpico control de crossfade.

Procesadores de dinmica (cont.)

Procesadores de tiempo y efectos

Consolas de mezcla

Audio analgico (cont.)


2) Adaptacin de niveles e impedancias.
El nivel nominal, o nivel de referencia.
Sabido es que un equipo puede operar dentro ciertos lmites con respecto a la amplitud de la seal que le llega. Por encima del mximo admitido se producir un recorte de la forma de onda que redundar en distorsin armnica (ver: Armnicos). Por qu? Simplemente porque para poder operar con seales arbitrariamente grandes, el equipo debera tener, para empezar, una fuente de alimentacin tambin arbitrariamente grande. Es lgico que exista cierto nivel de amplitud para el cual respetar la forma de onda implique entregar, en el pico de la onda, ms voltaje del que la propia fuente que alimenta al circuito genera. Esto explica la existencia de un nivel mximo de entrada. Qu ocurre con el mnimo? Los componentes electrnicos generan ruido (debido, entre otras cosas, al movimieto aleatorio de electrones dentro de ellos, lo que se conoce como ruido trmico). Si la seal es muy pequea, quedar ensuciada con el ruido, y si es ms pequea aun, completamente tapada por el mismo. Esto explica la existencia de un nivel mnimo. La diferencia si hablamos en dB o cociente si hablamos en V entre ese mnimo (el nivel de ruido) y el mximo (el nivel al que la distorsin armnica [THD] es del 0,05%) es el famoso rango dinmico del equipo. Obsrvese que la calidad de un equipo no est determinada por el nivel de ruido que genera, sino por su rango dinmico. Si el equipo genera un ruido de amplitud igual a 0,7mV (-60dBu) pero es capaz de trabajar con seales de hasta 7V (20dBu) sin distorsionar, significa que tiene un rango dinmico de 80dB, o sea que la seal puede llegar a estar 80dB por encima del ruido, y por ende el equipo puede sonar muy bien Claro, siempre y cuando la seal que se le entregue sea del orden de los 7V; de nada le servira tener un rango de 80dB si la seal a la entrada estuviera ms cerca de los 0,7mV. Esto explica el significado del Nivel Nominal. El nivel nominal, o nivel de referencia, es el nivel al que se debe trabajar, para obtener un resultado ptimo. En lugar de especificar el nivel mximo y el mnimo, y de all deducir las caractersticas de un equipo, cuando se quiere indicar qu amplitud debera tener la seal que se aplique a su entrada o qu nivel genera el equipo en su salida, se especifica un nico nivel situado entre ambos: el nivel nominal. Cuando se quiere especificar la calidad del equipo se habla de rango dinmico o relacin seal/ruido, con total independencia de lo que es el nivel al que trabaja. Obsrvese que el nivel nominal se encuentra cerca del mximo pero entre ellos existe un espacio llamado headroom, espacio para los picos de seal. La cantidad de headroom la determina libremente el fabricante.

Audio analgico (cont.)


Como hemos visto, en audio analgico, al conectar un dispositivo con otro es imprescindible que los niveles nominales de salida de uno y entrada del otro coincidan o sean cercanos, para evitar la distorsin o el ruido. A tales efectos se definen ciertos valores estndar, que los equipos deberan respetar: Nivel de micrfono (Mic. Level) o bajo nivel (Low Level). Este rango comprende seales que no superan los 20dBu (77,5mV), lo que incluye: micrfonos, cabezas grabadoras, cpsulas de tocadiscos, instrumentos elctricos (guitarra, bajo), etc. Nivel de lnea (Line Level) o nivel intermedio. Desde 20dBu hasta +30dBu (24,5V), abarca: teclados, salidas de preamplificadores y consolas, procesadores de audio (compresores, efectos, etc.), lectores de CD, cassetteros, tarjetas de sonido, etc. Existe una distincin entre equipos profesionales y domsticos: los prineros trabajan a +4dBu (1,23V) y los segundos a 10dBV (316mV). Nivel de parlante (Speaker Level) o nivel alto (High Level). Niveles por encima de +30dBu: salidas de auriculares y salidas de amplificadores de potencia.

Niveles estandarizados

Adaptacin de impedancias.
La impedancia (Z) es el equivalente a la resistencia, cuando hablamos de circuitos de corriente alterna, y al igual que sta, se mide en ohms. Del mismo modo que ocurre con los niveles, en audio analgico hay que prestar atencin a las impedancias de salida y de entrada de dos equipos que se quieren acoplar, ya que de la relacin entre ellas depende, a su vez, que se mantengan los niveles de seal, de distorsin y de ruido. El acoplamiento entre la salida de un dispositivo y la entrada de otro, puede ser visto como un circuito con un generador de voltaje y dos resistencias en serie, la propia impedancia interna del emisor ZG impedancia de salida y la impedancia de carga ZL impedancia de entrada del receptor. Mientras que en algunas tecnologas como radiofrecuencia o telefona se utilizan enlaces de potencia (matching), en los que ZG y ZL deben ser iguales, en audio, para todos los casos, incluso el de los parlantes con la salida de potencia del amplificador, se utiliza un enlace de voltaje (bridging), en el que ZL debe ser varias veces ms alta que ZG (tpicamente, 10 veces, o ms), para conseguir la mxima transferencia de voltaje. Los micrfonos trabajan con una impedancia de salida baja (low-Z), del orden de los 200W, lo que reduce las interferencias en tendidos largos de cable, y la incidencia del efecto capacitivo de ste. Las entradas de micrfono LZ tienen una impedancia del orden de los 2KW, mientras que las de lnea suelen ser de 10KW o ms. Dispositivos de alta impedancia de salida, como guitarras elctricas o micrfonos domsticos, no pueden ser conectados ni a una ni a otra, en el primer caso por razones de impedancia y en el segundo, de nivel; para estos casos existen los llamados adaptadores de impedancia (DI box).

Audio analgico (cont.)


3) Conectores, cables, etc.
Cable blindado
Cable de parlante
Para seales de nivel de micrfono o lnea se utiliza el cable blindado, que consiste en un conductor central (vivo) rodeado por una malla metlica que hace las veces de retorno de seal (masa). De esta manera se consigue reducir significativamente el ruido. Los niveles de parlante son lo suficientemente altos como para despreciar el efecto de ruidos e interferencias. Para los parlantes se usa cable gemelo, sin blindaje, y de suficiente calibre para la potencia requerida. En audio profesional, sobre todo en micrfonos pero tambin para niveles de lnea, suele usarse la conexin balanceada o simtrica, que consta de 3 conductores: seal (+) o hot, seal () o cold y masa. Esto reduce aun ms el ruido, dado que las interferencias afectaran a ambos vivos con igual fase y seran canceladas luego al amplificar la diferencia entre stos. La conexin balanceada utiliza conectores de 3 vias (XLR o plug TRS) y cable con 2 conductores rodeados de una malla (cable balanceado o de micrfono). Los micrfonos de condensador necesitan alimentacin para funcionar. El phantom power es un voltaje de +48V (continua) que se enva a travs de los dos terminales de seal del conector XLR, con la misma polaridad respecto a masa, sin afectar el audio. Es tpico en las consolas y preamplificadores de micrfono profesionales. Esta es la ficha tpica de las conexiones de micrfono, habitualmente balanceadas. Tambin se usa ocasionalmente para seales de lnea, tambin balanceadas, en equipos profesionales. Los pines estn numerados, el 1 corresponde a masa, el 2 hot y el 3 cold. Los hay de 3 contactos (TRS, tip-ring-sleeve) y de 2 (TS). Se usan en equipos profesionales para seales de lnea (+4dBu), que pueden ser balanceadas en la versin de 3 pines o no balanceadas en la de 2. El TRS se usa tambin para auriculares, como conector estreo (L, R y masa). Este conector es el estndar de seales de lnea no balanceadas en equipos domsticos (-10dBV). Suelen venir en pares para conexiones estreo, uno negro o blanco para el canal L y uno rojo para el R. En audio profesional, el uso de este conector est restringido a auriculares (en su versin TRS) pero diverso tipo de equipos porttiles y/o domsticos notablemente las tarjetas de sonido domsticas o semi-pro lo utilizan para seales de lnea estreo y como entrada de micrfono mono, con uno de los pines del TRS portando +5V para alimentar los micrfonos electret tpicos de las computadoras.

Conexin balanceada Phantom Power Conector XLR PLUG 1/4


Conector RCA

PLUG 1/8

S-ar putea să vă placă și