Sunteți pe pagina 1din 4

UNIVERSIDAD NACIONAL AUTNOMA DE MXICO FACULTAD DE INGENIERA PROGRAMA DE ESTUDIO

PROCESAMIENTO DIGITAL DE VOZ


Asignatura Ingeniera Elctrica Divisin

0752
Clave

8, 9
Semestre

06
Crditos

Ingeniera en Computacin Departamento

Ingeniera en Computacin Carrera en que se imparte

Asignatura: Obligatoria Optativa de eleccin Modalidad: Curso X

Horas: Tericas Prcticas 3.0 0.0


Aprobado: Consejo Tcnico de la Facultad

Total (horas): Semana 16 Semanas 3.0 48.0

Fecha: 25 de febrero, 17 de marzo y 16 de junio de 2005 11 de agosto de 2005

Consejo Acadmico del rea de las Ciencias Fsico Matemticas y de las Ingenieras

Asignatura obligatoria antecedente: Ninguna. Asignatura obligatoria consecuente: Ninguna.

Objetivo(s) del curso: El alumno realizar el tratamiento automtico de las principales aplicaciones de voz a travs de las tcnicas bsicas en codificacin, sntesis y reconocimiento de voz, as como reduccin de ruido para voz.

Temario
NM. NOMBRE HORAS

1. 2. 3. 4. 5.

Aspectos bsicos sobre sonidos y voz Anlisis Codificacin y sntesis Reconocimiento Ensanchamiento

3.0 12.0 15.0 12.0 6.0 48.0

Prcticas de laboratorio Total

0.0 48.0

PROCESAMIENTO DIGITAL DE VOZ

(2 / 4)

1 Aspectos bsicos sobre sonidos y voz Objetivo: El alumno conocer algunos aspectos bsicos de acstica; de la fisiologa de la generacin de voz y de la percepcin de sonidos, con nfasis en su modelado; y de fontica acstica. Contenido: 1.1 Generacin de sonidos. 1.2 Generacin de voz. 1.3 Percepcin de sonidos y voz. 1.4 Fontica acstica.

2 Anlisis Objetivo: El alumno aplicar las principales tcnicas de tiempo y de frecuencia para el tratamiento de seales de voz. Contenido: 2.1 Filtrado digital y prenfasis. 2.2 Muestreo, submuestreo y sobremuestreo. 2.3 Ventanas rectangulares, de Hamming, Bartlett, de Hanning y Blackman. 2.4 Parmetros en el dominio del tiempo: Cruces por cero, energa en tiempo corto y corrrelacin en tiempo corto. 2.5 Parmetros en el dominio de la frecuencia: Transformada corta de Fourier, generacin de espectogramas.

3 Codificacin y sntesis Objetivo: El alumno analizar y aplicar diferentes tcnicas de codificacin bsicas de voz, en diferentes ambientes de cmputo. Contenido: 3.1 Codificacin escalar uniforme, logartmica y adaptable. 3.2 Tcnicas de codificacin DM, DPCM, ADM y ADPCM. 3.3 Prediccin lineal, mtodos LPC, coeficientes PARCOR, LPC cepstral, Mel cepstral, PLP, y CELP. 3.4 Cuantizacin vectorial (VQ), mtodos de agrupamiento: Simple, maximin, k-medias, LBG e Isodata. 3.5 Tcnicas actuales de sntesis de voz. 3.6 Tcnicas de sntesis basadas en difonemas.

4 Reconocimiento Objetivo: El alumno analizar las principales tcnicas de reconocimiento de comandos y palabras conectadas, as como los principios de reconocimiento de palabras continuas.

PROCESAMIENTO DIGITAL DE VOZ

(3 / 4)

Contenido: 4.1 Ajuste dinmico en el tiempo (DTW) y su aplicacin a reconocimiento de palabras aisladas. 4.2 Aplicacin de VQ multiseccionada en tiempo al reconocimiento de palabras aisladas. 4.3 Modelos ocultos de Markov (HMM) y su aplicacin al reconocimiento de palabras aisladas. 4.4 Mtodo de un solo paso para reconocimiento de palabras conectadas.

5 Ensanchamiento Objetivo: El alumno conocer las tcnicas actuales de reduccin de ruido y aplicar la tcnica LMS a problemas de contaminacin de voz por diferentes tipos de ruido. Contenido: 5.1 Eliminacin de ruido. Revisin de tcnicas actuales. 5.2 Mtodos adaptables LMS de eliminacin de ruido.

Bibliografa bsica: RABINER, L.R.; SCHAFER, R.W. Digital Processing of Speech Englewood Cliffs Prentice-Hall, 1978 OPPENHEIM ALAN V.; SCHAFER, RONALD W. Discrete-Time Signal Processing 2nd edition New Jersey Prentice-Hall, 1999 RABINER, L.R; JUANG. Fundamentals of Speech Recognition Englewood Cliffs Prentice Hall, 1993 PARSONS, THOMAS W. Voice and Speech Processing McGraw-Hill, 1987

Temas para los que se recomienda:

Todos

Todos

Todos

Todos

PROCESAMIENTO DIGITAL DE VOZ

(4 / 4)

Bibliografa complementaria: OWENS, F.J. Signal Processing of Speech New York McGraw-Hill, 1993 SHAUGHENESSY, DOUGLAS Speech Communication, Human and Machine Quebec Addison Wesley, 1999 DELLER, J.R., PROAKIS, J.G., HANSEN, J.H. Discrete-Time Processing of Speech Signals Wiley-IEEE Press, 1999 ROWDEN, CHRIS Speech Processing McGraw-Hill, 1992 WIDROW, B.; STEARNS, S.D. Adaptive Signal Processing Prentice-Hall, 1985 Todos

Todos

Todos

Todos

Todos

Sugerencias didcticas: Exposicin oral Exposicin audiovisual Ejercicios dentro de clase Ejercicios fuera del aula Seminarios Forma de evaluar: Exmenes parciales Exmenes finales Trabajos y tareas fuera del aula X X X Participacin en clase Asistencias a prcticas Otras X X X X Lecturas obligatorias Trabajos de investigacin Prcticas de taller o laboratorio Prcticas de campo Otras X X X

Perfil profesiogrfico de quienes pueden impartir la asignatura Investigadores reconocidos del rea. Ingeniero en computacin familiarizado con el procesamiento digital de seales y voz.

S-ar putea să vă placă și