Documente Academic
Documente Profesional
Documente Cultură
ANDRS ACOSTA
ALEX CASA
CARLOS QUINTE
Proyecto
1. Cdigos utilizados
Ejemplo del cdigo utilizado para obtener las muestras de voz
[eo1, fs]=audioread('el_1.wav');
elo1=eo1(8000:14000);
[go1, fs]=audioread('gel_1.wav');
gelo1=go1(7500:13500);
[so1, fs]=audioread('sal_1.wav');
salo1=so1(12000:18000);
[vo1, fs]=audioread('ver_1.wav');
vero1=vo1(6500:12500);
Se observ que para tener un porcentaje de error total menor al 20% la matriz de
confusin se necesita que la red neuronal realice al menos 13 interacciones.
Al momento de grabar archivos de voz, se debe tener mucho cuidado con la
pronunciacin, debido a que el monoslabo ver nos dio algunos inconvenientes.
Mediante la creacin y entrenamiento de redes neuronales podemos lograr un
sistema de reconocimiento de voz eficaz, y utilizarlo para otras aplicaciones como
son seguridad para algn sistema.
Para hacer la red neuronal ms eficiente se debe aumentar el valor del tamao de
capa oculta, ya que tal vez no reconozca algunas palabras debido a este conflicto.
Mientras ms muestras ingresemos a la red neuronal la red podr entrenarse mejor,
es decir al momento de ingresar un monoslabo, la red lo reconocer ms
fcilmente, pero esto generar ms datos, y la red tardar ms tiempo en acabar el
entrenamiento, aun as se tom las 6000 muestras como lo dice en las indicaciones.
Algunas muestras no arrojaban el valor correcto ya que, por la naturaleza de la voz
sern diferente, por ello se debe tomar un valor mximo.
Para un mejor rendimiento de la red neuronal se debi hacer entrenar una otra vez
la red para que reconozca la mayora de monoslabos.