Sunteți pe pagina 1din 20

IngenieraIndustrial.


ActualidadyNuevasTendencias


Ao3,Vol.II,N5
ISSN:18568327

37

FiltrosconAprendizajedeParmetrosparaOptimizar
ModelosdeRedesNeuronalesenlaPrediccindeSeries
dePrecipitaciones
(FilterswithParametersLearningforOptimizingNeuralNetworkModels
inPredictingRainfallSeries)
SabaInfante,FernandoCedeo,JosOrtega
PalabrasClave:RedesNeuronales;FiltrodeKalmanExtendido;FiltrodePartculas;Seriesde
Precipitaciones.
KeyWords:NeuralNetworks;KalmanExtendedFilter;ParticleFilter;PrecipitationSeries


RESUMEN

En este estudio se us un modelo de redes


neuronales (RN) para predecir los niveles
de lluvia en Venezuela. El estudio est
basadoenseriesdelluviatotalmensualdel
periodocomprendidoentre19712000de36
estaciones meteorolgicas. Para determinar
ladimensindeinmersindelosdatos,as
como el tiempo de retardo, nmero de
pasos hacia atrs necesarios para predecir
un valor futuro, se utilizan dos tcnicas
estndar de los sistemas dinmicos, la
Informacin Mutua Promedio (AMI) y los
Falsos Vecinos ms Cercanos (FNN). Una
vez determinadas las variables de entrada,
se disea el modelo predictivo formulado
en trminos de los modelos espacioestado.
Paraestimarlospesosdelaredseutilizaron
dos algoritmos de aprendizaje Filtro de
Kalman Extendido (FKE) y Filtro de
Partculas o Muestreo de Importancia
Secuencial (FP o SIR). Se utiliz el criterio
de informacin Bayesiano  (BIC) para
seleccionar el nmero de neuronas de la
capa oculta. Se proponen dos mtodos de

bondad de ajuste para medir la exactitud


delmodelo.Losresultadosdemuestranque
el modelo ajustado es til para predecir
niveles de precipitaciones mensuales con
altaexactitudyconfiabilidad.

ABSTRACT
In this study it was used a neural network
model (NN) to predict rainfall levels in
Venezuela.Thestudyisbasedonaseriesof
monthly total rainfall in the period 1971
2000 from 36 meteorological stations. One
determine the embedding dimension of the
data and the delay time, the number of
backwardstepsnecessarytopredictafuture
value, two standard techniques of
dynamical systems, the Average Mutual
Information (AMI)andtheFalseNeighbors
Nearest(FNN).Afterdeterminingtheinput
variables, were used the predictive model
was designed in terms of statespace
models. To estimate the weights of the
network we used two learning algorithms,
the Extended Kalman Filter (FKE) and a
Particle Filter or Sequential Importance

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias

Sampling(PForSIR).WeusedtheBayesian
information criterion (BIC) to select the
number of neurons inthe hiddenlayerand
we proposed two methods to measure
goodnessoffitofthemodelsaccuracy.The
results show that the fitted model is useful
in predicting monthly rainfall levels with
highaccuracyandreliability.

INTRODUCCIN

Durante muchas dcadas, fsicos,


matemticos,astrnomos,meteorlogos,
economista,bilogoseinvestigadoresen
las ciencias mdicas han tratado de
comprender la complejidad de la
naturaleza del mundo real. Todos los
procesos fsicos involucran variabilidad
en el espacio y en el tiempo; por
ejemplo,losmeteorlogosporlogeneral
estn interesados en la evolucin en el
tiempo de ciertos parmetros como: el
viento,
la
temperatura
y
las
precipitaciones sobre un dominio
espacial de inters. Por otra parte, las
bases  de datos de estos fenmenos son
tpicamente muy grandes, con muchos
datos faltantes durante ciertos periodos
de tiempo, con comportamientos
irregulares y en algunos casos con
dinmicas caticas. La teora del caos
provee herramientas para observar el
orden y reglas para determinar el
comportamiento del sistema dinmico.
Las tcnicas de modelacin utilizadas
por Abarbanel (1996), Fraser y Swinney
(1986)  permiten caracterizar las series
temporales generadas  por  estos
sistemasdinmicos.


Ao3,Vol.II,N5
ISSN:18568327

38

En este trabajo se emplean como


herramientas matemticas la funcin
AMI (Informacin Mutua Promedio o
Average Mutual Information) y la
funcin FNN (Falsos vecinos ms
cercanosoFalseNearestNeighbors),con
el objetivo de reconstruir la dinmica y
el tiempo de retardo del sistema
dinmico, y luego sobre la base de esta
informacin se introduce un modelo de
redes neuronales que tiene como
entradalasminiseriesobtenidasapartir
delaserietemporaloriginalusandolos
mtodos AMI y FNN.  Existe una
extensa
literatura
de
modelos
estadsticos de RN, (vase  Cheng y
Titterington, 1994; Bishop, 1995; Ripley,
1994 y 1996; Neal, 1996; Titterington,
2004;Rajunkaretal.,2002;Mencheroet
al., 2005; Bustami  et al., 2007; Saffari et
al.,2009).
Entre algunos trabajos recientes
relacionados con las funciones AMI y
FNN para determinar la dinmica del
sistema dinmico y luego utilizar un
modelo de RN entrenado por el
algoritmo de Backpropagation para
estimarlosparmetrosypredecir,estn
losdeCaldernyPrez(2006),Lucioet
al.(2007)eInfanteetal.(2008).
En este trabajo se propone usar una
estrategia metodolgica diferente  para
estimar los parmetros del modelo de
RNenformasecuencialyentiemporeal
usandounaformulacindelosmodelos
espacio estado,  mediante el algoritmo
filtro de Kalman extendido (FKE), De
Freitas et al.  (1998)  y  Lary y Mussa

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias

(2004)  y el algoritmo de filtro de


partculas(FP),Doucetetal.(2000),De
Freitasetal.(2000),Moraisetal.(2008)
eInfanteetal.(2009).
El algoritmo de aprendizaje de FKE
permite obtener mejores resultados que
las
tcnicas
de
estimacin
convencionales tales como el algoritmo
deBackpropagation,yaquehaceusode
los estadsticos de segundo orden
(covarianzas) que son esenciales para
propagarelerrorsobrelaspredicciones,
adems muestra excelente convergencia
en los parmetros estimados, debido a
quesetienebastantememoriaenlabase
del computador y la precisin de la
mquina es alta. El FKE se basa en la
expansin analtica de una serie de
Taylordeunsistemanolinealdadopor
laecuacindeobservacinalrededorde
los estimadores mximo verosmil; que
en este caso son: la media y covarianza
condicional a posteriori. Tambin se
propone usar el algoritmo de FP como
mtodo para entrenar el modelo de
redes neuronales. La estrategia permite
que los parmetros de aprendizaje
(pesos de la red) se actualicen en forma
secuencial utilizando una distribucin
de probabilidad a posteriori. La tcnica
esadecuadaparamodelajededatosque
tengancomportamientonoestacionario,
estructuras  no lineales, y que se
requieran estimar en tiempo real;
adems, tiene la ventaja que no se
requiere de ninguna restriccin sobre la
distribucin y la forma funcional. La
idea principal del algoritmo de FP es la


Ao3,Vol.II,N5
ISSN:18568327

39

siguiente: el espacio estado es


particionado  en muchas regiones, las
cuales son rellenadas por partculas de
acuerdoalgunamedidadeprobabilidad.
Las partculas con la  mayor
probabilidad son seleccionadas. El
sistema de partculas se actualiza a lo
largo del tiempo de acuerdo a dos
ecuaciones,  una de estado  o transicin
y la otra de observacin  o  evolucin,
las cuales involucran  funciones de
densidad de probabilidad que se
estiman  recursivamente en dos pasos
denominados,

prediccin
y
actualizacin.
Elrestodelartculoesorganizadocomo
sigue: En la primera seccin se plantea
la metodologa a seguir, se define: el
modelodeRNenformaespacioestado,
y se detallan los algoritmos filtro del
Kalmanextendidoyfiltrodepartculas;
se definen las medidas utilizadas para
determinar la exactitud de prediccin
del modelo de RN y el mtodo de
transformacin de los datos. En la
siguiente Seccin se muestra una
discusin de los resultados obtenidos; y
en la Seccin final  se establecen las
conclusionesobtenidas.
METODOLOGA
Enloquesiguesedefinen:elmodelode
RN en forma de espacio estado y los
algoritmos utilizados para estimar los
parmetros del modelo. El objetivo de
utilizar un modelo RN conjugado con
lastcnicasdelossistemasdinmicoses
que en primer lugar: las precipitaciones

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias

se comportan como un sistema catico


no lineal que es difcil de controlar
porque presenta inestabilidad y
sensibilidad a las condiciones inciales;
la teora de caos permite establecer un
orden; en segundo lugar, se quiere
utilizar la capacidad de las RN para
generalizaryenestetrabajoseproponen
dos estrategias de optimizacin para
estimar los pesos del modelo, que
garantizan el aprendizaje de los
parmetros en forma eficiente y con
mayor control sobre el sistema
estudiado.
LostrabajosdeTakens(1981)yCasdagli
(1989) entre otros, han establecido la
metodologa necesaria para modelar
series de tiempo que tienen un
comportamiento no lineal. A partir de
una serie de tiempo univariada,
 se construyen los
vectores de estados
;donde:


, yrepresenta
la dimensin de inmersin  y  es el
tiempo de retardo. Segn el teorema de
Takens (1981), la trayectoria geomtrica
de esta secuencia de vectores conforma
un objeto multidimensional en  que
mantiene inalterada  las caractersticas
delverdaderoperodesconocidoproceso
generado de los datos. Adems el
teorema garantiza la existencia de una
funcin  que relaciona el
estadoactualx(t)yelestadofuturox(t+
t), mediante la ecuacin x(t + t) =


Ao3,Vol.II,N5
ISSN:18568327

40

g( ), esto quiere decir que se puede


anticipar la dinmica futura de la serie
temporal considerando nicamente los
valores del pasado. El problema ahora
consiste en encontrar un buen predictor
queaproximeag(.).
Enestetrabajoseutilizarunmodelode
RNparaaproximarag(.),formuladoen
trminosdelosmodelosespacioestado,
dondelaecuacindeestado(transicin)
describe la evolucin de los pesos de la
red, mientras que la ecuacin de
observacin (medida) describe la
relacin no lineal de las entradas y
salidas de un proceso fsico que se
quiereestudiar.
Lasentradasdelaredsedeterminanen
funcin de m y  mediante las tcnicas
dadas en Abarbanel (1996), Fraser y
Swinney (1986). El modelo  en la forma
espacioestadosedefinecomo:
 (1.a)
 (1.b)
La ecuacin (1.a)  se llama ecuacin de
estado o transicin; la ecuacin (1.b) se
llama ecuacin de observacin o
medida;    es un vector de
respuesta conocido (valor supervisado),
 es el vector de entrada;
   es el vector de estado que
contiene los pesos de la red neuronal,
esunaesunafunciniterativa
que describe el mapeo no lineal de la
red;
 es el valor de la

respuesta estimada,

 es la suma de cuadrados del error


de la funcin de prediccin,  es un

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias

vectorderuidodelaecuacindeestado;
 es un vector de ruido de la ecuacin
de observacin  y T es una matriz de
constantes conocidas. Es ampliamente
conocido que el modelo RN tiene la
capacidad de aproximar cualquier
funcin continua, con la precisin
deseada
independientemente
del
tamaodelared,Cybenko(1989).
Los supuestos del modelo son los
siguientes:  es un ruido blanco con
media cero y matriz de varianza
covarianza ,   tambin es
unruidoblancoconmediaceroymatriz
de varianza covarianza  ,
y ,  para todo  y . Los
ruidos  y  se consideran no
correlacionadosconlospesosdelaredy
lascondicionesiniciales.Laevolucinde
los estados corresponden a proceso de
Markov de primer orden con
probabilidad inicial  y una
probabilidad de transicin dada por
. Las observaciones se
consideran
condicionalmente
independientedadolosestados,esdecir;
,
donde:
y ,
(vaseHarvey,1970).

En la ecuacin (2) se muestra la
distribucinconjuntadelosestadosylas
observaciones,queseobtieneusandola
regla de la cadena de probabilidad, es
decir; vienedadapor:
   (2)


Ao3,Vol.II,N5
ISSN:18568327

41

EntoncesusandolastcnicasBayesianas,
se puede estimar la densidad a
posteriori de . En muchas
aplicaciones, el inters recae en la
estimacin de las marginales, tambin
llamada densidad filtrada .
Conociendo la densidad, se pueden
calcularvariosestimadoresdelospesos
de la red, como la media, mediana,
varianza e intervalos de confianza. Para
obtener el estimador filtrado 
se requiere conocer de una distribucin
a priori   y de una distribucin a
posteriori  en el tiempo
. Entonces el estimador filtrado se
estima recursivamente en dos pasos
denominadosprediccinyactualizacin:
1. Prediccin:

 (3)
donde:

 
= 
 (4)
 denota un punto de masa de la
funcinDeltadeDiracy
.
2. Actualizacin


(5)

donde:


Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias
 (6)
y
 
 (7)
Las relaciones dadas por las ecuaciones
(3) y (5), constituyen la solucin formal
del problema de estimacin recursiva
mediantelosmtodosBayesianos.
La solucin ptima de la ecuacin (5)
exige
calcular
integrales
multidimensionales, lo que hace
imposibleobtenerunasolucinanaltica.
Entonces para obtener aproximaciones
de las integrales se usan mtodos
numricos o mtodos de simulacin
MonteCarlo.
En este artculo se realizan dos
propuestas alternativas para estimar los
pesos delmodelo de RN basadas enlos
algoritmos de aprendizajes: filtro de
Kalmanextendidoyfiltrodepartculas.
El objetivo final es encontrar valores
para los pesos del modelo que
minimicen la suma de cuadrados del
error (SCE). Finalmente se seala, para
simplificar el trabajo no se trata el
problema de estimar los parmetros de
los ruidos blancos  ,    dadas las
observaciones .
1. Algoritmo de Aprendizaje Filtro de
KalmanExtendido(FKE)
Considrese el sistema dinmico no
linealenformadeespacioestado,dado
en(1.a)y(1.b),conlashiptesisusuales;


Ao3,Vol.II,N5
ISSN:18568327

42

esto es, ,  y
. El objetivo del FKE es
estimar los estados no observados



 basndose en las
observaciones   . El algoritmo
permite obtener una aproximacin del
estimadorptimo.Lanolinealidadenla
segunda ecuacin  dada en (1.b) es
aproximadaporunaversinlinealizada
alrededor del ltimo estado estimado,
esto esaproximadapor:

...(8)

Para obtener las ecuaciones de


prediccinyactualizacindelalgoritmo,
supngaseque 
y   se conocen
en el tiempo  El predictor de  y
su matriz asociada al error cuadrtico
medio en el tiempo  estn dadas
por:
 
 
 (9)
esdadapor:

 
 
  (10)

 (11)

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias




43

 

         (12)






(16)

 
 (17)

donde:


Ao3,Vol.II,N5
ISSN:18568327

Bajo los supuestos de normalidad para


loserrores,algoritmoFKEseresume:

esdadapor:

#####################################



Algoritmo1:FKE




#####################################

 


Paso1Semuestrea de:

 


(18)

  (13)
LasecuacionesdelajustelinealdeBayes,
estndadaspor:


Paso2Semuestrea de:
(19)
Paso3Semuestrea de:

 
 (14)

(20)
#####################################



2. Algoritmo de Aprendizaje Filtro de


Partculas (FP) o Muestreo de
 
ImportanciaSecuencial(SIR)
 (15)
La estrategia de prediccin y
Usando las ecuaciones (14) y (15) se
actualizacin dada en las ecuaciones (3)
obtiene la  actualizacin del estimador
y (5) permite obtener una solucin
ptimo del estado  dada la
ptima al problema de inferencia, pero
informacin eneltiempo,esdecir:
las integrales involucradas son difciles
de calcular. En muchas aplicaciones, las

soluciones analticas no son posibles. Se

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias

requieren mtodos alternativos, tales


como:
integracin
numrica,
aproximacin gaussiana, y los mtodos
desimulacinMonteCarloporCadenas
de Markov y las tcnicas de  Monte
CarloSecuencial.Sepuedeaproximarla
funcin de distribucin a posteriori
usando una funcin sobre un soporte
discreto finito mediante la tcnica del
muestreo de importancia; es decir, se
hace uso de la aproximacin Monte
Carlo,dada:


Ao3,Vol.II,N5
ISSN:18568327

44

esdecir; esdadapor:







(24)

Porlotantogenerandomuestras de
)(21)

la funcin de distribucin  propuesta

donde: representalamuestrausada
, se aproxima  el valor esperado
para aproximar la distribucin a
medianteelestimadordado:
posterioriy esunpuntodemasade


la funcin delta de Dirac. La ecuacin


(21)permiteaproximarladistribucina


posteriori. El valor esperado de algn
(25)
funcional de los pesos, es dado por la
donde:   es el cociente de
ecuacin(22):
importancianormalizadodadopor:







 
=

(22)

donde: la variable   se conoce


como el cociente de importancia no
normalizado,dadopor:


(26)

Entonces la distribucin a posteriori se


estimapor:

(23)

(27)
Paracalcularunestimadorsecuencialde
ladistribucinaposteriorienuntiempo
sin modificar  los estados simulados
seconsideralasiguientedensidad
deprobabilidadpropuesta:


Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias


Ao3,Vol.II,N5
ISSN:18568327

45

* (28)
y
Si se considera que los estados
corresponden a un proceso de Markov
deprimerorden,ylasobservacionesson
condicionalmente independiente dado
losestados,setieneque:

(29)

y

2. Funcin de Importancia viene


dadapor:
(34)
y
(35)

(30)

Sustituyendolasecuaciones(28),(29),y
(30) dentro de la ecuacin (23),  se
obtiene el estimador recursivo para los
pesosdeimportanciacomosigue:

 (33)

3. Lafuncindeverosimilitudviene
dadapor :

 (36)

Entonces una vez inicializado los pesos


y el cociente de importancia por las
 *
distribuciones a priori dadas en (32) y
(33), en cada etapa del muestreo se


predice un peso usando la ecuacin


dada en (1.a),luego se evala de nuevo

el cociente de importancia usando las

ecuacionesdadasen(31,34,35,36)yse

(31)

remuestreasiesnecesario.
El problema que se presenta con el
La ecuacin dada en (31) permite
algoritmo de FP,  es el fenmeno de la
actualizarsecuencialmenteelcocientede
degeneracin. Es conocido que despus
importancia. Como se puede muestrear
de unas pocas iteraciones las partculas
de la distribucin propuesta, evaluar la
puedentenerpesosdespreciablesloque
verosimilitud y las probabilidades de
implica segn la Proposicin 1 dada en
transicin, se supone la siguiente
Doucet et al. (2000), que la varianza de
estructurajerrquica:
los pesos de importancia puede
1. Se considera una distribucin a
incrementarse en el tiempo. Para evitar
prioriinicial:
ladegeneracindelalgoritmo,Doucetet
al. (2000) establecieron la Proposicin 2,
 (32)
Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias

que permite seleccionar una funcin de


importancia que minimiza la varianza
delospesossobrelastrayectoriasdelos

estadossimulados y
las observaciones  . La funcin de
importancia sugerida por Doucet et al.
(2000)esdadapor:

46


Ao3,Vol.II,N5
ISSN:18568327

(39)

En la prctica es complicado calcular


exactamente,peroseestimapor:

(40)

(37)
Entonces el estimador de   se
compara con un umbral prefijado .

Es decir,  es la


Este procedimiento de filtro de
funcin de importancia que minimiza a
partculas con remuestreo es usado por
lavarianzadelospesosdeimportancia
Rubin (1988). El algoritmo con

 condicionada sobre los estados


remuestreo para un modelo de RN con

doscapasocultas,seresume:
ylosdatos .La
funcin de importancia sugerida por
#####################################
Doucetetal.(2000)esdadapor:
Algoritmo2:FPoSIR

(38)
La ecuacin (38)  ha sido usada por
Avitzour,(1995);BeadleyDjuric,(1997);
Gordon et al., (1993); Isard y Blake,
(1996); Kitagawa (1996); Berzuini et al.,
(1997); Doucet (1998); y Liu y Chen
(1998),entreotros.
Debido a que la degeneracin del
algoritmo FP es inevitable, entonces se
introduce la idea del remuestreo que
consiste en eliminar las trayectorias que
tienenpesosdeimportanciapequeosy
seseleccionanlastrayectoriasconpesos
grandes.
Unamedidaadecuada para solventar el
problema es calcular el tamao de
muestraefectiva introducidoen
Kongelat.(1994)yLiu(1996),yquese
definecomo:

#####################################
P1.Muestreodeimportancia
x

Se inicializan los pesos de la red


en  . Para   se

muestrean los pesos  de la


primera y segunda capa a partir
de las previas  y 
respectivamente.

Se evala el


importancia:

cociente

de

(41)
x

Se normaliza el cociente de


importancia:

(42)

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias
x

Para y  se


predicen los estados usando la
ecuacindinmica:

  (43)
x

Se actualiza el cociente de


importancia:



(44)

3Determinacindelaexactitud.
Paraevaluarlacalidaddeprediccindel
modelo, se utilizan las siguientes
medidasdebondaddeajuste:
1.

Para  se evala el estimador


usandolaecuacin(40):

,entoncessehace:
Si

, entonces se
Si
remuestreaunnuevondicedel
conjunto de pesos y estados
discretos estimados  previamente

yalmacenadosen:
.

Luegosehaceque:

y





]}*100(50)

(51)

El objetivo es seleccionar el modelo de


RNconmenorRECM.
3.

Salidas del algoritmo: funcin de


densidad filtrada,  esperanza y
covarianzaaposteriori:

2. La Raz del Error Cuadrtico


Medio (RECM), es otra medida
utilizada para medir la
exactitud del modelo predictor
deRNysedefinecomo:

(46)

Estimacin de la Exactitud de


Prediccin (EP). Es una medida
propuestaporMitchell(1997)conel
objetivo de estimar la exactitud de
prediccin de un modelo de RN, el
siguiente estimador  es usado para
talfinysedefinecomo:

(45)

P2.EtapadeRemuestreo

#####################################

47



Se actualiza el cociente de


importancianormalizado:


Ao3,Vol.II,N5
ISSN:18568327

El Criterio de Informacin


Bayesiano (BIC). Una prctica
difcil en los modelos de RN es
seleccionarlaarquitecturadelared
(capas ocultas  de la red). Para tal
objetivoseproponeusarelcriterio
de informacin de Bayes 

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias


Ao3,Vol.II,N5
ISSN:18568327

48

propuestoporNychkaetal.(1992),
quesedefinecomosigue:

transferencia logstica sigmoidal


para las neuronas de la capa
oculta y en la capa de salida, la



(52)
cual
est acotada en un rango

entre cero y uno, entonces se


donde:   es el tesimo patrn
necesita normalizar o reescalar
observado.   es el tsimo valor
losdatosdetalmaneraqueestn
predicho,
dentro del rango de salida. El
aprendizaje de parmetros de la

(53)

red se hace inefectivo si los


valores normalizado estn cerca
es la suma de cuadrados del error, es
de las cotas (vase, Ooyen y
el nmero de parmetros (pesos) del
Nichhuis, 1992), entonces se
modeloyeslalongituddelaseriede
utilizar la siguiente ecuacin de
tiempo.
normalizacin:


(54)


4Transformacindelosdatos
Los datos utilizados para mostrar la
metodologa provienen de las series de
lluvia total mensual del perodo
comprendido entre 19712000 de 36
estacionesdelserviciometeorolgicode
la Fuerza Area de Venezuela, y se le
realizlasiguientetransformacin:
1.

Primero, las bases de datos que


presentaron datos faltantes fueron
rellenadas
utilizando
la
metodologa propuesta en Infante
et al. (2008). Es decir, dado que en
esetrabajoseobtuvounmodelode
RN predictor basado en el
algoritmo
Backpropagation,
entoncesseutilizesemodelopara
predecir los  datos perdidos y
completarlabasededatos.
2. Dado que en los modelos de RN
se usa una funcin de

donde:    es el valor normalizado,


es la tsima salida observada, y
  es el valor mximo observado
en la serie. La transformacin acota el
valordelasalidaenelrango[0.1,0.9].
DISCUSIN DERESULTADO 
Una vez que se tienen los datos
transformadosporestacin,sedividela
muestra en dos partes: el ochenta por
ciento80%delosdatosseutilizaparael
entrenamiento de los algoritmos y
calibracin de los modelos, y el resto
veinte por ciento 20% se utiliza para
validar la arquitectura de red del
modelo seleccionado. El siguiente paso
consiste en determinar las dimensiones
deinmersinyeltiempoderetardo
de
las
estaciones
consideradas,

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias

utilizando los mtodos de AMI y los


FNN. Conociendo  y  se determinan
las variables de entrada de la red, y
finalmente se procede a estimar los
parmetros del modelo, usando dos
algoritmosdeaprendizajeFKEyelFPo
SIR. En la Figura 1 se comparan los
niveles totales de precipitacin mensual
de los estados observados, con los
niveles totales de precipitacin mensual
simulados por un modelo de RN
ajustado por los algoritmos FKE y FP.
Los datos corresponden a la estacin
80413 ubicada en Maracay estado
Aragua y se utilizaron 278 datos de
entrenamientoquerepresentanalaserie
de diciembre de 1971 hasta febrero de
1995 para ajustar los parmetros de la
red.
Seseleccionunmodelocon6variables
de entradas (debido a que se determino
que  y ), 4 neuronas de la
capaocultayunasalidaorespuesta,que
representa el nivel total de lluvia
mensual predicha. Los valores para
inicializar los parmetros (medias y
covarianzas)delFKE,sonlossiguientes:
y yserequiride
1000 iteraciones para obtener los
resultados.
Los parmetros del FP se inicializan de
la siguiente manera: ,
, ,yseeligiT
= I donde I es la matriz identidad y se
generaron1000partculas.
En la Figura 1, se observa que los
resultados predichos por los algoritmos
propuestos tienen  muy buen


Ao3,Vol.II,N5
ISSN:18568327

49

desempeo comparado con las


observaciones verdaderas de la muestra
deentrenamiento.
EnlaTabla1semuestranlosresultados
delosestadsticosestimadosparamedir
laexactituddeprediccindelmodelode
RN.  El FKE tiene una exactitud de
prediccin del 99.727%, mientras que el
FPtieneunaexactitudde99.405%.Otra
medida de exactitud utilizada es la raz
cuadrada del error cuadrtico medio,
ambos algoritmos tienen errores
pequeosdeestimacin;elFKEtieneun
valorde0.073,mientrasqueelFPtiene
unvalorde0.126.Parahacerlaseleccin
de la arquitectura de la red se utiliz el
criterio de informacin de Bayes BIC,
quebsicamenteconsisteenpenalizarel
error cuadrtico medio por los
parmetros utilizados en el ajuste y se
toma el BIC mnimo. En la serie de
entrenamientoanalizadaelFKEtieneun
BIC=3.621,mientrasqueelFPtieneun
BIC=2.841,
ambos
algoritmos
seleccionan  un modelo con 4 neuronas
enlacapaoculta.LaFigura2seobtiene
siguiendo el mismo procedimiento que
se realiz con la serie de entrenamiento
pero este caso se utilizan 70 datos de
validacinquevandesdeMarzode1995
hastaDiciembrede2000.Seobservaque
con el FKE se obtienen los siguientes
valores:unaexactituddeprediccindel
98.638%, un valor para la raz del error
cuadrtico medio de 0.1650 y el BIC =
1.668; mientras que cuando se usa el
algoritmo FP, se obtienen los valores
siguientes:unaexactitudde98.697%,un

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias

valor para la raz del error cuadrtico


medio de 0.110, y el BIC =1.713, ver la
Tabla1,estosresultadossonsimilaresa
los obtenidos utilizando la serie de
entrenamiento.EnlaFigura3semuestra
un grfico similar al obtenido en la
Figura1,ladiferenciaeslaestacinque
se analiza; en este caso, se estudia la
estacin 80415 ubicada en Maiqueta


50


Ao3,Vol.II,N5
ISSN:18568327

estado Vargas. Se seleccionaron 259


datos parala muestrade entrenamiento
que comprende la serie que va desde
Diciembre de 1972 hasta Junio 1992;
mientras que en la muestra de
validacin se utilizaron 65 datos que
correspondenalaseriequevadeJulio
1992hastaDiciembre


Figura 1: Serie de la estacin Maracay, para la muestra de entrenamiento


Figura2:SeriedelaestacinMaracay,paramuestradevalidacin

Tabla1:Resumendetestdevalidacin,estacinMaracay

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias

51


Ao3,Vol.II,N5
ISSN:18568327


De 1999. La arquitectura de la red
seleccionada est compuesta por 6
variables de entradas, 5 neuronas en la
capaocultayunasalida.Enelgrficose
observa que los totales mensuales de
precipitacionessimuladosporelmodelo
deRNajustadoporlosalgoritmosFKEy
FP son comparables con los totales
mensuales
de
precipitaciones
observados; adicionalmente se incluyen
medidas exactitud de 99.414% y
99.198%, respectivamente cuando se
utiliza la muestra de entrenamiento.
Para la muestra de validacin la
exactitud es de 98.844% y 98.945%,
respectivamente. Tambin se clculo la
RECM para los dos conjuntos de datos

considerados, observndose errores de


estimacin pequeos (ver Tabla 2).
Tambin se estim el BIC para la
muestra de entrenamiento y validacin
usando los dos algoritmos propuestos,
obtenindose el BIC mnimo para una
redcon5neuronasocultas,(verTabla2).
Todoslosanlisisfueronrealizadosbajo
el ambiente de programacin del
software estadstico R versin 2. 9. 2.
Finalmentesedestacaqueseanalizaron
36 estaciones, todas tienen un
comportamiento muy similar a las dos
mostradaseneltrabajo.




Figura3:SeriedelaestacinMaiqueta,paralamuestradeentrenamiento

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias

52


Ao3,Vol.II,N5
ISSN:18568327


Figura4:SeriedelaestacinMaiqueta,paralamuestradevalidacin


Tabla2:Resumendetestdevalidacin,estacinMaiqueta


CONCLUSIONES

Las principales contribuciones de este


trabajoson:
Se dise un modelo de red neuronal
en trminos de los modelos espacio
estados no lineales para hacer
predicciones de series de tiempo de
totales mensuales de precipitaciones. Se
utilizan las tcnicas AMI y FNN de los
sistemas dinmicos para definir las
entradas del modelo, se demuestra que
el uso de patrones de entrada
apropiados mejora la performance del
modelo. Estos mtodos permiten la

separacin  temporal ptima de los


datos, as como ayudan a determinar el
nmero de datos hacia atrs necesarios
para pronosticar con exactitud un dato
futuro.Paraoptimizarlaseleccindela
arquitectura de las capas ocultas de la
red se utiliza el Criterio de Informacin
deBayes.
Se proponen dos algoritmos de
aprendizaje alternativos para ajustar los
parmetrosdelmodelodeRNdistintoal
algoritmo Backpropagation clsico.
Estos
algoritmos
pueden
ser

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias

considerados
como
tcnicas
de
optimizacin global en las cuales se
puedenestimarconjuntamentelospesos
delaredylaincertidumbredelmodelo
en
tiempo
real,
mediante
la
caracterizacin de distribuciones de
probabilidad. El FKE permite obtener
mejores resultados que las tcnicas de
estimacinconvencionales,debidoaque
hace uso de los estadsticos de segundo
orden (covarianzas) que son esenciales
para propagar el error sobre las
predicciones;adems,muestraexcelente
convergencia en los parmetros
estimados debido a las exigencias de
memoria y precisin computacional. El
algoritmo FP o SIR permite que los
parmetros se actualicen en forma


Ao3,Vol.II,N5
ISSN:18568327

53

secuencial de una distribucin de


probabilidad a posteriori, y tienen la
ventaja que no requieren de ninguna
restriccinsobreladistribucinyforma
funcionaldelosdatos.
Seproponendosmtodosparamedirla
bondad de ajuste del modelo predictor,
obtenindose como resultado que el
modeloajustadoporlosalgoritmosFKE
y FP o SIR tienen una exactitud de
prediccin mayor que 99% y un valor
para raz de error cuadrtico medio
menorque0.17,tantoparalasmuestras
de entrenamiento y validacin,
respectivamente. Los resultados de este
estudio muestran que el modelo de RN
es til para predecir precipitaciones
mensualesconexactitudyconfiabilidad.


Agradecimientos
Agradecemos al servicio de meteorologa de la Fuerza Area de Venezuela, por proveer los datos que
sirvierondeinsumoparaestetrabajo,yalosrevisoresannimosporloscomentariosysugerenciasque
ayudaron a mejorar el manuscrito. Esta investigacin fue parcialmente financiada por el Consejo de
Desarrollo Cientfico y Humanstico, proyecto CDCH2006003 y la partida 407 ao 2009 de la Facultad
ExperimentaldeCienciasyTecnologadelaUniversidaddeCarabobo.

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias


REFERENCIAS
Abarbanel, H. (1996).Analysis of observed data.
NewYork:SpringerVerlag.
Avitzour, D. (1995). A stochastic simulation
Bayesian approach to multitarget tracking,
Proc.Inst. Elect. Eng., Radar, Sonar, Navig, vol.
142,2,4144.
Beadle, E. R. y Djuriac, P. M. (1997). Fast
weighted boodstrap filter for nonlinear state
estimation,IEEETrans.Aerosp.Elect.Syst,vol.
33,338343.
Bishop, C. M. (1995). Neural Networks for
pattern Recognition. New York: Oxford
UniversityPress.
Bustami,R.,Bessaih,N.,Bong,C.ySuhaili,S.
(2007). Artificial neural network for
precipitation and water level predictions of
bedup river. IAENG International journal of
computerscience,34,2,228233.
Caldern, G. y Prez, P. (2006). Estudio de
seriestemporalesdecontaminacinambiental
mediante tcnicas de redes neuronales
artificiales. Revista Chilena de Ingeniera, Vol.
14,3,284290.
Casdagli, M. (1989). Nonlinear prediction of
chaotictimeseries.PhysicaD,35,335356.
Cheng, B. y Titterington, D. (1994). Neural
Networks a review from a statistical
perspective with discussion. Statistical Science,
9,254.
De Freitas, J., Niranjan, M., Gee, A. H. y
Doucet, A. (1998). Sequential Monte Carlo
methods to optimization of Neural Network
Models.TechnicalreportCued/FInfeng/Tr328.


Ao3,Vol.II,N5
ISSN:18568327

54

De Freitas, J., Niranjan, M., Gee, A. H. y


Doucet, A. (2000). Sequential Monte Carlo
methods to Train Neural Network Models.
NeuralComputation,12,955993.
Doucet,A.,Godsill,S.yAndrieu,C.(2000).On
SequentialMonteCarloSamplingMethodsfor
Bayesian Filtering. Statistic and Computing, 10,
197208.
Doucet, A. (1998). On sequential simulation
based methods for Bayesian filtering. Tech
report No. Cued/FInfeng/tr 310. Cambridge
University.
Fraser, A. y Swinney, H. (1986). Independent
coordinatesforstrangeattractorsfrommutual
information,PhysReviewA,33,11341140.
Gordon, N., Salmond, D. y Smith, A.F.M.
(1993). Novel Approach to Nonlinear non
Gaussian Bayesian State Estimation, IEEE
ProceedingsF,140,107113.
Harvey, A.C. (1970). Forecasting, Structural
Time Series Models and the Kalman Filter.
Cambridge:CambridgeUniversityPress.
Infante, S., Ortega, J. y Cedeo, F. (2008).
Estimacin de datos faltantes en estaciones
meteorolgicas de Venezuela va un modelo
de redes neuronales. Revista de Climatologa de
Espaa,8,5170.
Infante,S.,Rojas,J.,Hernndez,A.yCartaya,
V. (2009). Modelos de espacio estado basados
en la distribucin normal inversa gaussiana:
Una aplicacin al anlisis de series de tiempo
de la economa venezolana. Revista de
Estadstica, del Instituto Interamericano de
Estadstica,61,176y177.
Isard, M. y Blake, A. (1996), Contour tracking
by stochastic propagation of conditional
density. In computer visionECCV96, eds. B.

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias


Ao3,Vol.II,N5
ISSN:18568327

55

Buxton and R. Cipolla, New York: Springer


Verlag,343356.

Mitchell,T.(1997).MachineLearning,McGraw
hillpressinternationaleds.

Kitagawa, G. (1996). Monte Carlo Filter and


Smoother for Nonlinear Non Gaussian State
Models, Journal of Computation and Graphical
Statistics,5,125.

Morais,H.,FragadeCampos,H.yEinstein,E.
(2008). Data assimilation: particle filter and
artificialneuralnetworks.JournalofPhysics:
conferenceSeries135012073.

Kong,A.,Liu,J.yWong,W.(1994).Sequential
Imputations and Bayesian Missing Data
Problems. Journal of the American Statistical
Association,89,278288.

Ooyen, A. y Nichhuis, B. (1992). Improving


theconvergenceofBackPropagationproblem.
NeuralNetworks,5,465471.

Lary, D. J. y Mussa, H. Y. (2004). Using an


extendedKalmanfilterlearningalgorithmfor
feed forward neural networks to describe
tracer correlations. Atmospheric Chemistry and
PhysicsDiscussions,4,36533667.
Liu, J. (1996). Metropolized Independent
Sampling with Comparison to Rejection
Sampling and Importance Sampling, Statistics
andComputing,No.6,113119.
Liu, J. y  Chen, R. (1998). Sequential Monte
CarloMethodsforDynamicalSystems,Journal
of the American Statistical Association, No. 83,
10321044.
Neal, R. (1996). Bayesian learning for neural
networks.NewYork:Springer.
Nychka, H., Ellner, S., Gallant, A.  y
McCaffrey, D. (1992). Finding Chaos in noise
systems. Journal Royal of the Statistical Society
SeriesB,54,399426.

Rajunkar, M., Kothyari, U. y Chaube, U.


(2002). Artificial neural networks for daily
rainfallrunoffmodelling.HydrologicalSciences,
Vol.47,No.6,865877.
Ripley,B.(1994).Neuralnetworksandrelated
methods for classification (with discussion).
JournalRoyalStatisticalSocietySeriesB,No.56,
409456.
Ripley,B.(1996).PatternRecognitionandNeural
Networks. Cambridge: Cambridge University
Press.
Rubin,B.D.(1988).UsingtheSIRAlgorithmto
SimulatePosteriorDistributions,BernardoJ.M.,
Degroot M.H., Lindley D.V., and Smith A.F.M.
(Eds.),BayesiansStatistics,3,OxfordUniversity
Press,395402.
Takens, F. (1981). Detecting strange attractors
in turbulence, lecture notes in math, 898,
Springer,NewYork.

Titterington, D .M. (2004). Bayesian methods


Menchero,A,,MontesDiez,R.,RosInsua,D. for neural networks and related models.
y Muller, P. (2005). Bayesian Analysis of StatisticalScience,Vol.19,No.1,128139.
Nonlinear Autoregression Models Based on
Neural Networks A. Neural Computation, No.
17,453485.




Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

IngenieraIndustrial.
ActualidadyNuevasTendencias


Ao3,Vol.II,N5
ISSN:18568327

56

Autores
Saba Infante.  Profesor Asociado a Dedicacin Exclusiva, Departamento de Matemticas,
FacultadExperimentaldeCienciasyTecnologayCentrodeAnlisis,ModeladoyTratamiento
de Datos (CAMYTD), Universidad de Carabobo, Valencia, Venezuela. 2005, Doctor en
Estadstica,UniversidadSimnBolvar,Venezuela.
Email:sinfante@uc.edu.ve
Fernando Cedeo. Profesor Instructor a Dedicacin Exclusiva, Departamento de Matemticas,
FacultadExperimentaldeCienciasyTecnologayCentrodeAnlisis,ModeladoyTratamiento
de Datos (CAMYTD), Universidad de Carabobo, Valencia, Venezuela. 2008,  Licenciado en
Matemticas,UniversidadCarabobo,Venezuela.
Email:fjcedeno@uc.edu.ve
JosOrtega.ProfesorTitularaDedicacinExclusiva,DepartamentodeMatemticasFacultadde
Ciencia y Tecnologa y Centro de Anlisis, Modelado y Tratamiento de Datos (CAMYTD),
UniversidaddeCarabobo,Valencia,Venezuela.2006,DoctorenCiencias,UniversidadCentral
deVenezuela.
Email:jortega@uc.edu.ve

Recibido:22/10/2010Aceptado:27/12/2010

Infanteetal.FiltrosconAprendizajedeParmetrosparaOptimizarModelosdeRedesNeuronales,p.3756

S-ar putea să vă placă și