Documente Academic
Documente Profesional
Documente Cultură
Aprendizaje de Sistemas
Indice
Introduccion
Redes Neuronales Artificiales
Aprendizaje en RNA
El perceptron
Ingeniera de RNA
Bibliografa
Introducci
on
Introducci
on
Inteligencia Artificial:
Aproximar el proceso
Aproximar el organo
Organo
de la Inteligencia: Cerebro
RNA: Disciplina de caracter tecnica con races en muchos campos: Neurociencia,
Matematicas (especialmente Estadstica), Fsica, Biologa, Psicologa Cognitiva,
Filosofa, Informatica e Ingeniera.
Origen biologico
Definicion
Aplicaciones
Componentes de una RNA
Origen biol
ogico: neurona
Definici
on
Aplicaciones
1. Arquitectura
(a) Neuronas
(b) Enlaces
(c) Topologa
2. Aprendizaje
Neuronas
Formulaci
on de McCulloch-Pitts
Neurona (II)
x1
x2
xn
w1
w2
fA
wn
wixi
(1)
10
Funciones de activaci
on
Funci
on Tangente Hiperb
olica
0.5
0
-10
fA(N ) =
-1
0
10
1
1 + exp(N )
-10
10
f (N ) = tanh(N )
11
Topologa
12
Propagaci
on de las se
nales en un solo sentido (feedforward).
Organizaci
on habitual por capas, con neuronales iguales. El n
umero de neuronas
por capa puede ser distinto en cada capa
13
14
Aprendizaje
15
Aprendizaje
Concepto
Aprendizaje supervisado y no supervisado
Reglas de aprendizaje:
Correccion de error
Aprendizaje hebbiano
Aprendizaje competititvo
Aprendizaje probabilstico
Aprendizaje por refuerzo
Aprendizaje
16
Concepto de Aprendizaje
Aprendizaje
17
Tipos de aprendizaje
Aprendizaje
18
k k yk k
(2)
w = G(w, x, y)
(3)
E=
Aprendizaje
19
Aprendizaje hebbiano
Dos reglas:
1. Si las dos neuronas conectadas por un enlace estan activas simult
aneamente, el
enlace es reforzado
2. Si las dos neuronas conectadas por un enlace se activan asncronamente, el
enlace se debilita
Caractersticas:
Dependencia temporal
Regla local
Mecanismo interactivo
w = xy
(4)
Aprendizaje
20
Aprendizaje competitivo
Aprendizaje
21
Aprendizaje probabilstico
Ajuste NO determinstico
Funci
on de energa:
1 XX
E=
wij xk xj
2 j i
(5)
(6)
Aprendizaje
22
El Perceptron
23
Perceptrones
El perceptron
Arquitectura
Algoritmo de entrenamiento de Rosenblatt
La regla delta
Limitaciones del perceptron
La funci
on XOR
El perceptron multicapa
Arquitectura
La neurona
Topologa
El algoritmo de retropropagaci
on de errores
Metodos avanzados
El Perceptron
24
El perceptron
x1
x2
xn
w1
w2
fA
wn
x2
x3
con fA la funci
on umbral o signo.
El Perceptron
25
Algoritmo de Rosenblatt
1:
2:
3:
4:
5:
6:
Iniciar w aleatoriamente
while haya ejemplos mal clasificados do
Seleccionar aleatoriamente un ejemplo (x, d)
Calcular la salida y y comparar con d
w = (d y)
end while
TEOREMA:
El conjunto de datos {(x, d)} es finito y linealmente separable, el algoritmo
anterior encuentra una soluci
on en un tiempo finito (converge).
El Perceptron
26
La regla delta
(7)
w w + w
(8)
w = E(w)
X
=
(ok y k )xk
(9)
(10)
El Perceptron
27
w1
S U
x2
w2
El Perceptron
28
La funci
on O-Exclusiva (XOR)
Funci
on logica de dos variables = Muy simple
(0, 1)
(1, 1)
=1
=0
(0, 0)
(1, 0)
El Perceptron
29
x1
1
1
x2
1,5
0,5
Soluci
on a las limitaciones del perceptron: usar redes neuronales con m
as de
una capa y unidades que puedan procesar se
nales continuas.
El Perceptron Multicapa
Arquitectura 30
La neurona basica
Topologa de la red: hacia adelante
El papel de las capas ocultas
El Perceptron Multicapa
Arquitectura 31
La neurona b
asica
Variaci
on continua de la neurona de McCulloch-Pitts: funci
on de activaci
on
continua
x1
w1
x2 w2
y
fA
xn
wn
wixi
(11)
El Perceptron Multicapa
Arquitectura 32
Funciones de activaci
on
Funci
on Tangente Hiperb
olica
0.5
0
-10
fA(N ) =
-1
0
10
1
1 + exp(N )
-10
10
f (N ) = tanh(N )
El Perceptron Multicapa
Arquitectura 33
Propagaci
on de las se
nales en un solo sentido (feedforward).
Organizaci
on habitual por capas, con neuronales iguales. El n
umero de neuronas
por capa puede ser distinto en cada capa
El Perceptron Multicapa
Arquitectura 34
El Perceptron Multicapa
Algoritmo BP 35
El algoritmo de retropropagaci
on de errores
Resena Hist
orica
Idea del algoritmo
El algoritmo BP
Consideraciones
Particularizaciones
Tasa de aprendizaje y momento
Aprendizaje en lnea y en batch
Condiciones de parada
Limitaciones del algoritmo
El Perceptron Multicapa
Algoritmo BP 36
BP: Rese
na Hist
orica
Autores
Rumelhart, Hinton y Williams en 1986
El Perceptron Multicapa
Algoritmo BP 36
BP: Rese
na Hist
orica
Autores
Rumelhart, Hinton y Williams en 1986
Parker en 1982
El Perceptron Multicapa
Algoritmo BP 36
BP: Rese
na Hist
orica
Autores
Rumelhart, Hinton y Williams en 1986
Parker en 1982
Werbos 1974
El Perceptron Multicapa
Algoritmo BP 36
BP: Rese
na Hist
orica
Autores
Rumelhart, Hinton y Williams en 1986
Parker en 1982
Werbos 1974
Bryson y Ho, 1969
El Perceptron Multicapa
Algoritmo BP 36
BP: Rese
na Hist
orica
Autores
Rumelhart, Hinton y Williams en 1986
Parker en 1982
Werbos 1974
Bryson y Ho, 1969
?
El Perceptron Multicapa
Algoritmo BP 37
El algoritmo de retropropagaci
on de errores
Entrenamiento = minimizaci
on de una funci
on de error
Error: Diferencia entre salidas obtenidas y esperadas.
Regla : usa el error para ajustar los pesos entre las dos u
ltimas capas, pesos de
salida. Pero no es valida para los dem
as pesos: no conocemos su aportaci
on al
error.
El Perceptron Multicapa
Algoritmo BP 38
Consideracion: Las salidas de una capa son las entradas de la siguiente; propagar
hacia atras el error
Esquema iterativo en dos etapas:
1. Propagaci
on hacia adelante: Evaluar el nivel de activaci
on de las neuronas y
calcular el error de la red
2. Propagar el error hacia atras, capa a capa, modificando los pesos
Retropropagaci
on de errores: BACKPROPAGATION (BP).
El Perceptron Multicapa
Algoritmo BP 39
Notaci
on
Generalizaci
on de la Regla
Supongamos un sistema con n entradas y m salidas: dise
namos un perceptron con
n entradas y m neuronas en la capa de salida
Conjunto de pares de entrenamiento (xk , tk ), xk Rn, tk Rm, k = 1, 2, . . . , K
min E(w) =
w
(12)
(13)
(14)
El Perceptron Multicapa
Algoritmo BP 40
Notaci
on (II)
i
capa p 1
E
wij,p
wij,p
(15)
ij,p
j
capa p
(16)
El Perceptron Multicapa
Algoritmo BP 41
BP: El algoritmo
1:
2:
3:
4:
5:
6:
repeat
Seleccionar el siguiente par de entrenamiento.
Introducir la entrada en la red y calcular la salida que le corresponde.
Calcular el error (en terminos de norma cuadratica) entre la salida obtenida
y la salida deseada (el vector objetivo del par de entrenamiento).
Ajustar los pesos de la red de modo que se minimice el error.
until que se cumpla el criterio de parada
El Perceptron Multicapa
Algoritmo BP 42
El algoritmo en acci
on
Propagaci
on hacia Adelante
x1
x2
x3
entradas
capa oculta
capa de salida
El Perceptron Multicapa
Algoritmo BP 43
El algoritmo en acci
on
Propagaci
on hacia Adelante
x1
x2
x3
entradas
capa oculta
capa de salida
El Perceptron Multicapa
Algoritmo BP 44
El algoritmo en acci
on
Propagaci
on hacia Adelante
x1
x2
x3
entradas
capa oculta
capa de salida
El Perceptron Multicapa
Algoritmo BP 45
El algoritmo en acci
on
Propagaci
on hacia Adelante
x1
x2
x3
entradas
capa oculta
capa de salida
El Perceptron Multicapa
Algoritmo BP 46
El algoritmo en acci
on
Propagaci
on hacia Adelante
x1
x2
x3
entradas
capa oculta
capa de salida
El Perceptron Multicapa
Algoritmo BP 47
El algoritmo en acci
on
Propagaci
on hacia Atras
x1
x2
x3
entradas
capa oculta
capa de salida
El Perceptron Multicapa
Algoritmo BP 48
El algoritmo en acci
on
Propagaci
on hacia Atras
x1
x2
x3
entradas
capa oculta
capa de salida
El Perceptron Multicapa
Algoritmo BP 49
El algoritmo en acci
on
Propagaci
on hacia Atras
x1
x2
x3
entradas
capa oculta
capa de salida
El Perceptron Multicapa
Algoritmo BP 50
El algoritmo en acci
on
Propagaci
on hacia Atras
x1
x2
x3
entradas
capa oculta
capa de salida
El Perceptron Multicapa
Algoritmo BP 51
El algoritmo en acci
on
Propagaci
on hacia Atras
x1
x2
x3
entradas
capa oculta
capa de salida
El Perceptron Multicapa
Algoritmo BP 52
El algoritmo en acci
on
Propagaci
on hacia Atras
x1
x2
x3
entradas
capa oculta
capa de salida
El Perceptron Multicapa
Algoritmo BP 53
yi,Q1 wij,Q
yj,Q
tj yj,Q
error
j,Q
(17)
El Perceptron Multicapa
Algoritmo BP 54
1,Q
Q1 y
j2,Q1 wj2,Q
j
2,Q
yj1,Q1
wij,Q1
j,Q1
yjm,Q1
wjm,Q
m m,Q
j,Q1 =
fA0 (Nj,Q1)
i,Qwji,Q
(18)
El Perceptron Multicapa
Algoritmo BP 55
BP en notaci
on matricial
(19)
El Perceptron Multicapa
Algoritmo BP 56
Consideraciones
Ajuste de tendencias
Tratadas como pesos de los enlaces de unidades ficticias.
Aplicacion a topologas m
as generales
Considerar las unidades en orden topol
ogico.
El Perceptron Multicapa
Algoritmo BP 57
Particularizaciones: Funci
on logstica
(20)
(21)
i,pwji,p.
(22)
El Perceptron Multicapa
Algoritmo BP 58
Particularizaci
on: tangente hiperb
olica
(23)
2
),
j,Q = (tj yj,Q)(1 yj,Q
(24)
2
yj,p1
)
i,pwji,p.
(25)
El Perceptron Multicapa
Algoritmo BP 59
Tasa de Aprendizaje
El Perceptron Multicapa
Algoritmo BP 60
Momento
(26)
El Perceptron Multicapa
Algoritmo BP 61
BP en batch
No hay ajuste para cada ejemplo. Se acumulan los valores y se hace el ajuste
cuando se han evaluado todos
Concepto de
epoca
1:
2:
3:
4:
5:
6:
7:
8:
repeat
for cada par del conjunto de entrenamiento do
Introducir la entrada en la red y calcular la salida que le corresponde.
Calcular el error (en terminos de norma cuadratica) entre la salida obtenida
y la salida deseada (el vector objetivo del par de entrenamiento).
Calcular el de cada unidad y acumularlo
end for
Ajustar los pesos de la red de modo que se minimice el error.
until que se cumpla el criterio de parada
El Perceptron Multicapa
Algoritmo BP 62
El Perceptron Multicapa
Algoritmo BP 63
Parada temprana.
Dividir el conjunto de datos en
entrenamiento: usado para ajustar los pesos
validaci
on: usado para valorar la capacidad de generalizaci
on
Se mide el nivel de error en entrenamiento y en validaci
on.
Parar cuando empiece a crecer el error en validaci
on.
El Perceptron Multicapa
Algoritmo BP 64
Limitaciones del BP
El Perceptron Multicapa
Metodos Avanzados 65
Retropropagaci
on de errores
(27)
(28)
fA0 (Nj,Q1)
i,Qwji,Q
(29)
El Perceptron Multicapa
Metodos Avanzados 66
Adaptaci
on de la tasa de aprendizaje
nuevo
(
anterior
=
anterior
siE < 0
siE > 0.
> 1; 0, 5
Tasa de aprendizaje por cada peso
QuickProp Aproximar la funci
on de error por un polinomio cuadratico y emplear
dos evaluaciones consecutivas de esta aproximaci
on:
(t)
(t+1)
wi
gi
(t1)
gi
(t)
wi ,
(t)
gi
(t)
gi =
E
(t)
wi
El Perceptron Multicapa
Metodos Avanzados 67
M
etodos m
as r
apidos
Gradiente Conjugado
Metodo de Newton
Metodo de Levenberg-Marquardt
El Perceptron Multicapa
Metodos Avanzados 68
T
ecnicas Heursticas
Enfriamiento Simulado
Algoritmos Geneticos
Programaci
on Genetica
Controladores Difusos
Ingeniera de RNA
69
Ingeniera de RNA
Ingeniera de RNA
70
Preprocesamiento y Extracci
on de Caractersticas
Ingeniera de RNA
71
Preprocesamiento
Normalizaci
on y codificacion de Entradas
Escalado lineal; transformaciones no lineales
Datos discretos:
ordinales
categoricos
Datos desconocidos:
Reemplazar por media
Reemplazar por valores de regresi
on
Principio de m
axima probabilidad
Ingeniera de RNA
72
Selecci
on de Caractersticas
Ingeniera de RNA
73
Funciones de Error
El aprendizaje de las RNAs es un problema de optimizaci
on: minimizar el error
cometido sobre un conjunto de ejemplos.
Suma de los cuadrados:
P
1X
E=
||yi(x; w) ti||2
2 i=1
Se emplea por simplicidad analtica
Se deriva del principio de m
axima probabilidad, suponiendo que la distribuci
on
de los datos objetivo es normal.
Raz media al cuadrado:
P
||y t||2
n
E= P
||t t||2
Ingeniera de RNA
74
Error de Minkowski
Con ejemplos muy atpicos, su aportaci
on al error puede ser demasiado determinante
E=
||y t||R
Ingeniera de RNA
75
t ln y
Ingeniera de RNA
76
Superficies de Error
Algoritmos Iterativos
Orden de convergencia:
(t+1) ((t))L
Ingeniera de RNA
77
Aprendizaje y Generalizaci
on
Objetivo del aprendizaje: construir un modelo estadstico del proceso que genera
los datos
Necesidad de controlar la complejidad del modelo
Balance entre tendencia y varianza
Regularizaci
on
Estabilizaci
on estructural
Entrenamiento con ruido
Ingeniera de RNA
78
Tendencia y varianza
El error de generalizaci
on se puede descomponer en dos partes:
tendencia: La diferencia en media de la funci
on que calcula la red y la que
pretende aproximar
varianza: Mide la sensibilidad respecto al conjunto de datos empleado
Existe una relacion de conflicto natural entre tendencia y varianza. Es necesario
encontrar un punto de equilibrio
Minimizando la tendencia y la varianza:
Usar mas datos
Conocimiento a priori
Ingeniera de RNA
79
Regularizaci
on
A
nadir un termino a la funci
on de error que regule la complejidad del modelo:
= E +
E
: Penalizacion para modelos complejos
: regula el grado de aplicaci
on de la penializaci
on
Tecnicas de regularizaci
on:
Reduccion de pesos:
1X 2
=
w
2 i i
Parada temprana
Suavizamiento guiado por curvatura
Ingeniera de RNA
80
A
nadir ruido aleatorio (distribuido seg
un una normal) a los datos de
entrenamiento. Esto evita el sobreajuste.
Estabilizaci
on estructural
Comparar redes de distinta complejidad
Poda
Crecimiento
Combinar las salidas de distintas redes
81
82
Aplicaciones
Codificacion/encriptaci
on de informaci
on
Lectura de textos
Reconocimiento de escritura
Problemas de decision
Prediccion de series temporales: precios, bolsa, cambio de divisas
Restauracion de imagenes
Diagn
ostico medico
83
Optimizacion combinatoria
Control adaptativo
Identificacion de sistemas desconocidos
84
Propiedades
85
Inconvenientes
Bibliografa
86
Bibliografa
C. Bishop. Neural Networks for Pattern Recognition. Springer-Verlag, 1995.
S. Haykin. Neural Networks. Prentice-Hall, 1999.
J.R. Jang, C.-T. Sun y E. Mizutani. Neuro-Fuzzy and Soft Computing. PrenticeHall, 1997.
D. Nauck, F. Klawonn and R. Kruse. Foundations of Neuro-Fuzzy. Chichester:
Wiley, 1997
B.D. Ripley. Pattern Recognition and Neural Networks. Cambridge University
Press, 1996.
R. D. Reed y R. J. M. II. Neural Smithing. Supervised Learning in Feedforward
Artificial Neural Networks. The MIT Press, 1999.
R. Rojas. Neural Networks. A Systematic Introduction. Springer-Verlag, 1995.
Bibliografa
87
Revistas
Neural Networks
IEEE Trans. on Neural Networks
Neurocomputing
Neural Comptutation
Bibliografa
88
Recursos en Internet
http://ftp.sas.com/pub/neural/FAQ.html
http://www.emsl.pnl.gov:2080/proj/neuron/neural/what.html
http://www.cs.stir.ac.uk/ lss/NNIntro/InvSlides.html
http://umtii.fme.vutbr.cz/MECH/nn.html
news://comp.ai.neural-nets
news://comp.ai.fuzzy
news://es.comp.ai.neural