Sunteți pe pagina 1din 40

UNIVERSIDAD NACIONAL DE SAN AGUSTN FACULTAD DE PRODUCCIN Y SERVICIOS ESCUELA PROFESIONAL DE INGENIERA DE SISTEMAS

PERCEPTRONES MULTICAPA
FLOREZ MAYORGA YVAN PREZ VEGA HUMBERTO hperezh@gmail.com yvanflorez@hotmail.com

yvanflorez@hotmail.com, hperezh@gmail.com

INDICE
 Virtudes y limitaciones del aprendizaje back-propagation.  Convergencia acelerada de aprendizaje back propagation.  Aprendizaje supervisado visto como un problema de optimizacin.  Convolutional networks.  Sumario y discusin.
yvanflorez@hotmail.com, hperezh@gmail.com 2

VIRTUDES Y LIMITACIONES DEL APRENDIZAJE BACK-PROPAGATION


 El algoritmo back-propagation es mas popular para el aprendizaje supervisado de perceptrones multicapas.  Se distingue dos propiedades:
Es simple de calcular localmente. Desarrolla una gradiente descendiente estocstica en el espacio de los pesos.

yvanflorez@hotmail.com, hperezh@gmail.com

VENTAJAS Y DESVENTAJAS
 Connectionism  Deteccin de caractersticas  Funcin de aproximacin  Eficiencia computacional  Anlisis de sensibilidad  Robustez  Convergencia  Mnimo local  Scaling
yvanflorez@hotmail.com, hperezh@gmail.com 4

CONNECTIONISM
El uso de clculos locales en el diseo de una red neuronal es definido por tres principales razones: Las RN artificiales que desarrollan clculos locales estn soportadas como metforas por las redes neuronales biolgicas El uso de clculos locales permite una cada en el desempeo debido a errores de hardware (redes tolerantes a fallos). Los clculos locales favorecen el uso de arquitecturas paralelas.
yvanflorez@hotmail.com, hperezh@gmail.com 5

DETECCIN DE CARACTERSTICAS
 Las neuronas ocultas de un perceptron multicapa tienen funcin critica como detectores de caractersticas.
 La red de la capa satisface las siguientes requerimientos estructurales: Las capas de entrada y salida tienen el mismo tamao n. El tamao de la capa oculta N es menor que n. La red esta totalmente conectada.
yvanflorez@hotmail.com, hperezh@gmail.com 6

DETECCIN DE CARACTERSTICAS
 Un patrn X es simultneamente aplicado a la capa de entrada como el estimulo y la capa de salida como la respuesta deseada

yvanflorez@hotmail.com, hperezh@gmail.com

DETECCIN DE CARACTERSTICAS
 La red es entrenada usando el algoritmo backpropagation en la manera usual, con el vector de estimacin de error (x ^x) tratado como la seal de error.

yvanflorez@hotmail.com, hperezh@gmail.com

FUNCIN DE APROXIMACIN
 Un perceptron multicapa entrenado con el algoritmo Back Propagation se manifiesta como un esquema sigmoidal anidado.  (.) es la funcin de activacin sigmoidal.  Wok es el peso sinptico de la neurona k en la ultima capa oculta para la nica salida de la neurona o  As para los otros pesos sinpticos y Xi es el i-esimo elemento de el vector de entrada X.  La salida simple de forma compacta es :

yvanflorez@hotmail.com, hperezh@gmail.com

EFICIENCIA COMPUTACIONAL
 Es eficiente cuando su complejidad computacional es polinomial.  El numero de parmetros ajustables que van a ser actualizados de una iteracin a otra.  Esta propiedad puede ser verificada para examinar los clculos involucrados en la realizacin de forward pass y backward pass.
yvanflorez@hotmail.com, hperezh@gmail.com 10

EFICIENCIA COMPUTACIONAL
Clculos que involucran pesos sinpticos:  Forward pass: Los que pertenezcan al campo local inducido de varias neuronas en la red.  Backward pass: Los que pertenezcan a los gradientes locales de las neuronas ocultas y la actualizacin de los pesos sinpticos.
yvanflorez@hotmail.com, hperezh@gmail.com 11

ANALISIS DE SENSIBILIDAD
 La sensibilidad de una funcin de mapeo de entrada salida F con respecto a un parametro de la funcion denotado por w es:

yvanflorez@hotmail.com, hperezh@gmail.com

12

ROBUSTEZ
 El algoritmo LMS es robusto debido a que la perturbacin con una pequea energa puede dar lugar a pequeos errores de estimacin.  Si el modelo de la observacin subyacente es lineal, el algoritmo LMS es un filtro H-optimo.  El algoritmo LMS minimiza la mxima ganancia de energa de las perturbaciones para la estimacin de error.

yvanflorez@hotmail.com, hperezh@gmail.com

13

CONVERGENCIA
 Dos principales causas para esta propiedad:
El error de superficie es bsicamente plana a lo largo de la dimensin de los pesos (derivada es pequea con relacin al peso). La direccin del vector de gradiente negativo puede apuntar hacia un mnimo local (debido al ajuste de pesos).

yvanflorez@hotmail.com, hperezh@gmail.com

14

MINIMO LOCAL
 La peculiaridad en la superficie de error es la presencia de mnimos locales adems de mnimos globales.  El aprendizaje del algoritmo de back propagation una tcnica de escalonado de cima, que corre el riesgo de quedar atrapado en un mnimo local.
yvanflorez@hotmail.com, hperezh@gmail.com 15

SCALING
 El orden de predicado definido por Misky y Papert provee la utilidad mayor y medida para el tamao o complejidad de una tarea computacional.  (x) que denota una funcin que tiene solo dos valores.  (x) es una variable de declaracin cuyo falsedad y verdad depende en la opcin del argumento X.

yvanflorez@hotmail.com, hperezh@gmail.com

16

INDICE
 Virtudes y limitaciones del aprendizaje back-propagation.  Convergencia acelerada de aprendizaje back propagation.  Aprendizaje supervisado visto como un problema de optimizacin.  Convolutional networks.  Sumario y discusin.
yvanflorez@hotmail.com, hperezh@gmail.com 17

CONVERGENCIA ACELERADA DE APRENDIZAJE BACK PROPAGATION


 Identificamos las principales causas para el posible bajo radio de convergencia del algoritmo de back propagation.  Se describen heursticas que proveen ayuda til para pensar como acelera la convergencia.

yvanflorez@hotmail.com, hperezh@gmail.com

18

CONVERGENCIA ACELERADA DE APRENDIZAJE BACK PROPAGATION


Heursticas para cada parmetro ajustable:  Heurstica 1: Cada parmetro ajustable debe tener su propio parmetro de radio de aprendizaje.  Heurstica 2: Cada parmetro de control de velocidad debera variar de un paso a otro.

yvanflorez@hotmail.com, hperezh@gmail.com

19

CONVERGENCIA ACELERADA DE APRENDIZAJE BACK PROPAGATION


Heursticas para el signo algebraico de la derivada de funcin de error (coste) con respecto a una conexin:  Heurstica 3: Si es el mismo signo, el parmetro de ganancia de una conexin debe ser incrementado.  Heurstica 4: Si el signo ha cambiado, la ganancia para ese peso debera decrecer.
yvanflorez@hotmail.com, hperezh@gmail.com 20

INDICE
 Virtudes y limitaciones del aprendizaje back-propagation.  Convergencia acelerada de aprendizaje back propagation.  Aprendizaje supervisado visto como un problema de optimizacin.  Convolutional networks.  Sumario y discusin.
yvanflorez@hotmail.com, hperezh@gmail.com 21

APRENDIZAJE SUPERVISADO VISTO COMO UN PROBLEMA DE OPTIMIZACIN


 El entrenamiento supervisado de un perceptron multicapa se ve como un problema en optimizacin numrico.  La error de superficie es una funcin no lineal del vector de pesos sinpticos w.

yvanflorez@hotmail.com, hperezh@gmail.com

22

MTODO GRADIENTE CONJUGADO


CG es el mtodo iterativo mas popular para resolver grandes sistemas de ecuaciones lineales.

CG es efectivo para sistemas de la forma: Ax = b Donde: x es un vector desconocido b es un vector conocido A es una matriz positiva-definida

yvanflorez@hotmail.com, hperezh@gmail.com

23

LA FORMA CUADRTICA

A es una matriz simtrica positiva y definida X y b son vectores f(x) es minimizada por la solucin Ax=b

yvanflorez@hotmail.com, hperezh@gmail.com

24

GRFICA DE LA FORMA CUADRTICA

El punto mnimo de esta superficie es la solucin Ax=b


yvanflorez@hotmail.com, hperezh@gmail.com 25

GRFICA DE MATRICES

yvanflorez@hotmail.com, hperezh@gmail.com

26

CONTORNOS FORMA CUADRTICA

Cada curva elipsoidal tiene una constante f(x)


yvanflorez@hotmail.com, hperezh@gmail.com 27

CONTORNOS + GRADIENTE

yvanflorez@hotmail.com, hperezh@gmail.com

28

MTODO DE GRADIENTE CONJUGADA

yvanflorez@hotmail.com, hperezh@gmail.com

29

GRADIENTES ORTOGONALES A LOS CONTORNOS

yvanflorez@hotmail.com, hperezh@gmail.com

30

GRFICA COMPARATIVA DE MTODOS

yvanflorez@hotmail.com, hperezh@gmail.com

31

ALGORITMOS DE OPTIMIZACIN
* Generacin de direcciones conjugadas Elimina Hessiano H de frmula, es exacta para caso cuadrtico: gk+1 gk = Lk H dk * Beale-Sorenson * Polak-Ribiere * Fletcher-Reeves Inicializacin: F0=0, d0=g0

d k !  g k  F k d k 1 t g k ( g k  g k 1 ) B  S : Fk ! t d k 1 ( g k  g k 1 ) t g k ( g k  g k 1 ) P  R : Fk ! t g k 1. g k 1 t gk .gk F  R : Fk ! t g k 1. g k 1


32

yvanflorez@hotmail.com, hperezh@gmail.com

COMPARACIN DE MTODOS
 Gradiente conjugado  menos costoso en memoria, O(W)  Quasi-Newtonianos  memoria: necesita almacenar Hessiano, O(W 2)

 optimizacin lineal debe ser bastante precisa para cumplir condicin de conjugacin  en gral: PR mejor que FR

 calculo de inversa  mas robusto a optimizacin lineal  en gral: BFGS mejor que DFP.

yvanflorez@hotmail.com, hperezh@gmail.com

33

RECOMENDACIONES
Para un numero pequeo de pesos el algoritmo GaussNewton es eficiente, la memoria requerida por este algoritmo es proporcional al cuadrado del numero de pesos. Para un nmero moderado de pesos, varios Quasi Newton Algoritmos son eficientes, la memoria requerida por estos algoritmos es proporcional al cuadrado del numero de pesos. Para un gran numero de pesos, varios algoritmos gradiente conjugado son eficientes la memoria requerida por estos algoritmos es proporcional al numero de pesos.

yvanflorez@hotmail.com, hperezh@gmail.com

34

INDICE
 Virtudes y limitaciones del aprendizaje back-propagation.  Convergencia acelerada de aprendizaje back propagation.  Aprendizaje supervisado visto como un problema de optimizacin.  Convolutional networks.  Sumario y discusin.
yvanflorez@hotmail.com, hperezh@gmail.com 35

CONVOLUTIONAL NETWORKS
Una red neuronal convolucional es una red perceptron multicapa diseada especficamente para reconocer formas en 2-D con altos grados de distorsin.

Es una red que utiliza el paradigma de aprendizaje supervisado.

yvanflorez@hotmail.com, hperezh@gmail.com

36

CARACTERSTICAS
Feature extraction: Cada neuron toma sus entradas sinpticas de un campo receptivo local en la capa previa de este modo forzndolo a extraer caractersticas locales. Feature Mapping: Cada capa computacional de la red esta compuesta de mltiples mapas de caractersticas, con cada mapa de caractersticas que tiene la forma de un plano dentro del cual los neurones individuales son obligados a compartir el mismo juego de pesos sinpticos. Subsampling: Cada capa convolucional es seguida por una capa computacional que realiza un promedio local y sub-muestreo, de este modo la resolucin del mapa de caractersticas es reducida. un promedio local y sub-muestreo, de este modo la resolucin del mapa de caractersticas es reducida.

yvanflorez@hotmail.com, hperezh@gmail.com

37

PROCESO CONVOLUCIONAL

yvanflorez@hotmail.com, hperezh@gmail.com

38

EJEMPLO

yvanflorez@hotmail.com, hperezh@gmail.com

39

Objetos reconocidos por una convolutional network

yvanflorez@hotmail.com, hperezh@gmail.com

40

S-ar putea să vă placă și