CH Csaavedra

Redes Neuronales Artificiales
FernandoIzaurietayCarlosSaavedra
Departamento de Fsica, Universidad de Concepcin, Concepcin, Chile
RESUMEN
En esta charla se entrega una descripcin de las caractersticas principales del funcionamiento de redes
neuronales artificiales. En primer lugar, se presenta un modelo sencillo de red neuronal y las familias de
problemas quepuedenser modeladas por ellas. Adems, sedescribeesquemas simples deentrenamiento de
redes orientadas al reconocimiento depatrones deinformacin. Sepresentaun ejemplo deaplicacindelas
redesal reconocimientodetexto.
1. Introduccin.
Las actividades de investigacin desarrolladas en torno al
estudio de redes neuronales artificiales, simplemente redes
neuronales o neuroredes, estn motivadas en modelar la
forma de procesamiento de la informacin en sistemas
nerviosos biolgicos. Especialmente, por la forma de
funcionamiento del cerebro humano, quees completamente
distinta al funcionamiento de un computador digital
convencional. El cerebro humano corresponde al de un
sistemaaltamentecomplejo, no-lineal y paralelo. Entrminos
sencillos lo anterior equivale a decir que puede realizar
muchas operaciones simultneamente a diferencia de los
computadores comunes que son de tipo secuencial, o sea,
realizan slo una operacin a la vez. En este sentido, una
neurored es un procesador de informacin, de distribucin
altamenteparalela, constituidopor muchasunidadessencillas
de procesamiento llamadas neuronas. La neuroredes se
caracterizanprincipalmentepor:
Tenerunainclinacinnatural aadquirirel conocimiento
a travs de la experiencia, el cual es almacenado, al
igual que en el cerebro, en el peso relativo de las
conexionesinterneuronales.
Tienen una altsima plasticidad y gran adaptabilidad,
son capaces de cambiar dinmicamente junto con el
medio.
Poseen un alto nivel de tolerancia a fallas, es
decir, pueden sufrir un dao considerabley continuar
teniendounbuencomportamiento, al igual comoocurre
enlossistemasbiolgicos.
Tener un comportamiento altamente no-lineal, lo que
les permite procesar informacin procedente de otros
fenmenosno-lineales.
Entre las motivaciones principales para el estudio del
funcionamiento de las redes neuronales se encuentran los
fenmenos neurolgicos. Nuestro cerebro es un procesador
deinformacinmuchsimomseficientequeuncomputador.
Laclavedeesto seencuentraen lainmensaplasticidad del
cerebro, existen tareas cotidianas para el cerebro que sera
impensable realizar mediante computacin tradicional. Un
ejemplo deesto es lacapacidadreconocer aunapersonaen
untiempode100a200ms. Enesebrevelapso, el cerebroes
capaz deprocesar un patrn de informacin tridimensional,
por ejemplo, de una persona que quizs ha cambiado de
aspecto(lucedistintoosimplementeenvejeci) enunpaisaje
cambiante (que puede contener muchos otros rostros). En
la actualidad, tareas mucho ms simples consumen das de
trabajo de los computadores ms veloces. La plasticidad
se percibe tambin en la capacidad de responder de forma
correcta frente a un estmulo nunca antes recibido. Esa
capacidadhacequecuando nos presentanpor primeravez a
alguien, sepamos automticamentequees unapersonay no
unobjetouotroser biolgico. Debidoaestas caractersticas
y muchas otras, las neuroredes se han convertido en una
gran ayuda en el procesamiento de datos experimentales
de comportamiento complejo. Adems, su comportamiento
iterativonolineal lasunedemodonatural al caosyteorasde
lacomplejidad. Dehecho, las posibilidades sontanamplias
que se empieza a hablar de un nuevo campo, aparte de la
Biologa, laMatemticaylaFsica: lasNeurociencias. Como
yalodijimos, loquesedeseainicialmenteesimitar, al menos
parcialmente, el funcionamiento del cerebro. Para hacerlo
revisaremos, superficialmente, algunos conceptos bsicos de
neurobiologa.
2. Neurobiologa
Una neurona tpica posee el aspecto y las partes que se
muestranenlafigura1. Sinembargo, debemosobservar que
el dibujo no estaescala, el axnalcanzaunlargo tpico de
centmetrosyavecesdevariosmetros, lasdendritastambiny
lasterminalessinpticas, sonmslargas, numerosasytupidas.
Figura1: Neuronaysuspartes.
Tpicamente, las neuronas son 6 5 rdenes de magnitud
ms lentas queunacompuertalgicadesilicio, los eventos
en un chip de silicio toman alrededor de nanosegundos
(10
9
s), mientras que en una neurona este tiempo es del
2 F. IZAUTIRETA Y C. SAAVEDRA
orden delos milisegundos (10
3
). Sin embargo, el cerebro
compensa en forma excepcional la lentitud relativa en el
funcionamientoneuronal conunnmeroinmensodeneuronas
con interconexiones masivas entre ellas. Se estima que el
nmero de neuronas en el cerebro es del orden de 10
10
, y
queel nmero deconexiones sinpticas es 6 10
13
. Lared
resultante que es el cerebro es una estructura enormemente
eficiente. Especficamente, la eficiencia energtica del
cerebroesaproximadamentede10
16
J =(operaciones s),
lacual esdel ordende10
10
vecesmayor queladelosmejores
computadoresenlaactualidad.
La mayora de las neuronas codifican sus salidas como
una serie de breves pulsos peridicos, llamados potenciales
de accin, que se originan cercanos al soma de la clula y
sepropaganatravs del axn. Luego, estepulso llegaalas
sinapsisydeah alasdendritasdelaneuronasiguiente.
Unasinapsis esunainterconexinentredosneuronas, un
dibujoesquemticodeellaseincluyeenlafigura2. Enella,
el botn sinptico corresponde al trmino del axn de una
neurona pre-sinptica, y la dendrita es la correspondiente a
unaneuronapost-sinptica.
50 nm
Botn Sinpti co Dendrita
Figura2: Saltosinptico
El tipo ms comn de sinapsis es la sinapsis qumica, que
funcionacomosigue. Unaseal neural elctricapre-sinptica,
llega al botn sinptico de la figura 2. All, sta hace que
lasvesculassinpticas(enazul ennuestrafigura) serompan,
liberndoseas unasustanciallamadaneurotransmisor. Esta
sustancia qumica se difunde a travs del espacio entre las
neuronas. Luego, es captada por la dendrita, en donde
estimula la emisin de un nuevo impulso elctrico, post-
sinptico, que sepropaga hacia la derecha. As vemos que
lasdendritassonlaszonasreceptivasdeunaneurona, siendo
el axn una lnea de transmisin, y los botones terminales
comunicanlosimpulsosaotrasneuronas.
En la neurona, hay dos comportamientos que son
importantsimosparanosotros:
- El impulso que llega a una sinapsis y el que sale
de ella no son iguales en general. El tipo de pulso
quesaldrdependemuy sensiblementedelacantidad
deneurotransmisor. Estacantidad deneurotransmisor
cambiaduranteel procesodeaprendizaje, esaqu donde
sealmacenalainformacin. Unasinapsis modificael
pulso, yaseareforzndoloodebilitndolo.
- Enel somasesumanlasentradasdetodaslasdendritas.
Si estasentradassobrepasanunciertoumbral, entonces
se transmitir un pulso a lo largo del axn, en caso
contrario no transmitir. Despus de transmitir un
impulso, la neurona no puede transmitir durante un
tiempo de entre 0,5 ms a 2 ms. A este tiempo se le
llamaperodorefractario.
En base a estas dos caractersticas, construiremos el
modeloderedneural.
3. Modelo Neuronal.
Aqu se desea introducir un modelo sencillo de la
neurona, paraconstruir redes, nuestro fin ltimo es modelar
correctamenteel comportamientoglobal detodalared. Nose
pretendemodelar exactamenteel comportamientofisiolgico
de la neurona, sino ms bien slo sus caractersticas ms
relevantes, queentranenjuego ensuinteraccincontodala
red.
Tenemos un esquema de neurona en la figura 3. En l
nuestraneuronadeinters es lay
j
. Las n neuronas x
i
estn
enviando seales deentradas, quesonlos valores numricos
dealgo. Losvaloresw
j i
representanlospesossinpticosen
las dendritas dey
j
. Obsrveselanotacin: el primer ndice
denotaalaneuronahaciadondesedirigelainformacin, el
segundondicedenotadequneuronaprocedelainformacin.
x
i
x
n
x
1
w
j1
w
ji
w
j0
y
j
v
1j
v
2j
(y
j
(in)
)
Figura3: EsquemadeNeurona.
Lo quehacecadapeso sinptico es simplementemultiplicar
asuentradacorrespondientey definelaimportanciarelativa
decadaentrada. Recordemos queenel somadelaneurona
biolgicasesumaban las entradas provenientes detodas las
dendritas. Entoncestenemosquelaentradatotal alaneurona
y
j
es:
y
(i n)
j
=
n
X
i =1
w
j i
x
i
(1)
En donde el ndice (in) denota input o entrada. Como
mencionamoslaneuronaseactivasi laentradatotal superaun
ciertoumbral. Loquesehaceparaestoesaplicar unafuncin
de activacin ' sobre y
(i n)
j
, que puede ser, por ejemplo,
una funcin tipo escaln o sigmoidea, como la tangente
hiperblica. Entoncestenemosquelaseal deoutput osalida
delaneuronay
j
es:
y
j
='

y
(i n)
j
(2)
REDESNEURONALESARTIFICIALES 3
3.1. FuncionesdeActivacin.
Algunas funciones de activacin tpicas, no lineales, se
presentanenlasfiguras4y5.
y
(in)
y
Figura4: Escaln.
y
(in)
y
Figura5: Sigmoidea.
Estas funciones evidentemente transmiten la idea de
disparar sobreunumbral. Lasneuronasy susfuncionesde
activacinsedividenendostipos: bipolaresoantisimtricasy
binarias. Enlasprimeras, -a y
j
a, siendogeneralmente
a = 1, y en las segundas, 0 y
j
1. Adems, a veces
sesueleusar comofuncindeactivacinunarelacinlineal,
generalmentelafuncinidentidad. Estaseusapor logeneral
para neuronas deentrada a la red o sensores. Esto se debe
aqueevidentemente, lo queesperamos deun sensor es que
indiqueprecisamenteloqueestpercibiendo.
Si la funcin de activacin de una neurona es lineal,
decimosqueesunaneurona lineal, encasocontrario, decimos
que es una neurona no lineal. Aqu, las neuronas lineales
selas representapor uncuadrado, y alas no lineales por un
crculo.
3.2. UmbraleseInclinacin.
Anteriormente, se explic que una neurona se activa o
dispara si suentradatotal superauncierto umbral. Ahora
bien, muchas veces es deseable modificar este umbral,
haciendomsdifcil quelaneuronadispare(subir el umbral)
o ms fcil (bajar el umbral). Es posible hacer esto
directamente. Sinembargo, estosueleser unpocoengorroso
al programar.
1= x
0
w
j0
x
i
x
n
x
1
w
j1
w
ji
w
j0
y
j
v
1j
v
2j
(y
j
(in)
)
Figura6: EsquemaconInclinacin.
Resulta mucho ms compacto y prctico aadir lo que se
llamaunaneurona de inclinacin, x
0
, alaqueseasignaun
valor fijo de1, y unpeso sinptico w
j 0
. A laneuronay
j
le
asignamosunumbral fijodecero.
Seveclaramentequeestoesequivalenteaquelaneurona
y
j
tengaunumbral de w
j 0
. Entoncessetieneque:
y
(i n)
j
=
n
X
i =0
w
j i
x
i
; conx
0
=1. (3)
3.3. El Comienzo: McCulloch-Pitts.
Despus de las definiciones previas, es conveniente revisar
un ejemplo sencillo, pero muy instructivo, sobre el tema.
Esteconsisteenel primer modelo quesecre deredneural,
el ao 1943, antes de que se construyeran los primeros
computadores. McCullocheraunsiquiatrayneuroanatomista
y Pitts un matemtico. El primero pas 20 aos estudiando
sobre cul era la representacin de un evento en el sistema
nervioso. Sumodelotienelassiguientescaractersticas:
- Lasneuronassondel tipobinario, [0; 1].
- Losumbralesylassinapsissemantienenfijas.
- Lafuncindeactivacinesdel tipoescaln.
Ellos demostraronquetodas las funciones lgicas sepueden
describir mediantecombinacionesapropiadasdeneuronasde
este tipo, y que por lo tanto, se poda crear, en principio,
una red capaz de resolver cualquier funcin computable.
Adems, el modelo sirve para explicar algunos fenmenos
biolgicos sencillos. De esta forma es posible describir
algunasfuncioneslgicascomo:
1
1
x
1
x
2
y
x
1
x
2
y
1 1 1
0 1 0
1 0 0
0 0 0
Figura7: FuncinAnd
2
2
x
1
x
2
y
x
1
x
2
y
1 1 1
0 1 1
1 0 1
0 0 0
Figura8: FuncinOr
Entodosestosejemplos, sesuponequeel umbral decadaneuronanolineal es2. Osea,
y =
0si y
i n
<2
1si y
i n
2
(4)
Ahoraesmuyfcil comprobar quelastablasdeverdadefectivamentesecumplen
1
, por ejemplo, laprimeralneadelatablade
verdadparael And:
1 1+1 1=2=y
i n
) y =1
Veamosunafuncinlgicams: el xOr uOr excluyente.
2
2
z
x
1
x
2
z
1 1 0
0 1 1
1 0 1
0 0 0
x
1
x
2
y
1
y
2
2
2
-1
-1
fig9: FuncinxOr.
Es fcil comprobar que la red mostrada efectivamente
cumpleconlatabladeverdad. Sinembargo, llamalaatencin
el quesuredseams complejaqueladelas funciones And
u Or, pese a que slo se diferencia de la funcin Or en la
primeralnea. Pudiramosdarnosel trabajodebuscar unared
diferentepararepresentar xOr, buscando algo ms sencillo.
Existen varias otras redes que tambin la representan, pero
ningunadeellassencillascomolaparaAnd uOr.
Fijmonosprimeroenqueconsistelacomplejidad. En
las redes And u Or las neuronas de entrada y la de salida
estnconectadasdirectamente, encambio, sepuededemostrar
que para la funcin xOr habr siempre por lo menos, una
conexin indirecta. Para entender esta diferencia se debe
incorporar dos nuevos conceptos: Problemas linealmente
separablesyCapasNeurales.
3.4. ProblemasLinealmenteSeparablesyCapasNeurales.
3.4.1. Problemas Linealmente Separables.
Volvamos aunaredsimple, comoladel AnduOr, peroms
general, comoladelafigura10. Enella, hemosaadidouna
neuronadeinclinacin, envez deunumbral.
w
2
w
1
y
x
1
x
2
x
0
w
0
1
Figura10: FuncinLgicasimple.
Sabemosquelaentraday
(i n)
estardadapor:
y
(i n)
=w
0
+w
1
x
1
+w
2
x
2
; (5)
ylarespuesta, por:
1
Seasumeque1=Verdaderoy0=Falso.
y =
0si y
(i n)
<0
1si y
(i n)
0
(6)
Estodivideal planoformadopor x
1
yx
2
endosregiones: en
una, setendrquey =0ey
(i n)
<0, enlaotrasetendrque
y = 1ey
(i n)
0. Lafrontera entreambasestdadapor la
ecuacinlineal delarecta:
w
0
+w
1
x
1
+w
2
x
2
=0:
Veamos por ejemplo que ocurre con la funcin And.
Tenemosquey
(i n)
=x
1
+x
2
2, lafronteraesx
1
+x
2
=2:
Si superponemos las respuestas que nos debe arrojar la red
conel grficodelasregiones, obtenemoslafigura11.
x
1
x
2
0 1
0
1
1
0 0
0
C l a s e 1
C l a s e 0
x
1
+ x
2
= 2
Figura11: Andsobreel plano.
Si laentradaestenlareginClase1 producirunasalida
1, si est en la Clase 0, una salida de 0. Vemos que se
puedenseparar las entradas quedebenproducir unasalida1
delasquedebenproducir unasalida0por unalnearecta. Se
diceentoncesqueel problemaeslinealmenteseparable. Para
resolverunproblemalinealmenteseparable, nosbastaconuna
redsencilla.
Revisemos en cambio, como es lafuncin xOr sobreel
plano:
x
1
x
2
0 1
0
1
0
1 0
1
Figura12: xOr sobreel plano.
Mediante simple inspeccin podemos comprobar que
efectivamenteesimposibleencontrar unalnearectaquedeje
aunladolasentradasquedebenproducir 0, yal otro, lasque
debenproducir 1. Enestecaso, decimos queel problemano
es linealmente separable. Por esono nos bastaconunared
sencilla pararesolver el xOr.
Lo que en realidad estamos haciendo es un caso muy
sencillo del problemageneral declasificacin de patrones.
Estamos clasificando las entradas en Clase 1 o Clase
Verdadera yClase0 oClaseFalsa.
El concepto deseparabilidadlineal seextiendedemodo
natural a entradas de ms dimensiones. Las entradas que
pertenecen a una clase y las que no pertenecen a esta
simplemente tienen que poder separarse por el hiperplano
n
P
i =0
w
j i
x
i
=0enel espaciox delasentradas.
Clase2
Clase1
No - Linealmente
Separable:
Clase2
Clase1
LinealmenteSeparable:
w
ji
x
i
=0
i =0
n
Espacio x
Figura13: SeparabilidadLineal.
Para aclarar el concepto de redes sencillas primero
revisaremosotroconcepto: lasCapasNeurales.
3.4.2. Capas Neurales
Cuando trabajamos con grandes cantidades de neuronas,
es natural ordenar aquellas que tienen comportamientos
similares en capas, como en la figura 14. De ah que se
usenlossubndicesparalasneuronas. Cadacapaesunvector
deneuronas.
w
10
w
j0
w
n0
x
0
w
11
w
j1
w
n1
x
1
w
1m
w
jm
w
nm
w
1i
w
ji
w
ni
x
i
x
m
y
n
y
j
y
1
1=
E
n
t
r
a
d
a
S
a
l
i
d
a
Capa 0
Capa 1
Figura14: RedUnicapa.
Seacostumbrano contabilizar lacapadeentrada, por lo tanto sedicequelared delafigura14 es Unicapa. Las sinapsis
obviamenteestnordenadasenunamatrizw
j i
den (m+1). Evidentemente, denuestroanlisisanterior, tenemosqueunared
unicapaslopuederesolver problemaslinealmenteseparables. Enunaredunicapa, lasneuronasdesalidapuedenser linealeso
nolineales.
Peroesevidentequepodemosseguir aadiendocapas, comosemuestraenlafigura15.
u
10
u
j0
u
n0
x
0
u
11
u
j1
u
n1
x
1
u
1m
u
jm
u
nm
u
1i
u
ji
u
ni
x
i
x
m
1=
E
n
t
r
a
d
a
Capa 0
Capa 1
v
10
v
k0
v
p0
v
11
v
k1
v
p1
w
1n
w
kn
w
pn
v
1i
v
kj
v
pj
y
0
z
p
z
k
z
1
Capa 2
S
a
l
i
d
a
1
y
j
y
1
y
n
Figura15: RedMulticapa.
En una red multicapa, las capas ocultas, que en nuestra
figuracorrespondealaCapa2, siempre sonno lineales. Se
puededemostrar muy fcilmentequesi seconstruyeunared
multicapaconcapasocultaslineales, staesequivalenteauna
redunicapa.
Podemosver fcilmentelaideadeparalelismoal observar
lascapasdelasredes. Cadaneuronadeunacapanonecesita
de las dems en su misma capa para trabajar, son capaces
por lo tanto de trabajar simultneamente. Esta cualidad
se ha aprovechado al disear chips paralelos con la nueva
tecnologaVLSI (Very LargeScaleIntegrated), endondese
hanimplementadovariostiposdeneuroredes.
Una red multicapa es capaz de resolver problemas ms
complejos, pero su proceso de aprendizaje tambin es ms
complicado.
4. Aprendizaje o Entrenamiento.
El aprendizajees laclavedelaplasticidad deunaneurored
y esencialmente es el proceso en el que se adaptan las
sinapsis, paraquelaredrespondadeunmodo distinto alos
estmulosdel medio. Recordemosqueenunaneurored, toda
lainformacinadquiridaseguardaen el valor decadapeso
sinptico. Dehecho, las neuronas dela mayor partedelos
seres vivos con sistema nervioso, desde un caracol hasta el
hombre son esencialmente iguales. Lo que nos hace ms
inteligentesqueuncaracol esel nmero, organizacinymodo
de cambio de las conexiones sinpticas. El aprendizaje se
divideprincipalmenteendostipos: AprendizajeconProfesor
oSupervisadoysinProfesoroNoSupervisado. Nosotrosslo
estudiaremosaprendizajeconprofesor yalgunasvariantesde
ste.
4.1. AprendizajeconProfesor oSupervisado.
El proceso es completamenteanlogo aensearlealgo aun
nio, digamosporejemplo, areconocer lasvocales. Lospasos
del procesosonlossiguientes:
- El profesor dispone de un conjunto de N pares de
entrenamiento, f x
i
(n); d
j
(n)g
N
n=1
, en dondex
i
(n) es
la n-sima entrada y d
j
(n) es la respuesta correcta a
esaentrada. Ennuestroejemplo, significaquetenemos
todaslasvocalesdibujadasenunpapel ( x
i
(n) ) yque
nosotros sabemos las respuestas correctas ( d
j
(n) ) a
cadaunadelasfiguras, lossonidosA,E,I,O,U.
- Introducimos una de las entradas x
i
(n) y esperamos
que nuestra red nos responda. Sera como mostrarle
al nio laletraA y preguntarle: Dime, Quletraes
esta?.
La neurored responde mediante una salida o
j
(n).
Digamos, el nionosrespondiEsaesunaE.
Luego comparamos ambas seales, la respuesta
deseadad
j
(n) y larespuestadelared o
j
(n), creando
unaseal deerror, e
j
(n) =d
j
(n) o
j
(n). Mmm... el
nionoesttandespiertocomoesperaba....
Luego, conlaseal deerror e
j
(n), corrijo las sinapsis
delaredmediantealgnalgoritmodelosquesevera
continuacin. Nohijo, estanoesunaE, esunaA....
d
j
(n)
+
x
i
(n)

o
j
(n) -
e
j
(n)
Profesor
{x
i
(n);d
j
(n)}
Neurored
Figura16: AprendizajeconProfesor oSupervisado.
La secuencia completa de los N pares de entrenamiento es
conocidacomounapoca. Engeneral, puedenhaber muchas
pocas, y el aprendizaje se detiene cuando la red responda
correctamenteatodoslosparesdeentrenamiento.
En general, cuando adaptemos las sinapsis, la forma de
hacerlosermediantelasiguienteecuacin:
w
j i
(n+1) =w
j i
(n) +w
j i
(n) (7)
en donde w
j i
(n) son los pesos sinpticos con los que
la red responder al n-simo ejemplo. Esto equivale a
no cambiar los pesos sinpticos en forma radical, sino
que simplemente los variamos en una cantidad pequea
w
j i
(n) conrespectoasuestadoanterior. Loquediferencia
alosalgoritmosoreglasdeaprendizaje, esbsicamentecomo
encontrar w
j i
(n). El quehayan distintos algoritmos tiene
ciertabasebiolgica. Neuronasdedistintaspartesdel cerebro
aprendendeformadistintatambin.
4.2. RegladeHebb.
Esta es la ms antigua y la ms famosa de las reglas
de aprendizaje, su base es completamente biolgica. Fue
encontrada por el neurofisiologo Hebb en 1949, quien
descubri quesi dos neuronas a ambos lados dela sinapsis
estaban activas (o inactivas) simultneamente, entonces las
sinapsis entre ellas se reforzaban, y si se activaban (o
desactivaban) asincrnicamente, se debilitaban. Una forma
deexpresar estaideadeformasencillaeslasiguiente:
w
j i
(n) =y
j
(n)x
i
(n); >0; (8)
dondelascapasdeneuronasx
i
ey
j
estndistribuidascomoen
lafigura14. A laconstantedeproporcionalidad selellama
razndeaprendizaje. Paraver comofunciona, supongamos
quex
i
ey
j
sonbipolares o antisimtricas, cona = 1. Si x
i
ey
j
tomanambas simultneamente el valor de1(o de-1),
w
j i
(n) = , y esasinapsissereforzar. Encambio, si una
tomaseel valor -1 y la otrael de1, w
j i
(n) = , y esa
sinapsissedebilitar.
Esteaprendizajeexplicael famosoexperimentodePavlov.
l ledabaalimentoaunperroysimultneamentetocabauna
campanilla. Despus de repetir esto muchas veces, Pavlov
toc slo la campanilla, sin alimento. Y el perro, slo
oyendolacampanilla, salivaba. Laexplicacinesmuysimple.
Al activarse simultneamente las neuronas que controlan la
salivacinylasquepercibenlacampanilla, lassinapsisentre
ellasserefuerzan.
4.3. AprendizajepararedesUnicapa.
4.3.1. Regla de Aprendizaje perceptrnico.
Objetivo y funcionamiento general: Esta regla
de aprendizaje est diseada especialmente para el
reconocimiento de patrones, pero por ser red unicapa,
slo se pueden usar patrones linealmente separables. El
perceptrnnacicomounprimer intentodemodelar laretina,
en 1958, por Rosenblatt. Es usual pensar que la retina es
simplemente un receptor (como el detector CCD de una
cmara de vdeo), pero en realidad es una red altamente
compleja. Slohapodidoser reproducidaenojospararobots
yretinasartificialesparaciegosenlaltimadcada, mediante
losllamadoscircuitosneuromrficos. Laretina, ademsde
ser un receptor, es capaz de reconocer el movimiento y
bordes, ypuedeadaptarseacambioslocalesenel brillo.
Un perceptrn es una red de una sola capa, como la de
la figura 14. Las neuronas de salida son no lineales, con
funcindeactivacintipoescaln. Ennuestrosexperimentos
numricos, utilizamos funciones de activacin bipolares o
antisimtricas, comolasiguiente:
y
j
=
8
>
<
>
:
1si y
(i n)
j
<0
0si y
(i n)
j
=0
1si y
(i n)
j
>0
(9)
Ntese que se incluy un punto neutro. A este se le suele
llamar punto de indeterminacin. A veces incluso se usa
unareginentornoal origenqueproduceunasalidadecero, a
lacual selellamabanda de indeterminacin. Simplemente
dicequelaneuronanosabequeresponder. Cadaneuronade
salidarepresentaaunaclasedeterminada, si unadeellas se
activa con una entrada, significa que pertenece a esa clase,
si est desactiva, que no pertenece. Aqu, incluimos dos
experimentos al respecto, clasificando imgenes de letras.
La entrada x
i
corresponde al i-simo pxel de la imagen.
Digamos por ejemplo quetenemos unaredquenos clasifica
unaentradacomo X uO. Lo quequeremos es quefuncione
comosemuestraenlafigura17, endondelaneuronamarcada
conX reconocealaclaseX, ylaconO, alaclaseO:
X
1: Es una X
-1: No es una O
x
O
O
-1: No es una X
1: Es una O
x
O
Figura17: FuncionamientodeunPerceptrn
Algoritmo Perceptrnico. Veamos ahora como entrenar
estaredquecuentam
o
y m
1
nmerodeneuronasdeentrada
y salida respectivamente. Adems, existen N pares de
entrenamientof x
i
(n); d
j
(n)g
N
n=1
. Deestaformael algoritmo
es:
Paso 0: Inicializar las sinapsis de la red, se puede elegir
w
j i
(0) = 0 valores aleatorios. se elige una razn
deaprendizaje, 0< 1.
Paso 1: Mientraslacondicindeparadadel paso5seafalsa,
realizar lospasosdel 2al 5.
Paso 2: Paracadapar deentrenamiento, (x
i
(n); d
j
(n)) ; n =
1; :::; N, hacer lospasosdel 3y4.
Paso 3: j =1;:::; m
1
y
(i n)
j
(n) =
m
0
X
i =0
w
j i
(n)x
i
(n)
y
j
(n) =
8
>
<
>
:
1si y
(i n)
j
(n) <0
0si y
(i n)
j
(n) =0
1si y
(i n)
j
(n) >0
Paso 4: Si y
j
(n) 6= d
j
(n), para algn j entre 1 y m
1
,
entonces
w
j i
(n+1) =w
j i
(n) +d
j
(n)x
i
(n);
dondej = 1; :::; m
1
;i = 0; :::; m
0
. Encaso contrario
w
j i
(n+1) =w
j i
(n)
Paso 5: Si los pesossinpticosnocambianparacadapatrn
deentrenamientodurantelaltimavezqueserealizel
paso2, entoncesparar, sinoesas, continuar.
Se ve claramente que en nuestro caso, w
j i
(n) =
d
j
(n)x
i
(n) o0, dependiendodesi huboerrorono. Podemos
entender intuitivamente el algoritmo de la siguiente forma.
Supongamos que la j -sima neurona respondi de forma
incorrecta, dijo-1envezde1. Estosignificaquey
(i n)
j
(n) fue
demasiadopequeo, debemoshacer quecrezcahaciendoque
mstrminosenlasumatoria
m0
P
i =0
w
j i
(n)x
i
(n) seanpositivos
y lo mximo posible. O sea, si lai-simaentrada, x
i
(n) es
+1, entonces lai-simasinapsis, w
j i
(n), debieraser positiva
ylomsgrandeposibletambin: debemoshacerlacrecer. Si
por el contrario, x
i
(n) es -1, debemos hacer bajar aw
j i
(n).
Esoesloquesere ejaenlaformaenquehemosconstruido
el w
j i
(n), si d
j
(n) es+1, entoncesw
j i
(n) tieneel mismo
signoquex
i
(n). Enel casocontrario, estodoal revs.
Es bastante evidente que si un problema es linealmente
separable, existen infinitos pesos sinpticos que servirn
para solucionar el problema. Basta con multiplicar por una
constantelaecuacin
n
P
i =0
w
j i
x
i
=0yseguimosteniendo
el mismo hiperplano de separacin, aunque distintos pesos
sinpticos. Adems, generalmente, no es unsolo hiperplano
el quenospodradelimitar bienlafrontera, sinoquemsbien
hayinfinitos, comosemuestraenlafigura18:
Clase 2
Clase 1
Espacio x
Figura18: InfinitasSoluciones.
Osea, onoexisteningunasolucin, oexisteninfinitas.
Es posible demostrar que si existe solucin, entonces
el algoritmo perceptrnico converger a una delas infinitas
solucionesenunnmerofinito depasos.
Experimentos Computacionales. A modo de ejemplo se
incluyen dos experimentos (computacionales), ambos de
clasificacindeletras. Parael primero, usamoslassiguientes
entradas:
Figura19: Patronesdeentrenamientoparael Experimento1
Cadaimagenesde7 9=63pxels, unpxel negrocorrespondeaun+1yunoblancoaun-1, seus =1. Lassinapsis
seinicializaroncon0. Paraconstruir el vector x
i
deentradas, simplementeponemosunafiladelaimagendespus delaotra.
Despusdel entrenamiento, algunospatronesquefueronclasificadoscorrectamentefueronlossiguientes:
A C D E K
Aqu observamos el funcionamiento delared queseha
construido, queapesar deser muy simple, tieneplasticidad
y es capaz de generalizar. A pesar deque nunca vio esos
patrones conerrores durantesuentrenamiento, fuecapaz de
reconocer aquletracorrespondan.
Paraampliar el experimentonospreguntamos: Sepodr
realizar conpatronesmsgrandes? y, Quimagenpodemos
hacernosdecmoestndistribuidaslassinapsis?
Pararesponder esaspreguntas, construimosunperceptrn
que slo clasificara entre X, O e I, pero con entradas de
una resolucin mucho mayor: 56 72 = 4032 pixeles.
Trabajamosexactamentedel mismomodoqueconel ejemplo
anterior. Los patrones de entrenamiento ahora son los
siguientes:
Figura21: Patronesdeentrenamiento, 2
Se necesitaron slo tres pocas. Algunos patrones que
fueronclasificadoscorrectamente, son:
X O I
Nuevamenteobservamos la plasticidad. Pero, cmo se
distribuyen las sinapsis?. Para verlo de un modo grfico,
simplemente reordenamos en la misma forma de la imagen
original alas sinapsis, obtenindose3grficas: Unaparalas
sinapsisqueseconectanconlaneuronadelaX, otraconlade
laOyotraconladelaI.
X O I
4
0
-4
Figura23: SinapsisparaX,OeI.
Simplementeobservando sepuedeentender cmo funcionan
las sinapsis, y qu regiones son ms cruciales que otras al
reconocer el patrn.
Pero dijimos que las sinapsis no eran nicas. Si
empezamos con valores iniciales aleatorios llegamos a otro
tipodeconexionessinpticas, comoestas:
X O I
4
0
-4
Figura24: OtrasSinapsisparaX, OeI.
Ahora, pasaremos aotratareaquerealizanmuy bienlas
neuroredes: predecir.
4.3.2. Regla Delta, o correccin de error.
Estaes unareglamuy popular, enellaseusaunareddeuna
solacapa, igual quelaperceptrnica, perolaneuronadesalida
tiene una funcin de activacin derivable, generalmente la
funcinidentidado latangentehiperblica. Paraestaregla,
usamosunalgoritmomssencillo, simplementecalculamosel
error e
j
(n) =d
j
(n) y
j
(n) correspondienteacadaentrada,
yluegocorregimoslassinapsisdelaredmediantelaregla:
w
j i
(n) =e
j
(n)'
0
j
(y
(i n)
j
(n))x
i
(n) (10)
Si las neuronas de salida tienen a la identidad como
funcindeactivacin, '
0
j
(y
(i n)
j
(n)) =1, yentonces,
w
j i
(n) =e
j
(n)x
i
(n)
que es la forma ms comn del algoritmo. Esta regla en
realidades uncaso particular muy sencillo del algoritmo de
retropropagacindeerrores.
La convergencia del algoritmo depende fuertemente del
valor de. Si seeligeuno muy pequeo, laconvergenciase
harmuylenta, ysi seeligemuygrande, el procesosevolver
inestabley no converger. Existen criterios paradeterminar
cotassuperiorespara, perosuelenser complicados, nosotros
ennuestro experimento simplementerecurrimos al ensayo y
error, quesueleser muchomsrpido.
Predictor lineal, o filtro Lineal Adaptativo. Supongamos
quetenemosunsistemadinmicoal queestamosdescribiendo
por un nico parmetro x. Lo nico que conocemos de l
es su historia, muestreando x cada cierto perodo T. Lo
que queremos hacer es predecir cul ser la respuesta del
sistema en el prximo instante. Esto lo hacemos mediante
unainteraccinred- sistemadinmico como lamostradaen
lafigura25:
Sistema
Dinmico
+
-
x( [n+1]T )
w
i
w
n
w
1
w
0
x( [n+1]T )

w
i
(n)
e(n)
1
x( nT )
x( iT )
x( T )
x
figura25: Predictor Lineal

Aqu vemos queel papel deprofesor es llevadodemodo
automtico por el mismo sistema dinmico. La red conoce
todas las entradas desdex(T) hastax(nT), y debepredecir
el valor de x([n+1]T). El papel de respuesta deseada lo
juega x([n+1]T) y el de entrada el historial del proceso.
Es completamente anlogo al proceso de aprendizaje con
profesor, excepto por queel nmero deneuronas deentrada
debeaumentar constantemente.
Experimento computacional. Usamos un = 0:01y una
neuronadesalidaconlafuncinidentidad. Nuestro sistema
dinmicoeraunaseal senoidal convariacionesaleatorias.
50 100 150 200 250
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
Tiempo [ T ]
x
Sist. Dinmico.
Neurored
Figura26: ExperimentodePrediccin.
Se puede observar fcilmente que a medida que la red va
aprendiendo, cadavezescapaz depredecir mejor.
4.4. AprendizajeparaRedesMulticapa.
Ahora, romperemos con nuestras limitaciones anteriores y
estudiaremosel casonolineal. Debemosrecordar queeneste
tipoderedes, lasfuncionesdeactivacindelascapasocultas
sonsiemprenolineales. Adems, veremosdelasecuaciones
que necesitamos una funcin de activacin diferenciable en
todo su dominio. Adems, se encuentra que el algoritmo
de aprendizaje es ms difcil de visualizar. Nosotros
slo estudiaremos un tipo de aprendizaje, el Aprendizaje
Retropropagador deError.
4.4.1. Estructura y Notacin general
Laestructuradelaredsemuestraenlafigura27, lacapade
salidaeslacapaL-sima, ytienem
L
neuronas. Ladeentrada
es lacapa0, y tienem
0
neuronas. Decimos quenuestrared
tieneL capas, aL selellamaaveces laprofundidad dela
red.
m
0
m
1
m
2
... m
L-2
m
L-1

m
L

S
a
l
i
d
a
E
n
t
r
a
d
a
Figura27: RedMulticapa.
Supondremos que cada capa tiene sus neuronas de
inclinacin, que por lo general no dibujaremos en los
diagramas. En general, las neuronas de cada capa estn
completamenteconectadasconlasdelasiguiente.
Enel funcionamiento denuestrared, nos encontraremos
con dos tipos de seales: Seales de Funcin y Seales de
error.
- Seales de Funcin: Es el estmulo que entra en la
capa0, y pasahaciaadelante, capapor capadel modo
tradicional, hastalaltimacapa, L, endondesegenera
laseal desalida.
- Seales de Error: Luego dela etapa hacia adelante,
vienelaretropropagacindel error, haciaatrs. Cuando
corregimos las sinapsis, corregimos las de la capa L
primero. Luego, observando las sinapsis delacapaL,
corregimos las delacapaL 1, y as sucesivamente
hasta la primera capa. A esto se le llama seal de
error, vamosdesdelasltimascapashastalasprimeras
corrigiendo sinapsis. Esto es lo que se ilustra en la
figura28:
Seal de Funcin
Seal de Error
2 Etapas:
Figura28: Etapashaciaadelanteyhaciaatrs.
4.4.2. Definiciones.
Error: Supongamos quelacapadesalidaestconstituida
por las neuronas z
k
. Entonces, el error cometido al
presentarseel n-simopar deentrenamientoes:
e
k
(n) =d
k
(n) z
k
(n): (11)
Energa de error: Laenerga deerror al presentarseel
n-simopar deentrenamientoes:
"(n) =
1
2
mL
X
k=1
e
2
k
(n) (12)
Estano esunaenergafsica, enlajergadelasneuroredesslo
selellamaas por suformaanlogaalaenergacintica.
Muchos fsicos han trabajado en este campo, y han
empleadotrminosdelaFsica.
Energa promedio de error. Es el promedio delaenerga
de error durante una poca completa de presentacin de
patrones.
"
pro
=
1
N
N
X
n=1
"(n) (13)
donde "(n) y "
pro
son funciones de todas las sinapsis de la
red. El objetivo del proceso de aprendizaje ser minimizar
"
pro
. Seaw
j i
unasinapsis cualquieradelared. Es fcil ver
que"
av
(w
j i
) y"(n)(w
j i
) constituyensuperficies deerror. La
ideadel algoritmo serladel descenso paso apaso. Vamos
a hacer una primera aproximacin para aclarar conceptos.
El gradiente de "
av
seala su direccin de crecimiento.
Evidentemente, vienedadopor:
@
j i
"
pro
(w
j i
) =
@"
pro
@w
j i
: (14)
Si queremosminimizar "
pro
, deberamosdirigirnosencontra
del gradiente, comovemosenlasiguienterelacin:
w
j i
(p+1) =w
j i
(p)
@"
pro
@w
j i
(p)
(15)
En donde p simplemente seala que estamos en el p-simo
paso. Lo queestamos haciendoes esquiar o resbalarnos
sobre la superficie de error, tratando de llegar al mnimo
global delasuperficie. Sinembargo, haciendoesto, corremos
el peligro de quedar atrapados en un minmo local de la
superficie, ynuncaalcanzar el mnimoglobal, comoseilustra
enlafigura29.
? ?
av
w
ji
Figura29: Peligrodecaer enmnimolocal.
Sepuedeintentar evitar esto tratando deminimizar las " (n)
envezde"
pro
, perodeunmodobienespecial, comoseexplica
enlasiguienteseccin.
4.4.3. Idea del Algoritmo.
Intentaremos minimizar "
av
minimizandolas " (n). Es decir,
tendremosque:
w
j i
(n+1) =w
j i
(n)
@"(n)
@w
j i
(n)
: (16)
Cada patrn que se presenta tiene una superficie de
error "(n) diferente. Lo que hacemos es presentar el n-
simo par de entrenamiento y corregir todas las sinapsis
de la red. Es decir tenemos la n-sima superficie y nos
resbalamos unpaso. Luego, presentamosel (n+1)-simo
par de entrenamiento y corregimos nuevamente todas las
sinapsis de la red. O sea, cambiamos de superficie y nos
resbalamos otropaso. Esteconstantecambiodesuperficie
hacemuy difcil quedar atrapado en un mnimo local. Una
buenaimagenmental seraestar esquiando enunamontaa,
queesttemblando alocadamente!. Evidentemente, tardeo
temprano llegaremos al vallems profundo queexista. Este
pocesoseilustraenlafigura30.
(n)
w
ji
(n+1)
w
ji
Figura30: EsquivandoMinmosLocales.
Lo que estamos suponiendo implcitamente es que el
promedio de los cambios individuales en las sinapsis es un
estimador del cambio quedebieraocurrir si minimizaramos
directamente"
pro
.
Adems, el orden de presentacin de los pares
de entrenamiento se randomiza de poca en poca.
Esto hace que la trayectoria seguida sobre la superficie
sea completamente estocstica. Supongamos que no
randomizramos el conjunto de entrenamiento. Entonces
tendramosquepocatraspocaestaramosrepitiendoel
mismo procedimiento, llammoslo F . Entonces
estaramositerando:
w
j i
((n+1)-poca) =F (w
j i
(n-poca)) (17)
Desde Teora de Caos, sabemos que procesos como estos
puedenconverger aestadosmetaestables, comocicloslmites.
Para eliminar esta posibilidad se intenta randomizar el
conjuntodeentrenamiento, mediante:
w
j i
(1-poca) = F (w
j i
(0-poca))
w
j i
(2-poca) = G(w
j i
(1-poca))
w
j i
(3-poca) = H(w
j i
(2-poca)), etc.
4.4.4. Algoritmo de Retropropagacin de Error.
Consideremos la red de la figura 31. No dibujamos las
sinapsis, slo las sealamos con una echa. La red puede
seguir teniendo ms capas ocultas hacia atrs. Se puede
demostrar que:
w
kj
(n) =
@"(n)
@w
kj
=
k
(n)y
j
(n), k =1; :::; m
L
; j =0; :::; m
L 1
(18)
v
j i
(n) =
@"(n)
@v
j i
=
j
(n)x
i
(n), j =1; :::; m
L 1
; i =0; :::; m
L 2
w
kj
y
j
z
k
v
ji
x
i
m
L-2
m
L-1
m
L
S
a
l
i
d
a
Figura31: RedMulticapas.
O sea, cada cambio en las sinapsis es directamente
proporcional a las seales enviadas por la capa que se
encuentraantes. w
kj
/ y
j
; v
j i
/ x
i
, y as paratodas
lascapasdelared.
Si lacapaes desalidao si es oculta, el gradiente local
l
=
@"(n)
@y
( i n )
l
secalculadeformasdiferentes.
Capa de Salida:
(L )
k
(n) =e
(L )
k
(n)'
0
k
(z
(i n)
k
), k =1; :::; m
L
(19)
Aadimos el superndiceL (aunquecon lanotacinque
estamos usando no es estrictamentenecesario) pararecalcar
que nos referimos a la capa de salida. Usamos '
0
k
, la
0
significaderivadaconrespecto al argumento, y el subndice
k serefiereaquecadaneurona, engeneral, pudieratener una
funcindeactivacindistinta!.
Este es el mismo resultado que tenamos para el filtro
lineal adaptativodeunasolacapa. As queahorasabemosde
dondevenaesaecuacin. Simplementeestbamos tratando
deminimizar "
av
delaformayadescrita.
Capas Ocultas:
(L 1)
j
(n) ='
0
j
(y
(i n)
j
(n))
mL
X
k=1
(L )
k
(n)w
(L )
kj
(n); (20)
dondej = 1;:::; m
L 1
. Aqu vemos queel
(L 1)
j
depende
delos
(L )
k
delacapadems adelante. Conlas otras capas
ocultas, sehaceexactamentelomismo, siemprelacorreccin
depende, delamismaforma, deloquehayasucedido enlas
capasdemsadelante. Esaloquenosreferamosconquela
seal deerror vahaciaatrs.
A estemtodo, en dondeevitamos los mnimos locales,
se le llama Mtodo Secuencial. Algunas veces, pese al
riesgodecaer enmnimoslocales, seminimizadirectamente
"
av
, llamndose a esto Mtodo Grupal, que no es muy
usado. Aunque las caractersticas estocsticas del mtodo
secuencial hacenqueevitecaer aunmnimolocal, hacenque
seamuy difcil establecer tericamentelaconvergencia. En
cambio, conel mtodo grupal, laconvergenciaaunmnimo
local estgarantizadacon un mnimo decondiciones. Pese
a ello, el mtodo secuencial es altamente popular, pues es
muy simpledeimplementar computacionalmentey adems,
efectivamentefuncionamuybienenunainmensamayorade
casosdifciles.
5. Conclusiones
Estetrabajohapretendidorealizar unapequeaintroduccin
aalgunascaractersticasdeneuroredesconocidas. Dehecho,
anlos estudios ms avanzados queexistenhoy dasobreel
tema estn muy alejados de entender el funcionamiento del
cerebro, quefuesumotivacininicial. El temaenrealidades
muy vasto. Sin embargo, peseaquehemos visto unaparte
nfimadel total, hemospodidoapreciar algunascualidadesde
estemecanismodeprocesamientodeinformacin.
Enprimer debemoslugar destacar queesposiblemodelar
el funcionamientodeunaneuronaenformaextremadamente
simple, y sin embargo, poseeunagran capacidad, vemos la
sencillez y la complejidad unidas de un modo maravilloso.
Por ejemplo, de describi la posibilidad de procesar
cantidadesincreblesdeinformacinenformaparalela, deun
modosencilloynatural.
Al poder establecerse las funciones lgicas mediante la
combinacin de neuronas vemos tambin la posibilidad de
poder construir computadoras con ellas, por lo menos en
principio.
Otra caractersticas fundamentales que no podemos
olvidar sonlaRobustez y laCapacidaddeAprendizaje. Las
neuronassoncapacesdeimitar ypredecir el comportamiento
de sistemas dinmicos sin usar ningn modelo explcito, y
capacesdereconocer patrones, aunquestostenganerrores.
Ademsdetodoeso, sonmuy interesantesparalaFsica,
tanto para procesar informacin como en s mismas. En
cuantoaestoltimo, sehandescubiertointeresantesreasque
relacionanlasneuroredes conlaTeoradelaInformacin, el
Caos, laMecnicaEstadstica.
6. Bibliografa
[1] Laurene Fausett, Fundamentals of Neural Networks
(Prentice-Hall, NewYersey, USA, 1994).
[2] SimonHaykin, Neural Networks (Prentice-Hall, New
Yersey, USA, 1999).

CH Csaavedra

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

CH Csaavedra

Încărcat de

Drepturi de autor:

Formate disponibile

Redes Neuronales Artificiales

figura25: Predictor Lineal

S-ar putea să vă placă și