Documente Academic
Documente Profesional
Documente Cultură
Este captulo apresenta uma breve introduo sobre os conceitos bsicos da teoria de
redes neurais artificiais e inicia o estudo do assunto principal deste trabalho o treinamento
de redes do tipo perceptron de mltiplas camadas. O perceptron de mltiplas camadas a
arquitetura de redes neurais artificiais mais utilizada. Sua popularidade atribuda ao fato de
que tem sido aplicada com sucesso a uma grande variedade de problemas de processamento
de informao, incluindo classificao de padres, aproximao de funes e previso de
sries temporais. A derivao do algoritmo de retro-propagao e consideraes sobre as
virtudes e limitaes das redes do tipo perceptron de mltiplas camadas sero brevemente
comentadas.
2.1
Introduo
Uma rede neural artificial (RNA) um sistema de processamento de informao que
Propagao do sinal
Axnio
Ramificaes terminais
Corpo celular
Dendritos
Um Breve Histrico
As redes neurais artificiais passaram por um interessante processo de evoluo,
marcado por um perodo de grande atividade seguido por anos de estagnao nas pesquisas e
pelo ressurgimento do interesse cientfico como conseqncia do desenvolvimento de novas
tecnologias e fundamentos tericos. A seguir, apresentado um breve histrico da pesquisa
em redes neurais, sendo enfatizados alguns resultados e conceitos considerados relevantes no
desenvolvimento deste trabalho (VON ZUBEN, 1993).
Alguns dos mais destacados pesquisadores envolvidos no estudo e aplicao de redes
neurais nas ltimas trs dcadas esto relacionados na Tabela 2.1. Esta tabela dividida de
forma a ressaltar o perodo cronolgico mais significativo na atividade cientfica de cada
pesquisador, e tomada como base no processo de seqenciamento histrico.
Entradas
x1
w1
x2
.
.
xn .
w2
wn
Sada (y)
10
MCCULLOCH & PITTS (1943) projetaram a estrutura que conhecida como a primeira
rede neural. Estes pesquisadores propuseram um modelo de neurnio como uma unidade de
processamento binria (veja Figura 2.2) e provaram que estas unidades so capazes de
executar muitas das operaes lgicas. Este modelo, apesar de muito simples, trouxe uma
grande contribuio para as discusses sobre a construo dos primeiros computadores
digitais, permitindo a criao dos primeiros modelos matemticos de dispositivos artificiais
que buscavam analogias biolgicas.
Em 1948, N. WIENER (1948) criou a palavra ciberntica para descrever, de forma
unificada, controle e comunicao nos organismos vivos e nas mquinas.
Em 1949, D. O. HEBB (1949) apresentou uma hiptese a respeito da maneira com que a
fora das sinapses no crebro se alteram em resposta experincia. Em particular ele sugeriu
que as conexes entre clulas que so ativadas ao mesmo tempo tendem a se fortalecer,
enquanto que as outras conexes tendem a se enfraquecer. Esta hiptese passou a influir
decisivamente na evoluo da teoria de aprendizagem em redes neurais artificiais.
1943
McCulloch e Pitts
1948
Wiener
1949
Hebb
1957
Rosenblatt
1958
Widrow e Hoff
1969
Minsky e Papert
1960-1980
Kohonen, Grossberg,
Widrow, Anderson,
Caianiello, Fukushima,
gor Aleksander
1974
Werbos
1982
Hopfield
1986
Rumelhart e McClelland
11
.
.
x.
w0
w1
w2
wn
Limiar (yd)
Entradas
neurofisiologistas
foram
adquirindo
um
maior
conhecimento
sobre
implementao
de algoritmos adaptativos
foram
13
-1
Z
f ()
Z-1
f ()
-1
Z
f ()
Caractersticas Principais
As redes neurais artificiais tm sido desenvolvidas como generalizaes de modelos
cada conexo possui um peso associado, que, em uma rede neural tpica, pondera o
sinal transmitido; e
14
cada neurnio (ou unidade) aplica uma funo de ativao (geralmente no-linear)
sua entrada de rede (soma ponderada dos sinais de entrada) para determinar sua
sada.
Uma rede neural pode ser caracterizada por trs aspectos principais: (1) o padro de
conexes entre as unidades (arquitetura), (2) o mtodo de determinao dos pesos das
conexes (algoritmo de treinamento ou aprendizado) e (3) sua funo de ativao.
Os modelos neurais artificiais oferecem um paradigma atrativo, pois aprendem a
resolver problemas atravs de exemplos.
O treinamento de RNA's pode ser dividido em:
Existem vrios tipos de modelos de RNA's atualmente. Novos modelos (ou pelo
menos variaes de alguns j existentes) so propostos constantemente. A seguir
apresentamos uma lista com algumas das arquiteturas mais conhecidas at hoje. A distino
principal entre os modelos citados refere-se ao tipo de treinamento (URL 1).
Treinamento no-supervisionado:
1) Redes recorrentes:
Aprendizado Competitivo
Counterprogation (CPN)
15
Treinamento Supervisionado:
1) Redes Recorrentes:
2.4
Perceptron
Adaline, Madaline
Artmap
funo de ativao;
17
Funo Linear
Este tipo de funo de ativao muito utilizado nas unidades que compem a camada
de sada das arquiteturas MLP.
10
2.5
p=2
p=1
4
1.5
p=0.5
df(x)
f(x)
2
0
-2
-4
p=1
1
p=2
p=0.5
-6
0.5
-8
-10
-5
0
x
0
-5
(a)
0
x
(b)
Figura 2.5: (a) Funo linear. (b) Sua derivada em relao a entrada interna.
A sada linear com p = 1 simplesmente repete o sinal que entra no neurnio na sua
sada. A Figura 2.5 apresenta sadas lineares e suas derivadas.
A expresso para esta funo de ativao e sua derivada :
f(x) = p.x,
f ' (x) = p
Funo Logstica
A Figura 2.6 (a) mostra que a funo logstica possui intervalo de variao entre 0 e 1.
1
0.5
0.9
0.45
0.8
0.4
0.7
0.35
p=0.5
0.3
0.5
df(x)
f(x)
0.6
p=1
0.4
p=1
0.25
0.2
p=2
0.3
0.1
0.1
0.05
0
x
p=0.5
0.15
0.2
0
-5
p=2
(a)
0
-5
0
x
(b)
Figura 2.6: (a) Funo logstica. (b) Sua derivada em relao a entrada interna.
18
e px
1+ e
px
1
1 + e px
f ( x ) = p f ( x).(1 f ( x) )
e px e px
e
px
+e
px
= tanh( px),
f ( x) = p 1 f ( x) 2
0.8
1.8
0.6
1.6
p=0.5
0.4
1.2
df(x)
f(x)
0.2
0
-0.2
p=0.5
0.6
-0.6
0.4
-0.8
0.2
0
x
p=1
1
0.8
p=1
p=2
-0.4
-1
-5
p=2
1.4
(a)
0
-5
0
x
(b)
Figura 2.7: (a) Funo tangente hiperblica. (b) Sua derivada em relao a entrada interna.
19
Funo Arco-Tangente
Esta funo possui valores de ativao no intervalo (-/2, /2), e pode ser apresentada
como uma alternativa funo tangente hiperblica para a implementao computacional,
pois requer menos clculos para sua elaborao. Comparaes sucintas entre o tempo de
processamento das funes tanh(.), atan(.), e logstica mostram que a funo atan(.) possui o
menor tempo de processamento, seguida da funo logstica e por ltimo a funo tangente
hiperblica.
A funo arco tangente dada pela expresso abaixo:
f ( x) = atan( px )
f ( x) = p.
1
1+ x2
1.5
1.8
1
1.6
p=2
1.4
0.5
p=0.5
df(x)
1.2
p=1
0.8
p=1
-0.5
0.6
p=2
p=0.5
0.4
-1
0.2
-1.5
-5
-4
-3
-2
-1
0
x
0
-5
(a)
-4
-3
-2
-1
0
x
(b)
Figura 2.8: (a) Funo arco-tangente (atan). (b) Sua derivada em relao a entrada interna.
Os limites dos intervalos da funo apresentada acima podem ser transladados para o
intervalo (-1,1) comumente utilizado.
2.4.2 Noes Gerais
A Figura 2.9 apresenta uma arquitetura do tipo MLP com duas camadas
intermedirias. A rede apresentada aqui possui todas as conexes, o que significa que um
neurnio em qualquer camada da rede est conectado a todas as outras unidades (neurnios)
na camada anterior. O fluxo de sinais atravs da rede feito positivamente, da esquerda para a
direita, camada a camada.
20
Camada
de entrada
Primeira
camada
escondida
Segunda
camada
escondida
Camada
de sada
A Figura 2.10 mostra apenas uma parte da rede. Nesta rede, dois tipos de sinais podem
ser identificados:
calcular o sinal na sada da unidade, que geralmente expresso como uma funo
no-linear do sinal de entrada e pesos sinpticos associados e
21
Notao
i, j
nmero de camadas
yj(n)
ej(n)
wi,j(n)
uj(n)
fj(.)
xi(n)
sj(n)
taxa de aprendizagem
Todas as letras minsculas em negrito (a, b, c) representam vetores, as letras
22
(2.1)
(2.2)
que representa a condio inicial para a equao (2.1). As sadas das unidades localizadas na
ltima camada so consideradas as sadas da rede:
y = yM.
(2.3)
Pela Figura 2.11 percebemos que a sada da rede pode ser expressa apenas em funo
do vetor de entradas x, das matrizes de pesos Wm e dos vetores de limiares bm, cuja expresso
:
y3 = f3(W3f2(W2f1(W1x + b1)+b2)+b3).
Primeira camada
Terceira camada
Segunda camada
u1
y 1 = f1 (W1x + b1)
(2.4)
u2
y2 = f2 (W2y1 + b2)
u3
y 3 = f3 (W3y2 + b3)
23
(2.5)
Aps cada entrada ser aplicada rede, a sada produzida pela rede comparada com a
sada desejada. O algoritmo deve ajustar os parmetros da rede (pesos e limiares), com o
objetivo de minimizar a esperana matemtica do erro quadrtico mdio:
J() = E(e()2) = E((s - y())2),
(2.6)
Se a rede possui mltiplas sadas, a equao (2.6) pode ser generalizada para
J() = E(e()Te()) = E((s - y())T (s - y())).
(2.7)
(2.8)
onde a esperana do erro quadrtico foi substituda pelo erro na iterao n. Para no
sobrecarregar a notao empregada, consideraremos J ( ) = J ( ).
A lei de ajuste conhecida como steepest descent para minimizar o erro quadrtico
dada por:
J (n)
,
wim, j
(2.9)
J (n )
,
bim
(2.10)
24
,
=
wim, j uim wim, j
(2.11)
J
J uim
=
.
bim uim bim
(2.12)
O segundo termo de cada uma das equaes acima pode ser facilmente calculado, uma
vez que a ativao da camada m uma funo explcita dos pesos e limiares nesta camada:
S m 1
(2.13)
j =1
Entretanto
m
uim
m 1 u i
y
=
,
= 1.
j
wim, j
bim
(2.14)
J
,
u im
(2.15)
J
=
wim, j
m
i
y mj1 ,
(2.16)
m
i
(2.17)
J
=
bim
m
i
y mj1 ,
(2.18)
m
i
(2.19)
25
(y m1 )T ,
(2.20)
b m (n + 1) = b m (n)
(2.21)
onde
2.4.3.3
J
u m
1
J
J
m = u 2m .
u
M
J
m
u S m
(2.22)
u m +1
u m
u1m +1
m
u1
u 2m +1
= u1m
m +1
u S m +1
m
u1
L uu
L uu
M O M
u
u
L
u
u
m +1
S m +1
m
Sm
u1m+1
u 2m
u 2m+1
u 2m
m +1
1
m
Sm
m +1
2
m
Sm
m +1
S m +1
m
2
(2.23)
(2.24)
onde
f m (u mj )
(2.25)
= W m+1F& m (u m ),
(2.26)
f& m (u m )
j
u mj
26
onde
f& m (u1m )
0
m
m
&
F (u ) =
M
0
f (u 2m )
&m
m
m
f& (u S m )
0
0
(2.27)
J
u m
u m +1
J
J
=
= F& m (u m )( W m +1 )T
m
m
+
1
u u
u m +1
= F& m (u m )( W m +1 )T
m +1
(2.28)
(2.29)
Ainda existe um ltimo passo a ser executado para que o algoritmo de retropropagao fique completo. Precisamos do ponto de partida, M, para a relao de recorrncia
da equao (2.28). Este ponto obtido na ltima camada:
SM
M
i
J
(s y ) (s y )
=
=
M
ui
uiM
T
(s j y j ) 2
j =1
u iM
= 2( si yi )
yi
.
uiM
(2.30)
Como
M
M
yi
yiM f (u j ) & M M
=
=
= f (u j ),
uiM uiM
uiM
(2.31)
podemos escrever
M
i
= 2( si yi ) f& M (u Mj ).
(2.32)
= 2F& M (u M )(s y ).
(2.33)
27
u1
u2
u3
Retro-propagao
das sensibilidades
.1
F
.2
F
2
(W )T
.3
F
(W ) T
2 (y s)
Figura 2.12: Grfico arquitetural de uma rede com trs camadas, representando a fase de propagao
dos sinais e retro-propagao das sensibilidades.
(x 2 ,s 2 )
O problema deste critrio de parada que, para simulaes bem sucedidas, o tempo de
treinamento pode ser muito longo. Este critrio tambm requer o clculo da norma do vetor
gradiente. O Captulo 3 far um estudo sobre tcnicas de acelerao da convergncia deste
algoritmo.
Outra propriedade nica de um mnimo, e que pode ser utilizada como critrio de
parada, o fato de que a funo custo, ou medida de erro, Jmed() estacionria no ponto
= *. Assim, outro critrio de parada pode ser sugerido:
Uma variao deste critrio de parada fazer com que o valor do erro quadrtico
mdio Jmed() seja igual ou menor do que um limiar pr-especificado:
30
x0
mnimo
global da
superfcie
de erro
*
||J()|| = 0
desejado
Figura 2.13: Superfcie de erro com vrios mnimos locais. Todos os vales (joelhos) da curva
constituem mnimos locais com || J ( ) || = 0. Partindo do ponto x0, e utilizando como critrio de
parada Jmed() , o algoritmo no ser capaz de determinar um conjunto de pesos capaz de satisfazlo independente dos mnimos locais.
( ) (1 y )
J = ln yiM, n
n =1i =1
s i ,n
M 1 s i , n
i, n
(2.34)
onde a simbologia utilizada aqui a mesma adotada na Seo 2.4, ou seja, N o nmero de
amsotras, M o nmero de camadas, Sm a dimenso de cada camada e y so as sadas da
rede.
Mtodos hbridos que combinam diferentes critrios de parada podem ser utilizados.
Outro critrio de parada bastante til, e geralmente utilizado em conjunto com algum
dos critrios anteriores, a avaliao da capacidade de generalizao da rede aps cada poca
de treinamento. O processo de treinamento interrompido antes que a capacidade de
generalizao da rede seja deteriorada. Maiores detalhes sobre generalizao e procedimentos
de parada utilizando critrios que consideram o desempenho da rede aps o treinamento sero
estudados no Captulo 6.
Neste trabalho, utilizou-se como critrio de parada o ltimo apresentado, ou seja,
Jmed() , salvo especificao em contrrio.
31
F ( x1 , x2 ,..., x p ) =
i =1
w x w ,
f
0i
i
ij j
j =1
(2.35)
a sada da rede uma combinao linear das sadas das unidades intermedirias,
com 1, , M definindo os coeficientes dessa combinao.
32
w01
w11
+
w1p
1
xl1
w02
w21
+
0
1
2
xlp
Fl
w2p
M
1
w0M
wM1
+
wMp
Figura 2.14: Rede MLP como aproximador universal. Os parmetros da rede compem a equao
(2.35).
Exemplo 2.1:
Para ilustrar a capacidade de aproximao universal das redes do tipo MLP, considere o
seguinte exemplo: desejamos aproximar um perodo da funo sen(x)cos(2x) utilizando uma
composio aditiva de funes bsicas (f ser tomado como a tangente hiperblica) sob a
forma da equao (2.35). A Figura 2.15 ilustra o problema.
33
1
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
-0.2
-0.2
-0.4
-0.4
-0.6
-0.6
-0.8
-0.8
-1
-1
0
10
15
20
25
30
35
40
45
20
40
(a)
60
80
100
120
(b)
Figura 2.15: Aproximao universal. (a) Funo a ser aproximada (informao disponvel: 42
amostras do valor da funo em pontos igualmente espaados do domnio da funo). (b) Funo
bsica utilizada na aproximao. Tangentes hiperblicas, satisfazendo as condies estabelecidas pelo
teorema.
A rede utilizada para aproximar esta funo uma rede do tipo MLP com uma entrada,
cinco unidades intermedirias e uma sada, descrita na Figura 2.16. O algoritmo de
treinamento o de retro-propagao, apresentado anteriormente. Analisando esta figura, e
considerando que a rede apresentada possui sada linear, verificamos que y (sada da rede aps
a apresentao de cada amostra de treinamento) ser dada por:
y = w0,1 + w1,1 z1 + w2,1 z2 + w3,1 z3 + w4,1 z4 + w5,1 z5,
(2.36)
onde
k
z l = f w jl x j w0l ,
j =1
para l = 1,...,5,
(2.37)
onde f(.) a tangente hiperblica e k o nmero de entradas da rede. Esta expresso est de
acordo com a equao (2.35) do teorema da aproximao universal das redes MLP.
Aps treinar esta rede e definir um conjunto de pesos, vamos fazer uma anlise grfica
dos componentes da equao (2.36) que determinam a sada da rede.
A Figura 2.17 apresenta as funes de ativao de cada unidade intermediria ao final
do processo de treinamento. Percebe-se que as curvas apresentadas so as funes bsicas
(ver Figura 2.15(b) ) deslocadas em relao abcissa e devidamente escalonadas.
34
-1
z1
w0,1
z2
w1,1
z3
w2,1
w3,1
w4,1
z4
w5,1
z5
Figura 2.16: Rede MLP com treinamento via retro-propagao utilizada para aproximar a funo
sen(x)cos(2x). Funes de ativao do tipo tangente hiperblica.
35
z2*w21
z1*w11
5
2
4
3
2
0
1
0
-1
-1
-2
-2
-3
-3
0
10
15
20
25
30
35
40
-4
45
10
15
z3*w31
20
25
30
35
40
45
30
35
40
45
z4*w41
1
1
0
0
-1
-1
-2
-2
-3
-4
-3
0
10
15
20
25
30
35
40
45
30
35
10
15
20
25
z5*w51
4
3
2
1
0
-1
-2
-3
-4
0
10
15
20
25
40
45
Figura 2.17: Funes de ativao dos neurnios intermedirios aps o treinamento da rede
multiplicadas pelos pesos correspondentes da camada de sada. perceptvel que todas as funes
apresentadas so tangentes hiperblicas (funes bsicas), mas esto deslocadas em relao abcissa.
36
T - w01 - w11*z1
2
1
0
1
-1
0
-2
-1
-3
-4
-2
-5
-3
-6
-4
-7
0
10
15
20
25
30
35
40
45
10
15
20
25
30
35
40
45
40
45
4
3
4
2
2
1
0
0
-1
-2
-2
-4
-3
-6
-4
0
10
15
20
25
30
35
40
45
10
15
20
25
30
35
10
15
20
25
30
35
40
45
Figura 2.18: Sada desejada menos a soma da contribuio de cada neurnio da camada intermediria.
O resultado final (ltima curva) a diferena entre a sada desejada e a sada da rede, ou seja, a
combinao linear das sadas das unidades intermedirias. Como era de se esperar, ao final do
treinamento, a diferena entre a sada fornecida pela rede e a sada desejada (funo a ser aproximada)
aproximadamente zero.
37
w01 + w11*z1
12
15
10
10
8
6
5
4
2
0
-5
-2
-4
-10
-6
-8
-15
0
10
15
20
25
30
35
40
45
10
15
20
25
30
35
40
45
40
45
10
4.5
3.5
2.5
-5
1.5
0
10
15
20
25
30
35
40
45
10
15
20
25
30
35
0.5
-0.5
-1
-1.5
0
10
15
20
25
30
35
40
45
Figura 2.19: Combinao linear das sadas das unidades intermedirias. Os coeficientes da
combinao so os pesos da segunda camada. Esta figura apresenta a soma das curvas que compem a
Figura 2.17, implicando na composio aditiva (combinao linear) das funes bsicas dos neurnios
da rede.
38
1.0
0.5
0.0
-0.5
-1.0
0
10
15
20
25
30
35
40
45
Figura 2.20: Aproximao obtida pela rede MLP para a funo sen(x)cos(2x). Os *s so as amostras
de treinamento, e o trao contnuo () a aproximao da rede.
grandes plats;
pequenos vales;
41
Exemplo 2.2:
10
-5
-10
Mnimo local
-15
-20
Mnimo global
-2
-1.5
-1
-0.5
0.5
1.5
Figura 2.21: Exemplo escalar de uma funo com um mnimo local e seu mnimo global.
A Figura 2.21 apresenta a funo escalar dada pela expresso F(x) = 3x4 - 15x2 - 3x + 6,
que possui um mnimo local e seu mnimo global para x [-2,2].
Uma forma simples de reduzir as chances de se ficar preso em um mnimo local
escolhendo um conjunto de pesos iniciais timo. No Captulo 7 sero feitas consideraes
sobre diferentes procedimentos de inicializao do processo de treinamento que permitem a
determinao de mnimos locais mais adequados, ou at mesmo do mnimo global.
Exemplo 2.3:
Para investigar o comportamento da superfcie do erro quadrtico mdio para redes com
mltiplas camadas adotaremos um exemplo simples de aproximao de funes. A rede
utilizada neste problema ser apresentada na Figura 2.22.
v01
v02
w01
w11
v11
x
y
v21
w12
42
0.75
0.7
0.65
0.6
0.55
0.5
0.45
0.4
0.35
0.3
0.25
10
15
20
25
30
35
40
45
A Figura 2.23 apresenta o grfico da funo a ser aproximada (HAGAN et. al, 1997). O
objetivo treinar a rede da Figura 2.22 para aproximar a funo da Figura 2.23.
15
Plat
10
Vales
10
8
w(1,1)
6
5
4
2
0
15
10
15
10
-5
-5
5
v(1,1)
10
15
0
-5
w(1,1)
-5
v(1,1)
Figura 2.24: Superfcie do erro quadrtico e seu contorno em relao aos pesos v11 e w11.
15
10
2
5
1.5
v(0,1)
0
1
-5
0.5
-10
0
20
-15
30
-20
20
10
-20
-25
-10
-5
10
v(1,1)
15
20
25
30
v(0,1)
-40
-10
v(1,1)
Figura 2.25: Superfcie do erro e seu contorno em relao ao peso v11 e ao limiar v01.
43
10
Mnimo global
Mnimo local
1.5
6
4
w(0,1)
2
0
0.5
-2
-4
0
10
-6
10
5
-8
-5
-10
-10
-8
-6
-4
-2
0
v(0,1)
10
w(0,1)
-5
-10
-10
v(0,1)
Figura 2.26: Superfcie do erro quadrtico e seu contorno em relao aos limiares v01 e w01.
Para que seja possvel plotar o grfico do comportamento do funcional de erro, iremos
variar somente dois parmetros da rede a cada instante. As Figuras de 2.24 a 2.26 mostram a
superfcie de erro e seu respectivo contorno quando consideramos a sua variao em relao a
alguns pares de pesos da rede.
As partes mais escuras das superfcies representam vales, ou regies de mnimos. As
curvas apresentadas permitem verificar algumas caractersticas importantes da superfcies de
erro, como:
suavidade;
Fica claro na Figura 2.26 que a escolha inadequada de uma condio inicial para o
algoritmo de treinamento pode fazer com que o algoritmo convirja para um ponto sub-timo.
Como, geralmente, no conhecemos a superfcie de erro, torna-se necessria a utilizao de
vrias condies iniciais diferentes para aumentar as chances do algoritmo convergir para o
mnimo global. Maiores comentrios sobre condies iniciais timas do processo de
treinamento sero feitas no Captulo 7.
2.4.7.4 Escalonamento
Em princpio, redes neurais como as do tipo MLP treinadas com o algoritmo de retropropagao oferecem um grande potencial. Entretanto, para que este potencial possa ser
plenamente atingido, preciso superar o problema de escalonamento, que refere-se
qualidade do comportamento da rede (como o tempo de processamento e capacidade de
generalizao) quando a tarefa a ser realizada aumenta em dimenso e complexidade. Existem
44
conhecimento. Isso significa que, com base na configurao resultante da rede, a intensidade
das conexes ajustada com o objetivo de armazenar informao. Como resultado natural
deste processo de ajuste, o conhecimento armazenado fica distribudo pela rede neural. Esta
uma das mais importantes diferenas entre processadores de informao baseados em redes
neurais e aqueles baseados nos princpios da mquina de
VON
remtico;
dicente e
argumentativo.
que uma proposio verdadeira. Usualmente, o valor verdade representado por um valor
entre 0 e 1. Um valor-verdade igual a 0 significa que o sistema acredita que a proposio
falsa. Um valor-verdade igual a 1 representa que o sistema acredita que a proposio
verdadeira.
Nesse contexto, perceptvel que o treinamento de redes MLP realiza um argumento do
tipo indutivo, onde os pesos das conexes so modificados no intuito de realizar alguma
tarefa.
47