Documente Academic
Documente Profesional
Documente Cultură
Camadas
Murilo Teixeira Silva Lurimar Smera Batista
1 Introduo
A neurocomputao, um dos ramos de estudo da inteligncia articial, surgiu no meio acadmico em
1943, atravs de um artigo elaborado pelo matemtico Walter Pitts e pelo neurocientista Warren McCul-
loch. Neste artigo, foi elaborada a primeira modelagem matemtica baseada em um neurnio biolgico,
resultando no conceito de neurnio articial. Com base nestes estudos, e nas teorias de neurocincia
biolgica sobre o aprendizado apresentadas por Hebb, foi elaborada a primeira rede neural, em 1957, por
Frank Rosenbalt, rede esta batizada de Perceptron. (Batista, 2012)
Desde ento, o uso de redes neurais para soluo de problemas de dados estatsticos no-lineares e para
o reconhecimento de padres vem sendo um dos grandes ramos de ao da inteligncia articial, aplicando
estes conhecimentos em linhas de produo, na etapa de vericao de qualidade, no desenvolvimento de
sistemas especialistas para o monitoramento e controle industrial, soluo numrica de equaes diferen-
ciais, de forma que este conhecimento permeia tanto o meio cientco como industrial. Para o correto
funcionamento de uma rede neural, esta deve ser treinada com dados externos para a formao de co-
nexes sinpticas corretas para a resoluo de problemas. Assim, quando a rede for submetida a dados
reais, esta possa fazer uma deciso acertada.
O presente trabalho apresenta as teorias para a construo de Redes Neurais Articiais do tipo
Perceptron, para uma camada e mltiplas camadas.
1
Figura 1: Estrutura bsica de um Neurnio Articial
oj = (netj ) (2)
Portanto, observando as Equaes 1 e 2, um sinal s ser propriamente transmitido se a combinao
linear dos sinais ponderados superar o limiar de ativao do neurnio. Portanto, para que o neurnio
seja devidamente projetado, a funo e o limiar de ativao devem ser propriamente escolhidos. Alm
disso, os modelos de redes neurais em geral possuem algum tipo de regra de treinamento, que ajusta o
peso de suas conexes a depender dos padres apresentados, ou seja, dados os exemplos, uma rede neural
aprende o melhor caminho de conexes.
Com o objetivo de aumentar a entrada lquida da funo de ativao da rede neural, adiciona-se um
sinal constante entrada do sistema, sinal este conhecido como bias, simbolizado por bk . O uso do bias
tem o efeito de aplicar uma transformao am sada do combinador linear, deslocando a funo de
sada do combinador linear netj , em relao sada do combinador linear, de forma que mesmo que no
haja nenhuma entrada no neurnio, ou que a combinao linear entre os valores de entrada resulte em
um valor nulo, o valor do bias para esta situao permanece o mesmo, fazendo com que netj no se
anule. Em termos prticos, o bias pode ser considerado como uma entrada xa, anexando-se ao vetor
x = [x1 , x2 , . . . , xn ]T , gerando assim o vetor X = [x1 , x2 , . . . , xn , bk ]T . Em geral, bk = 1. (Haykin, 2001)
(Rojas, 1996)
2
2.2 Funes de Ativao
A funo de ativao () de uma neurnio pode assumir diversas formas, dependendo da aplicao
da rede neural da qual ele faz parte. Existem diversos tipos de funo de ativao, contudo aqui sero
apresentadas as duas mais comuns: a Funo de Limiar ou de Heaviside e a Funo Logstica ou Sigmide.
Dene-se matematicamente a Funo de Heaviside como apresentado na Eq. (3). O neurnio que
apresenta esta funo de ativao conhecido como modelo de McCulloch e Pitts, pois este foi o modelo
utilizado por eles em seu artigo seminal sobre as redes neurais articiais. (Haykin, 2001).
(
1, se v 0
(v) = (3)
0, se v < 0
Neste modelo de neurnio, ele pode assumir apenas dois estados, o de conduo ou o de bloqueio.
Este modelo apresenta dois inconvenientes, que cam mais evidentes quando em sua aplicao para redes
multicamadas. Primeiramente, o este modelo no inclui a fase refratria de um neurnio, onde este
nem conduz nem bloqueia o sinal. Alm disso, como ser visto posteriormente, a funo de ativao
de uma rede deve ser preferencialmente uma funo diferencivel, j que a retropropagao depende da
diferenciao desta funo. Contudo, para perceptrons de uma nica camada, a Funo de Heaviside
apresenta bons resultados para domnios linearmente separveis.
J a Funo Logstica, ou Sigmide, denida matematicamente pela Eq. (4), onde a o parmetro
de inclinao da funo logstica.
1
(v) = (4)
1 + exp(av)
Ao contrrio da funo de Heaviside, a Sigmide apresenta um comportamento refratrio, com limites
determinados pelo parmetro de inclinao da funo logstica. Quanto maior o valor de a, menor o in-
tervalo de valores para os quais o neurnio nem conduz, nem bloqueia. Alm do comportamento refratrio
apresentado pela sigmide, a sua principal vantagem a diferenciabilidade, alm da fcil implementao
computacional desta, dispensando novos clculos. A derivada da funo logstica apresentada na Eq.
(5). Como se faz notar, no necessrio obter computacionalmente um valor para a derivada da funo
sigmide, pois esta depende apenas do valor da funo sigmide no ponto.
d(v) exp(av)
= 0 (v) = = (v)(1 (v)) (5)
dv (1 + exp(av))2
Conhecendo os neurnios, possvel analisar as arquiteturas disponveis para montar uma rede neural.
3
A ltima arquitetura apresentada a recorrente. Nesta arquitetura, os dados obtidos na sada em um
instante de tempo
A forma em que as camadas se associam, bem como o mtodo de treinamento da rede e ajuste
de conexes entre neurnios denem as diferentes tcnicas de redes neurais. Dentre as arquiteturas
apresentadas, as mais populares so a os Perceptrons de uma camada e de mltiplas camadas. Em geral
estas arquiteturas esto associadas a um processo de aprendizagem especco, de forma que determinada
regra de aprendizado mais empregada ou mais adequada a uma arquitetura. A tcnica apresentada
a seguir a mais comum para redes do tipo perceptron de uma e mltipla camada, que a tcnica de
retropropagao de erro, ou error backpropagation.
4
diferentes. Esta capacidade de generalizao tambm pode fazer com que a rede incorra em erro. Em
resumo, Redes Neurais Supervisionadas so redes treinadas para uma determinada funo, com base
em um conjunto pr-denido de pares estmulo-resposta previamente conhecido, ainda possuindo uma
capacidade de generalizao.
Contudo, nem sempre possvel conhecer previamente um determinado conjunto de pares entrada-
sada para o sistema. Nestas situaes, o crebro humano cona apenas em suas informaes prvias
sobre o evento ou o ambiente e em sua capacidade de generalizao. Uma vez conhecido este novo evento,
forma-se uma espcie de "resposta padro"para aquele evento, gerando assim o par entrada-sada para
esta situao. Para simular esta capacidade em uma rede neural, o processo de aprendizado utilizado o
aprendizado no supervisionado. Neste paradigma, no existe um par predenido de entrada-sada para a
rede responder. Com base em suas observaes anteriores ou informaes a priori existentes na memria
da rede, a rede neural utiliza processos estatsticos e matemticos para obter um resultado aceitvel
para a situao apresentada. Este tipo de rede requer um conhecimento mais apurado de matemtica
e estatstica e mais complexa em sua implementao. Redes deste tipo so altamente especializadas e
constituem a fronteira do conhecimento em redes neurais.
As tcnicas aqui apresentadas so tcnicas de aprendizado supervisionado aplicadas em redes neurais
articiais do tipo Perceptron de uma e mltiplas camadas.
Para obter netj matricialmente, deve-se ento multiplicar o vetor x por um vetor linha Wj , que contm
os pesos referentes ao neurnio j. Para que a multiplicao seja correta, Wj = [w1j , w2j , . . . , wpj , wbj ],
ou seja, com ordem 1, (p + 1). Uma vez computado netj , este passar pela funo de ativao varphi,
gerando o sinal de sada do neurnio j . Considerando uma entrada com apenas um neurnio, a sada desta
camada estar representada pelo vetor o(1) j = oj . Para uma camada com mais neurnios, a dimenso do
vetor o(1)
j ser m, 1 , onde m o nmero de neurnios da camada j. Vetorialmente, o(1)
j pode ser calculado
como na Eq.(7).
5
Evidentemente, as matrizes para os pesos sinpticos deve ser dimensionada de forma a atender o
nmero de entradas para cada camada. Uma vez que o sinal chegue camada de sada, todos os sinais
sero comparados com suas respectivas sadas esperadas, resultando em uma funo de erro, descrita pela
Eq. (9), considerando uma camada de sada n com p neurnios e onde ti a sada esperada para cada
neurnio. Esta funo descreve o erro quadrtico mdio entre a sada da rede e o valor esperado para
esta.
p
1 X (n)
E= ko ti k2 (9)
2 i=1 i
Levando em considerao a teoria conexionista, nota-se que cada conexo sinptica deve ser tratada
de forma diferente, com os pesos sinpticos alterados de forma condizente. Para tal, deve-se perceber
qual a parcela do erro total cabe a cada peso sinptico. Assim, deve-se obter um gradiente de erro para
cada conexo sinptica, como apresentado na Eq. (10)
E E E
E = , ,..., (10)
w11 w12 wij
Uma vez conhecidos os valores de erro para cada um dos pesos sinpticos, pode-se obter o valor a
ser ajustado para cada peso na rede neural, denido na Eq. (11). No clculo de wij , a taxa de
aprendizado para a rede, um parmetro que dene o tamanho do passo para cada iterao na direo
do gradiente negativo. O ajuste do parmetro importante, pois em funes onde existem muitos
mnimos e com pouca signicncia, um grande passo pode fazer com que o programa tenha diculdades
em convergir.
E
wij = (11)
wij
Portanto, ao encontrar o erro E aps o nal do passo feedforward, deve-se encontrar a derivada
parcial do erro em relao a cada peso sinptico para que seja obtido o valor para a atualizao dos
pesos sinpticos. Este o objetivo da etapa de retropropagao do erro, determinar os valores do erro
retropropagado de forma a atualizar as funes peso. Desta forma, preciso descobrir o valor de wE
ij
.
Considerando o valor de sada para cada neurnio oi constante para o passo de retropropagao, obtm-se
a equao (12)
E E
= oi (12)
wij oi wij
O erro retropropagado no n j apresentado como o gradiente local j , que descrito na Eq. (13).
E
j = (13)
oi wij
Assim, o erro retropropagado dado pela Eq. (14).
E
= oi j (14)
wij
O clculo para obter o valor do gradiente local depende da topologia da rede. Considerando uma rede
neural de mltiplas camadas com funo de ativao sigmide, o gradiente local pode assumir dois valores
possveis, apresentados a seguir, onde n a camada em questo, ej o erro associado a cada neurnio
da ltima camada(ej = (onj tj ), e q = 1, 2, . . . , m cada neurnio da camada seguinte: (Haykin, 2001)
(Rojas, 1996)
6
1. Propagao do sinal de entrada at a sada (feedforward )
2. Clculo o erro quadrtico mdio na sada (E ) e do erro para cada neurnio da ltima camada (ej )
4 Concluso
No desenvolvimento da Inteligncia Articial, as redes neurais ganharam destaque devido sua versa-
tilidade e aplicabilidade em problemas prticos, como aproximao de funes, classicao de padres
e em alguns casos de controle adaptativo. Neste artigo foi apresentado um contexto terico do uso de
redes neurais, apresentando o perceptron de mltiplas camadas, uma das redes mais populares e versteis
utilizadas na computao, engenharia, entre outros ramos. Percebe-se que a rede neural de uma camada
um caso particular da rede neural de mltiplas camadas, esta segunda com vastas aplicaes.
Em trabalhos futuros visa-se demonstrar o uso de redes neurais no supervisionadas, explorando
outras topologias mais adequadas a problemas de classicao e identicao de padres.
Referncias
Brigida Cristina Fernandes Batista. Solues de Equaes Diferenciais Usando Redes Neurais de Mltiplas
camadas com os mtodos da Descida mais ngreme e Levenberg-Marquardt. PhD thesis, 2012.
Anita Maria da Rocha Fernandes. Inteligncia Articial: noes gerais. Visual Books, 2005.
Simon Haykin. Redes neurais. Grupo A, 2001.
R Rojas. Neural networks. a systematic approach, 1996.