Sunteți pe pagina 1din 54

Rseaux de Neurones

Artificiels
Manuel Clergue
Introduction
Dfinition
Contexte Scientifique
Historique
Fondements Biologiques
Dfinition
Les rseaux de neurones artificiels sont des rseaux
fortement connects de processeurs lmentaires
fonctionnant en parallle.
Chaque processeur lmentaire (neurone artificiel)
calcule une sortie unique sur la base des informations
quil reoit.
Parallel Distributed Processing :
Calculs lmentaires et parallles
Donnes/informations distribues dans le rseau
Inspiration naturelle : analogie avec le cerveau
Contexte Scientifique
Neuromimtisme et sciences de la cognition :
comprendre et simuler le fonctionnement du cerveau
reproduire les phnomnes cognitifs (I.A.)
Connexionisme :
outils dingnierie performants
Intelligence computationnelle :
une intelligence base sur le calcul numrique
oppose l intelligence artificielle (calcul symbolique)
rseau de neurones; logique floue; algorithmes gntiques; ...
Historique
la prhistoire
James [1890] :
mmoire associative
McCulloch & Pitts [1943]
A logical calculus of the ideas immanent in nervous activities
neurone formel
Les ordinateurs codage binaire (Von Neumann)
L intelligence artificielle (calcul symbolique)
Les rseaux de neurones
Hebb [1949]
Organisation of behavior
le conditionnement est une proprit des neurones
loi dapprentissage
Historique
les premiers succs
Rosenblatt [1957] :
le perceptron, premier modle oprationnel
reconnaissance d une configuration apprise
tolrance aux bruits
Widrow [1960] :
adaline, adaptive linear element
Minsky & Papert [1969] :
impossibilit de classer des configurations non linairement
sparables
abandon (financier) des recherches sur les RNA
Historique
lombre et le renouveau
[1967 - 1982] :
Mise en sommeil des recherches sur les RNA. Elles
continuent sous le couvert de domaines divers.
Grossberg, Kohonen, Anderson, ...
Hopfield [1982] :
modle des verres de spins
Boltzmann [1983] :
premire rponse Minsky et Papert
[1985] :
la rtro-propagation du gradient et le perceptron multicouche
Rumelhart, McClelland, [1985] :
le groupe Parallel Distributed Processing

Domaines dapplication
Classification :
rpartir en plusieurs classes des objets
donnes quantitatives informations qualitatives
reconnaissance des formes
Recherche Oprationnelle
rsoudre des problmes dont on ne connat pas la solution
Mmoire Associative
restituer une donne partir dinformations incompltes et/ou
bruites.
Fondements Biologiques
Structure des neurones
Le systme nerveux est compos de 10
12
neurones
interconnects. Bien quil existe une grande diversit
de neurones, ils fonctionnent tous sur le mme
schma.
Ils se dcomposent en trois rgions principales :
Le corps cellulaire
Les dendrites
L axone
Fondements Biologiques
Fonctionnement des neurones
Linflux nerveux est assimilable un signal lectrique
se propageant comme ceci :
Les dendrites reoivent linflux nerveux d autres
neurones.
Le neurone value lensemble de la stimulation reue.
Si elle est suffisante, il est excit : il transmet un signal
(0/1) le long de l axone.
Lexcitation est propage jusquaux autres neurones qui y
sont connects via les synapses.

Fondements Biologiques
Fonctionnement des neurones
Fondements biologiques
Le cerveau
Trois couches successives :
Le cerveau reptilien (la couche la plus ancienne)
Lhippocampe (cerveau archaque)
Le cortex (la couche la plus rcente)
Dcoupage en rgions :
au niveau morphologique et fonctionnel
Adaptation : renforcement de lefficacit synaptique:
renforcement des corrlations (loi de Hebb)
Les modles Mathmatiques
Le neurone de McCulloch & Pitts
Le neurone formel
Architecture gnrale d un RNA
Structure d Interconnexion
Le Neurone de
McCulloch & Pitts
0
Inh
Exc
Exc
1
1
1.0
1.0
2.0
1
Le Neurone de
McCulloch & Pitts
1
Inh
Exc
Exc
X
X
0
Le Neurone Formel
Le neurone formel, lunit lmentaire dun RNA, se
compose de deux parties :
valuation de la stimulation reue (fonction E)
valuation de son activation (fonction f)
Il est caractris par :
son tat X (binaire, discret, continu)
le niveau dactivation reu en entre U (continu)
le poids des connections en entre
La fonction dentre :
somme pondre des signaux dentre



Le biais dentre (bias input):
unit fictive dont le poids permet de rgler le seuil de
dclenchement du neurone

Le Neurone Formel
Les fonctions dactivation :
Le Neurone Formel
La fonction linaire et la fonction seuil :
Le Neurone Formel
Output (sortie)
Activation de la cellule
Input (entres)
Somme pondre des entres
minimum
maximum
L'activation augmente en mme temps
que la somme pondre des entres. Elle
varie entre un minimum et un maximum
0
fonction linaire du type
y = x
Output (sortie)
Activation de la cellule
Input (entres)
Somme pondre des entres
minimum
maximum
0
seuil
L'activation passe brutalement de son
minimum son maximum, une fois atteint
le seuil critique en entre.
La fonction sigmode :
Le Neurone Formel
i
t+1
a
=
1
1 + e

X
i
S
i
T
avec X
i
= W
ij
a
j
t
Architecture gnrale dun RNA
Rseau
Stimulus Rponse
0
1
0
1
1
1
0
0
1
1
0
0
1
0
1
0
Pattern
d'entre
Pattern
de sortie
codage
dcodage
Structure dInterconnexion
propagation avant (feedforward)
couche dentre
couche cache
couche de sortie
rseau multicouche
rseau connections
locales
propagation des activations : de l entre vers la sortie
Structure dInterconnexion
modle rcurrent (feedback network)
propagation des activations :
synchrone : toutes les units sont mises jour simultanment
asynchrone : les units sont mises jours squentiellement
Apprentissage
Dfinition
Apprentissage supervis
Apprentissage non supervis
Rgles d apprentissage
Dfinition
L apprentissage est une phase du dveloppement dun
rseau de neurones durant laquelle le comportement du
rseau est modifi jusqu lobtention du comportement
dsir.
On distingue deux grandes classes dalgorithmes
dapprentissage :
Lapprentissage supervis
Lapprentissage non supervis

Apprentissage supervis
superviseur
rseau
sortie dsire
sortie obtenue
erreur
Apprentissage non supervis
rseau sortie obtenue
Rgles dapprentissage
Lapprentissage consiste modifier le poids des
connections entre les neurones.


Il existe plusieurs rgles de modification :
Loi de Hebb : Aw
ij
=Ra
i
a
j

Rgle de Widrow-Hoff (delta rule) : Aw
ij
=R(d
i
- a
i
)a
j

Rgle de Grossberg : Aw
ij
=R(a
j
- w
ij
)a
i
i j
W
ij

Rgles dapprentissage


Loi de Hebb :
Si deux units connectes sont actives simultanment, le poids
de leur connexion est augment ou diminu. R est une constante
positive qui reprsente la force d'apprentissage (learning rate).


ai = -1 ai = 1
aj = -1 AWij = R AWij = -R
aj = 1 AWij = -R AWij = R

j i
w
ij
AW
ij
= Ra
i
a
j
Rgles dapprentissage
ai = 0 ai = 1
di = 0 AWij = 0 AWij = -R
di = 1 AWij = R AWij = 0


Loi de Widrow-Hoff (delta rule) :
j i
w
ij
AW
ij
= R(d
i
a
i
)a
j
ai activation produite par le rseau
di rponse dsire par l'expert humain
Par exemple si la sortie est infrieure la rponse dsire, il
va falloir augmenter le poids de la connexion condition bien
sr que l'unit j soit excitatrice (gale 1). On est dans
l'hypothse d'units boolennes {0,1}.
Rgles dapprentissage
Loi de Grossberg :
On augmente les poids qui entrent sur l'unit gagnante
ai s'ils sont trop faibles, pour les rapprocher du vecteur
d'entre aj. Cest la rgle dapprentissage utilise dans
les cartes auto-organisatrices de Kohonen
j i
w
ij
( )
ij j i ij
W a Ra W = A
Diffrents modles
Le perceptron
Limite du perceptron
Le perceptron multicouche
Le modle de Hopfield
Le modle d Elmann
Les rseaux ART
Le perceptron
Le perceptron de Rosenblatt (1957) est le premier RNA
oprationnel.
Cest un rseau propagation avant avec seulement
deux couches (entre et sortie) entirement
interconnectes.
Il est compos de neurones seuil.
L apprentissage est supervis et les poids sont modifis
selon la rgle delta.
Le perceptron
i
Wij
Entre Sortie
a
i
{-1,+1 }
j=n
j=1

a
j
{1, 0 }
Rtine
Traits significatifs Classification
Limite du perceptron
Le perceptron est incapable de distinguer les patterns
non sparables linairement [Minsky 69]

input P 0 1 0 1
input Q 1 0 0 1
ET 0 0 0 1
XOR 1 1 0 0
0
0
0
1
0
1 0
1
P
Q
fonction ET logique
patterns sparables linairement
P
Q
fonction XOR (ou exclusif)
patterns non sparables linairement
0
1 0
1
1 0
1
0
Le perceptron multicouche
architecture
S Y S T E M E
couche
cache
(hidden) j
couche
d'ent re
(input ) i
couche
de sortie
(out put) k
E
n
v
i
r
o
n
n
e
m
e
n
t
E
n
v
i
r
o
n
n
e
m
e
n
t
1
1
bias
bias
Le perceptron multicouche
activation
j
a
j
i
a
W
ji
bias = 1
W
bi as
x
j
= w
ji

a
i
a
j
= f (x
j
)
a = f x ( ) =
1
1+e
x
a = f x ( ) =
e
x
e
x
e
x
+ e
x
fonction tangente hyperbolique fonction sigmode
( ) ( ) ( ) ( ) x f x f x f =
'
1 . ( ) ( ) ( ) ( ) ( ) x f x f x f + =
'
1 . 1
Le perceptron multicouche
apprentissage : retropropagation de lerreur
Calcul activations
units caches
Calcul activations
units de sortie
Calcul de l'erreur
sur les units de sortie
Calcul de l'erreur
sur les units caches
Apprentissage
des units caches
Apprentissage
des units de sortie
Calcul Erreur
entre
sorties dsires
et
sorties obtenues
Ajustement des poids
Units
caches

Units
d'entre

Units
de sortie

i
a
j
a
k
a
1
2
3
4 5
6
( )
j j
ij
i
i j
S f a
W a S
=
=

( )
k k
jk
j
j k
S f a
W a S
=
=

k k k
a d e =
( )
k k k
S f e ' = . o
( )
j k
k
jk j
S f W '
|
.
|

\
|
=

. o o
i j ij
a W co = A
j k jk
a W co = A
Le perceptron multicouche
paramtres et performances
Les paramtres de lapprentissage

La force dapprentissage
Le momentum
Cumulative Delta-Rule
Les performances du rseaux
Erreur globale sur le jeu de test
Gnralisation

1
+ = A
t
ij i j
t
ij
W a W o co
Le modle de Hopfield
la thorie des verres de spin : un modle dynamique
La renaissance du connexionisme
thorie des verres de spin
modle dynamique et rcurrent
rseau compltement connect
apprentissage par loi de Hebb
Le rappel associatif se fait en minimisant une fonction
dnergie pour tomber dans lun des attracteurs
correspondant aux formes mmorises
Si on a N units dans le rseau, on peut mmoriser
0,14 pattern diffrents

Le modle de Hopfield
les mmoires associatives
Dans une mmoire informatique classique, une information est
retrouve partir d'une cl arbitraire. Par opposition, une
donne entrepose dans une mmoire associative est
accessible partir d'informations qui lui sont associes.
La fonction d'une mmoire associative est de restituer une
information en tenant compte de sa perturbation ou de son
bruit. L'information doit alors se rapprocher d'une information
apprise ou connue.
Si les mmoires associatives restituent des informations
qu'elles ont apprises partir d'entres incompltes ou
bruites, il existe aussi des mmoires htro-associatives qui
en plus peuvent associer plusieurs informations entre elles.

Le modle de Hopfield
larchitecture du rseau
Les neurones de Hopfield sont discrets et rpondent une
fonction seuil. Pour des commodits dutilisation, on considre
une fonction seuil trs simple :
1, si x > 0
F(x) =
-1, sinon
Le rseau est compltement connect, et les connexions sont
symtriques.
Les valeurs dentre sont binaires (-1, 1) mais peuvent tre
aisment remplaces par les valeurs binaires usuelles (0, 1) en
utilisant une simple transformation. A
(-1,1)
= 2.A
(0,1)
- 1
Le modle de Hopfield
principe de fonctionnement
Apprentissage (loi de Hebb):




Utilisation :
un vecteur est prsent au rseau
les neurones calculent leurs sorties
les sorties sont propages et on itre jusqu la convergence
0
1
=
= =

e
ii
P p
p
j
p
i ji ij
W
s s
P
W W
Le modle de Hopfield
principe de fonctionnement
Modification de ltat dun neurone




Energie du rseau

= =
= >
= <

e

e

N j
t
i
t
i
t
j ij
N j
t
i
t
j ij
N j
t
i
t
j ij
s s s W
s s W
s s W
1 1
1
1
alors 0 . si
1 alors 0 . si
1 alors 0 . si

e
=
N j i
i j ij
s s W E
,
. .
2
1
Le modle de Hopfield
application : reconnaissance de caractre
Le modle dElman
le modle rcurrent de rtro-propagation
apprentissage : rtropropagation
application : reconnaissance de srie temporelle

Units caches
Units de contexte
(retour des units caches)
input
f(x)
etc.
etc.
output
Frquence
Le modle dElman
le modle rcurrent de rtro-propagation
Phase dapprentissage
On prsente une srie temporelle au rseau (f(x)=sin(F*x))
La sortie dsire est fixe (F)
Pour chaque lment de la srie : rtropropagation
On recommence pour deux ou plus valeurs de F
Reconnaissance
Lorsquon prsente une fonction de frquence apprise,
aprs quelques itrations, le rseau russi la reconnatre
Gnralisation
Lorsquon prsente une fonction de frquence non apprise,
le rseau peut interpoler cette dernire

Les rseaux concurrentiels
prsentation
Un rseau concurrentiel comporte une couche de
neurone dite comptitive.
Dans cette couche :
les neurones ragissent diffremment aux entres
un neurone est lu vainqueur
le gagnant le droit de modifier ses poids de connexion

Type d apprentissage : supervis / non supervis
Les rseaux concurrentiels
fonctionnement
Fonction dactivation

Si S
j
est le max sur toute la couche comptitive, a
j
= 1
Sinon a
j
= 0
Apprentissage
La somme des poids arrivant sur une unit comptitive reste
constante et gale 1
Seule lunit gagnante a le droit de modifier ses poids, afin
quils se rapprochent encore plus du vecteur dentre (mais
ils restent normaliss)
Comptition par inhibition
Il est possible de simuler la comptition par des connections
inhibitrices entre les units comptitives

=
i
i ij j
a W S
Les rseaux concurrentiels
les cartes topologique de Kohonen
Un rseau de Kohonen est compos d une couche
d entre et d une couche comptitive.
La couche comptitive possde une structure
topologique, ce qui permet de dfinir un voisinage pour
le neurone.
L apprentissage est
non supervis.

Les rseaux concurrentiels
les cartes topologique de Kohonen
Les voisins proches du gagnant modifient positivement leurs
poids
Les voisins loigns du gagnant modifient ngativement leurs
poids
Aprs lapprentissage, les poids dcrivent la densit et la structure
de la rpartition des vecteurs dentre
Application :
Classification non supervise
Rduction du nombre de dimension
Analyse en composantes principales
Les rseaux concurrentiels
les cartes topologique de Kohonen : un exemple
Les rseaux de Kohonen
la contre propagation
Principe : combiner apprentissage non supervis et
apprentissage supervis
3 couches :
Une couche dentre
Une couche SOM
Une couche perceptron
La couche auto-organisatrice effectue une sorte de
prtraitement des donnes (rduction de la
dimension, regroupement, )
Les rseaux ART
[Carpenter & Grossberg 87]
Les rseaux ART sont utiliss comme dtecteurs de
caractristiques pour classer des patterns prsents au systme,
tels quils arrivent et sans autre information que leur description
interne, grce aux deux couches de neurones F1 et F2 :
F1 qui dtecte les caractristiques des patterns tudis.
F2 qui classe ces patterns en catgories.
Cest un apprentissage non supervis qui fait appel
simultanment aux deux aspects de la mmoire :
la mmoire long terme (LTM) qui gre les interactions entre
les couches F1 et F2 et senrichit pendant la phase
dapprentissage.
la mmoire court terme (STM) qui dcrit ltat interne des
couches FI et F2 et se modifie chaque cycle du systme.

S-ar putea să vă placă și