Documente Academic
Documente Profesional
Documente Cultură
râr
e
p e
gr ad
ien
t
�
f(
x+�
)≈f(
x)+�
f(x)
�
f(
x)>0→ fc
res
te
�
f(
x)<0→ fs
cad
e
�
Da
ca�>0→ f(
x−�·s
ign
(f(
x))≤f(
x)
cobo
râr
e
p e
gr ad
ien
t
în
1D
Tipuri
de
puncte
cri-ce
�
x e punct critic → f (x) = 0
Minim
local
vs
minim
global
Cobo
râr
e
p e
gr ad
ien
t
în
R
s
w
ar e
s
=
J
(n +1
)
+
L( J
+1)
ponde
ri
k+1 k k
w =w −ρ·∇wkE(
w)
cobo
râr
e
p e
gr ad
ien
t
în
s
d imen
siun
i
Incremental
vs
batch
Ap
roxim eaz
ă
g r adi entu l
p e
b a z
a
num a
i
a
m
’
e x emp
le
(min
i-‐b
atch
)
{ x (1
),
x(2,
)
x(3),…
x(m’
)}
�
1
m
� � L
(j) (
j) 2
E(
w)= � (
dl −yl )
m j=1
l
=1
k+1 k k
w =w −ρk+1 ·∇wkE(
w)
r
ata
l a
i t e
ra-a
k +1
,
t r ebuie
sa
s c ad a
la
fi e c
are
it e
ra-
e,
al^ e
l
in t
rodu
ce
z gomo
t
P
entru
con ve
rg en t
a
e ste
sufi c i en t
c a :
∞
� �∞
ρk =∞, ρ2
k <∞,
k=1 k=1
Dezavantaje
backpropaga-on
10
-‐5
1
10
1
-‐1
-‐5
10
-‐5
1
10
1
-‐1
-‐5
Mom entul:
a cumu leaz ă
contribu ți a
gr ad ienț
ilo r
d
in
tr e
cut
In tu i
ție:
ac
c el e
r e ază
cobo râ
r ea
în
dir e
cț
i a
m edi e,
p r evin e
o scil
ați
ile
Învățare
cu
moment
P ar am etru l
0< =
alph a
< =1
con t
ro le az ă
r ata
cu
c ar e
con t
ribu ți a
d
in
tr e cu t
a
gr adi en țilo r
influ e ț e ază
dir ec ți a
a c
tu a lă
d
e
cobo r âr e
S e
r ea
liz ea ză
un
upd a t e
fo a r t
e
ma r e
în
mom en tu l
în
care
s e
a cumu l e az ă
fo a
r t e
mu lți
g
r ad ien ți
cu
a c e eași
d
i r ec ți e
Învățare
cu
moment
Metoda
momentelor
adaugă
un
termen
reprezentând
“momentul”
la
ecuațiile
de
update
(3.2
și
3.9)
Po
t
a
vea
p a r
ame
tru
l
alph
a
c ar
e
s e
mod ifi
că
în
-mp:
P
en tru
ac eea și
d
i r e cț ie
a
d e r
iv at e
i
p
a rț
iale
d ar
d e
m a gn itud in e
m ai
m
i că
a
lgo r
i tmu l
a
c ce le rea ză.
Pentru
di rec
ț i e
opu s ă,
a l go ri
tmu l
dece
l er ea ză.
În
văț
are
cu
mom
ent
M
etod
a
mom en t elo
r
ad au g ă
un
t e rm en
r epre z en
tând
“
momentul”
l a
ecu aț
i
ile
d
e
upd a
t e
(3 .2
și
3
.9)
Mom en
tu l:
acumu leaz ă
con tr
ibu ț
ia
gr ad ienților
d
in
t r ecut
P en tru
r
eg iun i
abrup t e
t
erm enu
l
d e
mom en t
ar e
magnitud in e
mi că
Rată
de
învățare
variabilă
-‐
trade-‐off
pentru
rate
de
învățare:
-‐valoare
mare:
convergență
inițială
rapidă
(bună
pentru
regiuni
platou),
dar
apoi
oscilații
(divergență
de
la
soluția
op-mă)
-‐
valoare
mică:
convergență
lentă
(se
fac
multe
update-‐uri),
previne
oscilațiile
-‐
diverse
euris-ci
legate
de
gradient,
de
valoarea
funcției
obiec-v
Rată
de
învățare
variabilă
-‐ exemplul
1:
rate
de
învățare
constante
invers
proporționale
cu
numărul
de
intrări
ale
unui
perceptron
(pentru
a
preveni
“saturația”
perceptronilor
cu
funcții
de
ac-vare
sigmoide)
-‐ dacă
valoarea
funcției
eroare
E
crește
cu
un
procent
x
(în
MATLAB
max_perf_inc
=
1.04
implicit)
după
realizarea
unui
update,
atunci
update-‐ul
nu
se
mai
realizează,
rata
de
învățare
curentă
se
înmulțește
cu
o
valoarea
subunitară
0
<
lr_dec<
1
(implicit
parametrul
lr_dec
=
0.7),
iar
coeficientul
mc
(în
cazul
în
care
este
folosit)
care
specifică
momentul
se
setează
la
0.
-‐ dacă
valoarea
funcției
eroare
E
scade
după
realizarea
unui
update,
se
acceptă
acest
update
iar
rata
de
învățare
curentă
se
înmulțește
cu
o
valoarea
supraunitară
(parametrul
lr_inc
=
1.05
implicit).
Dacă
coeficientul
mc
care
specifică
momentul
este
setat
la
0,
se
resetează
la
valoarea
inițială.
Metode
de
op-mizare
Până
acum
am
folosit
update-‐uri
pe
bază
de
gradienți
(derivate
de
ordinul
întâi)
ma
tri cea
H
e ssi an a,
tr ebui e
s a
fi
e
po
zi- v
d efin i
t ă
p
entru
ca
upd at e
-‐
ul
să
m e a
r g ă
în
dir ecț
ia
bună
A
lgo
ri
tm
fo art e
în c
e t,
tr ebu i e
s ă
in v
ers
eze
m a t
ric
ea
H
ess
iana
în
fi e c
ar e
pun c t.
Gradienți
conjugați
Regula Polak-‐Ribiere: