Documente Academic
Documente Profesional
Documente Cultură
Tudor Berariu
• Scopul temei ı̂l reprezintă ı̂nt, elegerea problemei explorării ı̂n medii cu recompense rare,
precum s, i implementarea unor strategii eficiente de explorare pentru algoritmul SARSA.
1
Problema explorării
2
Algoritmul SARSA
3
Algoritmul SARSA
3
Algoritmul SARSA
3
Algoritmul SARSA
3
Strategii de explorare: -greedy
• O poltică -greedy este una care alege ı̂n 1 − din cazuri cea mai bună act, iune, iar ı̂n
restul cazurilor alege act, iunea aleator (uniform).
• O strategie practică de a reduce explorarea cu timpul este aceea de a varia invers
porport, ional cu numărul de vizite ı̂n starea respectivă N(s) (c este o constantă):
c
(s) =
N(s)
procedure -Greedy(s, q, )
A∗ ← {a | q (s, a) = max q (s, a0 )}
a0
(s) + 1−(s) , a ∈ A∗
|A| |A∗ |
p (s, a, q) ← (s)
|A| ,a ∈ / A∗
return a ∼ p (s, ·, q)
end procedure
4
Strategii de explorare: Softmax (Boltzmann)
e β(s)q(s,a)
p (a | s, q) = P β(s)q(s,a0 )
a0 e
unde
log (N (s))
β (s) =
max |q (s, a1 ) − q (s, a2 ) |
a1 ,a2 ∈A×A
• Explorarea Boltzmann alege cu o probabilitate mai mare o act, une ce promite un câs, tig
mediu mai mare.
• La fel ca ı̂n cazul degradării lui ı̂n cazul -greedy, ı̂n explorarea Boltzmann β (s) tinde la
zero atunci când numărul de vizite tinde la infinit, iar politica devine lacomă.
5
Strategii de explorare: Upper Confidence Bound
• Strategia UCB adaugă valorilor q un bonus de explorare bazat pe contorizarea dăt, ilor ı̂n
care o act, iune a fost luată ı̂ntr-o stare.
• Termenul de explorare ı̂ncurajează alegerea act, iunilor luate mai put, in ı̂n trecut.
• Bonusul de explorare se degradează ı̂n timp.
• Termenul c controlează nivelul de explorare.
procedure UCB(s,hq, c) q i
return argmax q(s, a) + c log N(s)
N(s,a)
a∈A
end procedure
6
Mediul de test
• Se va testa eficient, a celor trei metode de explorare pe medii1 ı̂n care agentul observă
part, ial mediul s, i are una din două misiuni:
• Se deplasează ı̂n colt, ul opus al camerei pentru a primi o recompensă (Empty).
• Caută o cheie, o ridică, deschide o us, ă s, i apoi culege recompensa (DoorKey).
1 https://github.com/maximecb/gym-minigrid
7
Mediul de test
• Se va testa eficient, a celor trei metode de explorare pe medii1 ı̂n care agentul observă
part, ial mediul s, i are una din două misiuni:
• Se deplasează ı̂n colt, ul opus al camerei pentru a primi o recompensă (Empty).
• Caută o cheie, o ridică, deschide o us, ă s, i apoi culege recompensa (DoorKey).
• Se vor testa strategiile de explorare pe medii de trei dimensiuni:
• MiniGrid-Empty-6x6-v0 • MiniGrid-DoorKey-6x6-v0
• MiniGrid-Empty-8x8-v0 • MiniGrid-DoorKey-8x8-v0
• MiniGrid-Empty-16x16-v0 • MiniGrid-DoorKey-16x16-v0
1 https://github.com/maximecb/gym-minigrid
7
Cerint, e
8
Observat, ii
• Facet, i grafice cu lungimea episoadelor s, i câs, tigul episodic mediu la număr de pas, i egal
(pentru a compara algoritmii ı̂n funct, ie de numărul de interact, iuni cu mediul).
• Lăsat, i algoritmul să ı̂nvet, e pentru suficient de mult, i pas, i (de ordinul milioanelor de pas, i
pentru hărt, ile mari).
• Deoarece algoritmii de ı̂nvăt, are prin recompensă au ı̂n general variant, ă mare, facet, i media
a 5-10 experimente identice cu seed-uri diferite.