Sunteți pe pagina 1din 7

nvarea prin ntrire

Inteligen artificial

Procesul de nvare, n general, este un proces n urma cruia agentul n cauz (cel care
nvata) i mbuntete capacitatea de aciune astfel nct, n timpul unor solicitari
ulterioare, agentul ntreprinde aciuni cu eficien crescut. Aciunile agentului au loc n
cadrul unui mediu, iar n funcie de interaciunea dintre agent i mediu se disting
urmatoarele tipuri de nvaare:

nvaarea supervizat (Supervised learning): mediul nconjurtor ofer att


problemele pe care le are de rezolvat agentul, ct i rspunsurile corecte la aceste
probleme;

nvarea prin ntrire (RL Reinforcement Learning): mediul nconjurtor


furnizeaz date despre corectitudinea aciunilor ntreprinse de agent, dar nu spune
care sunt aciunile corecte;

nvarea nesupervizat (Unsupervised learning): mediul nconjurtor nu ofer


informaii despre corectitudinea aciunilor ntreprinse de agent.

nvarea prin ntrire se refer la o clas de probleme din nvarea automat care admite
un agent s exploreze mediul nconjurtor n care agentul percepe starea (situaia) sa
curent i ncearc nite aciuni asupra mediului. n schimb, mediul nconjurtor
furnizeaz o recompens, care poate fi pozitiv sau negativ. Algoritmii de nvare prin
ntrire urmresc s gseasc o politic care s maximizeze recompensa cumulat a
agentului pe parcursul problemei.
Spre deosebire de majoritatea formelor de nvare n care agentului i se spune dinainte ce
aciuni s ntreprind, n cazul nvrii prin ntrire agentul trebuie sa descopere singur
care aciuni duc la obinerea unei recompense mai mari. Aciunile ntreprinse pot afecta
nu numai recompensa obinut imediat, dar i situaia urmtoare, i n consecin toate
recompensele viitoare.
Programarea agenilor se face prin semnale de ntrire sau slabire (rsplat/pedeaps) fr
a fi nevoie s se precizeze modalitatea concret de rezolvare a sarcinii necesar a fi
ndeplinit. Comportamentul adecvat se nva prin interaciuni de tipul ncercrilor
succesive (trial-and-error) asupra mediului nconjurtor dinamic. nvarea prin ntrire
este sinonim cu nvarea prin interaciune.
Cele dou caracteristici, ncercrile succesive i recompensa ntrziat, reprezint una
dintre cele mai importante caracteristici RL.

Elementele RL
Elementele de baz ale RL sunt agentul supus nvrii i mediul nconjurtor acestuia.
Agentul reprezint un sistem care ncearc s ndeplineasc un scop ntr-un mediu
complex i dinamic. n funcie de mediul n care i desfoar activitatea un agent poate
fi de exemplu:

Un robot, dac mediul reprezint chiar lumea fizic;

Agent software (knobot), dac mediul l reprezint un calculator sau reea de


calculatoare (cyberspaiu). Un astfel de exemplu l reprezint un sistem de cutare
a datelor de o anumit natur ntr-o reea de calculatoare. n modelul standard al
RL agentul (program, robot etc.) este conectat la mediul nconjurtor prin
intermediul percepiei i al aciunilor.

Agentul i mediul interacioneaz la fiecare pas al timpului discret prin:


- intrarea s ce semnific starea mediului;
- pe baza semnalului s agentul alege o aciune a i o genereaz ca ieire;
- aciunea schimb starea mediului, iar valoarea tranziiei strilor este comunicat
agentului prin scalarul r, denumit recompens (semnal de ntrire).

Agent

Mediul
nconjurator
Interaciunea mediu-agent se face prin: aciuni (a), semnal de ntrire (r), semnal senzorial ce
informeaz despre starea mediului (s)

Pot fi identificate i alte subelemente ale RL:

o politic care se definete comportamentul agentului la un moment dat (ce


aciuni ntreprinde acesta pus n anumite situaii);

o functie de recompensa; definete inta care se dorete s fie obinut; aceasta


funcie realizeaz o asociere ntre o stare (sau perechi de stri-aciuni) i un numr
ce indic dorina de a se ajunge n acea stare, cu alte cuvinte, cu ct recompensa

primit ntr-o stare este mai mare, cu atat agentul va dori mai mult ca pe viitor s
ajung n starea respectiv;

o functie de evaluare; spre deosebire de recompens, care indic buna calitate a


unei stri n sensul imediat, funcia de evaluare se refer la aceast caracteristic
pe o perioad de timp mai ndelungat, fiind cantitatea total de recompense pe
care agentul se ateapt s o obin n viitor pornind din starea respectiv; se poate
astfel ca o stare n care recompensa primit s fie mic s aib totui o valoare
ridicat a funciei de evaluare, deoarece starea respectiv este urmat n mod
obinuit de stri care produc recompense ridicate;

Exemple RL
Un mod bun de a nelege nvarea prin ntrire este de a considera cteva exemple i
aplicaii posibile care au ghidat dezvoltarea sa.

Un juctor de ah face o mutare. Alegerea este nvat (informat) prin plnuire


anticipnd replicile i contramicrile posibile i prin raionament imediat i
intuitiv dat de avantajul unei poziii sau mutri particulare.

Un pui de gazel se ridic n picioare cu greu dup cteva minute dup ce a fost
nscut. O jumtate de or mai trziu el alearg cu peste 30 km/or.

Un robot mobil decide dac intr ntr-o nou camer pentru a cuta mai multe
obiecte pe care s le ridice sau dac ncearc s se ntoarc ctre staia de
alimentare a bateriei. El ia decizia bazndu-se pe ct de repede i uor a reuit s
gseasc ncrctorul n trecut.

Aceste exemple mpart caracteristici care sunt de baz (fundamentale) nct sunt uor de
trecut cu vederea. Toate implic interace ntre un agent care ia deciziile activ i mediul
su, n care agentul caut s ating un scop n ciuda incertitudinii asupra mediului
nconjurtor. Aciunile agentului permit s afecteze starea viitoare a mediului
nconjurtor (de exemplu, urmtoarea mutare pe tabla de ah, urmtorul loc n care se va
afla robotul), astfel afectnd opiunile i oportunitile disponibile agentului mai trziu.
Alegerea corect pretinde s ia n calcul, indirect, cu ntrziere, consecinele aciunilor, i
astfel poate poate pretinde previziune sau planificare.
n aceste exemple agentul poate utiliza experiena sa pentru a-i mbunti performanele
de-a lungul timpului. Juctorul de ah i rafineaz intuiia pe care o folosete pentru a
evalua poziiile, astfel mbuntindu-i jocul; puiul de gazel i mbuntete eficiena
cu care poate alerga. Cunotinele pe care agentul le aduce sarcinii la nceput fie din
experiena anterioar cu sarcinile relatate sau construit prin evoluie influeneaz ce
este folositor sau uor de nvat, dar interaciunea cu mediul este esenial pentru
ajustarea comportamentului pentru a exploata caracteristici specifice ale sarcinii.

RL asociativ i non-asociativ
n cazul problemelor non-asociative nu este nevoie s fie asociate diferitele aciuni cu
situaiile diferite. n astfel de probleme cel care nva fie ncearc s gseasc o singur
aciune care s fie cea mai bun, cnd problema este staionar, fie ncearc s
urmreasc cea mai bun aciune schimbndu-se n decursul timpului, cnd problema este
non-staionar. Pentru o problem general de nvarea prin ntarire exist mai mult de o
situaie i scopul este de a nva o politic: o mapare a situaiilor spre aciuni care sunt
cele mai bune n acele situaii. n continuare vom discuta despre modul cel mai simplu n
care problemele non-asociative sunt extinse la poziia asociativ.
Ca exemplu, presupunem c sunt cteva probleme diferite de tipul banditul cu n brae
i c la fiecare pas ne confruntm cu un dintre acestea, aleas la ntmplare. De aceea,
problema banditului se schimba aleatoriu de la pas la pas. Aceasta poate prea o singur
problem nestaionar de tipul bandit cu n brae ale crei valori ale aciunii se schimb
aleatoriu de la pas la pas.
Presupunem c atunci cnd e selectat o problem a banditului, sunt date nite dovezi
distincte despre identitatea sa (dar nu despre valorile aciunii). Poate ne confruntm cu o
main automat care schimb culoarea afiajului su dup cum i schimb valorile
aciunii. Acum poate fi nvat o politic asociind fiecare problem, semnalizat de
culoarea vzut, cu cea mai bun aciune care trebuie fcut cnd ne confruntm cu acea
problem; de exemplu, dac este rou, mic braul 1, dac este verde, mic braul 2. Cu
o politic corect se poate face mult mai bine dect dac s-ar face n absena informaiilor
distingnd o problem a banditului de alta.
Acesta este un exemplu de problem de cutare asociativ, numit astfel deoarece
implic att nvarea din ncercri i erori n forma de cutare a celor mai bune aciuni
ct i asocierea acestor aciuni cu situaiile n care sunt cele mai bune. Problema de
cutare asociativ se gsete ntre problema de tipul banditul cu n brae i problema de
nvare prin ntrire complet. O astfel de problem este ca o problem de nvare prin
ntrire complet n care implic nvarea unei politici, dar ca versiunea problemei
banditului cu n brae n care fiecare aciune afecteaz numai recompensa imediat. Dac
aciunilor li se permite s afecteze situaia urmtoare la fel de bine ca i recompensa,
atunci vom avea o problem de nvare prin ntrire complet.

Comparaii cu alte tipuri de nvare


O diferen major dintre nvarea prin ntrire i nvarea de tip supervizat o reprezint
faptul c primului tip i este necesar o faz explicit de explorare a mediului n scopul
achiziionrii de cunotine. Cel de al doilea tip de nvare, cel supervizat, presupune
acumularea cunotinelor pe baza unor exemple furnizate de ctre un expert/supervizor
extern i, dei reprezint unul din tipurile cele mai importante de instruire, nu este
adecvat nvrii din interaciuni cu mediul. n probleme interactive este deseori
4

imposibil i nepractic s se obin exemple de comportament adecvat i reprezentativ


pentru toate situaiile posibile n care un agent ar putea s se gseasc. Este deci necesar
capacitatea agentului de a nva din propria experien.
n acest context intervine problema explorare versus exploatare: pentru a obine o
recompens nsemnat un agent instruit prin RL va prefera aciuni care au mai fost
ncercate n trecut i care au dovedit c aduc un aport substanial.
Totodat este necesar s ncerce i noi aciuni care s-ar putea dovedi mai productive dect
cele testate pn n prezent. n consecin, dilema explorare-exploatare se rezum la
faptul c un agent trebuie s exploateze cunotinele deja acumulate pentru a maximiza
recompensa, dar trebuie i s exploreze noi aciuni care s-ar putea dovedi mai bune dect
cele deja efectuate. Agentul trebuie s ncerce o varietate de aciuni i progresiv s le
favorizeze pe cele care par a fi mai bune.
Exemplu: Un agent are posibilitatea de a alege n mod repetat ntre n aciuni/opiuni
diferite. Dup fiecare aciune primete o recompens numeric aleas dup o distribuie
de probabilitate staionar i dependent evident de aciunea efectuat. Obiectivul l
reprezint maximizarea recompensei ntr-un anumit interval de timp, de exemplu 100 de
aciuni selectate.
Aceast problem cunoscut n literatur sub denumirea banditului cu n brae (n
armed bandit) a fost intens studiat, iar dilema explorare-exploatare este evident:
agentul ar putea alege cu prioritate unul din braele cu probabilitate mai mare de ctig
(exploatare) sau ar trebui s ncerce i altele despre care nu exist suficient informaie
(explorare)? Rspunsul la aceast ntrebare este dependent de numrul de ncercri
disponibile. Cu ct acestea sunt mai numeroase cu att consecinele unei convergene
premature spre o aciune suboptimal vor fi defavorabile, spre deosebire de faza de
explorare care n acest caz ar trebui ncurajat.

Algoritmi specifici nvrii prin ntrire


1. Metode bazate pe valoarea aciunilor
Fie Q*(a) valoarea adevrat a aciunii a. Estimarea sa la momentul t, Qt(a), se poate
defini astfel:
Qt(a)=

r1 r 2 ... rk
k

Dac k atunci Qt(a) Q*(a).


Cea mai simpl regul de selecie a unei aciuni este alegerea aciunii cu cea mai mare
valoare estimat: Qt-1(a*t)= maxk Qt-1(a*t)n care a*t poart denumirea de aciune lacom
(greedy). Aceast metod va exploata cunotinele curente n scopul maximizrii
recompensei. Acest comportament poate fi mbunit prin aciuni -lacome, ceea ce

nseamn c, cu o probabilitate mic vor fi selectate i aciuni n mod aleator. Unele


strategii ncep cu un mare, pentru ncurajarea explorrii, dup care este diminuat
treptat.

2. Metode bazate pe programarea dinamic


ntr-un caz general problema nvrii prin ntrire presupune i existena unei
recompense ntrziate. Aceasta nseamn c o recompens substanial poate s survin
la finalul unui ir de aciuni care nu aduc dect o recompens imediat nesemnificativ.
Agentul trebuie s fie capabil s nvee care din aciuni sunt dezirabile astfel nct s se
obin o recompens ntr-un viitor arbitrar.
Problemele ce presupun recompens nrrziat sunt modelate ca procese de decizie de tip
Markov (Markov Decision Process, MDP). Un proces MDP const din:
O mulime de stri S i de aciuni A;
O funcie recompens R: S x A R;
O funcie de tranziie a strilor T: S x A (S), n care (S) reprezint o distribuie de
probabilitate asupra lui S.
Fie T(s, a, s) probabilitatea executrii tranziiei ss prin efectuarea aciunii a.
Termenul de programare dinamic (Dynamic Programming, DP) se refer la o colecie
de algoritmi care pot fi folosii la calculul politicilor optime, fiind dat un model perfect al
mediului de tip MDP. Aceti algoritmi au mai degrab importan teoretic datorit
necesitii existenei unui model perfect i complexitii calculelor. n principiu toate
celelalte metode ale RL pot fi vzute ca ncercri de rezolvare ale aceleiai probleme ca i
n cazul DP folosind putere de calcul mai redus i fr necesitatea existenei vreunui
model al mediului.
3. Metode de tip Monte Carlo
Metodele de tip Monte Carlo nu presupun cunoaterea complet a modelului mediului.
Sunt necesare ns secvene de stri, aciuni i recompense desprinse din interaciunea
actual sau simulat cu mediul.
4. Diferena temporal
Diferena temporal (Temporal Difference, TD) reprezint o combinaie ntre cele dou
metode prezentate anterior (Monte Carlo i Programarea Dinamic). Se deosebesc n
principal dou tipuri de algoritmi:
-

Metode TD cu un pas;

Metode TD cu n pai.

Bibliografie:

Tiponu Virgil, Cleanu Ctlin-Daniel - REELE NEURONALE. Arhitecturi i


algoritmi, Editura Politehnica, 2002;
Dumitru D. Principiile inteligenei artificiale, Editura Albastr, 2000;
Sutton Richard, Barto Andrew - Reinforcement Learnin: An Introduction, The MIT
Press, 1998
http://en.wikipedia.org/wiki/Reinforcement_learning;
http://www.ace.tuiasi.ro/~fleon/BVIA/Invatarea%20cu%20intarire.pdf

S-ar putea să vă placă și