Documente Academic
Documente Profesional
Documente Cultură
Inteligen artificial
Procesul de nvare, n general, este un proces n urma cruia agentul n cauz (cel care
nvata) i mbuntete capacitatea de aciune astfel nct, n timpul unor solicitari
ulterioare, agentul ntreprinde aciuni cu eficien crescut. Aciunile agentului au loc n
cadrul unui mediu, iar n funcie de interaciunea dintre agent i mediu se disting
urmatoarele tipuri de nvaare:
nvarea prin ntrire se refer la o clas de probleme din nvarea automat care admite
un agent s exploreze mediul nconjurtor n care agentul percepe starea (situaia) sa
curent i ncearc nite aciuni asupra mediului. n schimb, mediul nconjurtor
furnizeaz o recompens, care poate fi pozitiv sau negativ. Algoritmii de nvare prin
ntrire urmresc s gseasc o politic care s maximizeze recompensa cumulat a
agentului pe parcursul problemei.
Spre deosebire de majoritatea formelor de nvare n care agentului i se spune dinainte ce
aciuni s ntreprind, n cazul nvrii prin ntrire agentul trebuie sa descopere singur
care aciuni duc la obinerea unei recompense mai mari. Aciunile ntreprinse pot afecta
nu numai recompensa obinut imediat, dar i situaia urmtoare, i n consecin toate
recompensele viitoare.
Programarea agenilor se face prin semnale de ntrire sau slabire (rsplat/pedeaps) fr
a fi nevoie s se precizeze modalitatea concret de rezolvare a sarcinii necesar a fi
ndeplinit. Comportamentul adecvat se nva prin interaciuni de tipul ncercrilor
succesive (trial-and-error) asupra mediului nconjurtor dinamic. nvarea prin ntrire
este sinonim cu nvarea prin interaciune.
Cele dou caracteristici, ncercrile succesive i recompensa ntrziat, reprezint una
dintre cele mai importante caracteristici RL.
Elementele RL
Elementele de baz ale RL sunt agentul supus nvrii i mediul nconjurtor acestuia.
Agentul reprezint un sistem care ncearc s ndeplineasc un scop ntr-un mediu
complex i dinamic. n funcie de mediul n care i desfoar activitatea un agent poate
fi de exemplu:
Agent
Mediul
nconjurator
Interaciunea mediu-agent se face prin: aciuni (a), semnal de ntrire (r), semnal senzorial ce
informeaz despre starea mediului (s)
primit ntr-o stare este mai mare, cu atat agentul va dori mai mult ca pe viitor s
ajung n starea respectiv;
Exemple RL
Un mod bun de a nelege nvarea prin ntrire este de a considera cteva exemple i
aplicaii posibile care au ghidat dezvoltarea sa.
Un pui de gazel se ridic n picioare cu greu dup cteva minute dup ce a fost
nscut. O jumtate de or mai trziu el alearg cu peste 30 km/or.
Un robot mobil decide dac intr ntr-o nou camer pentru a cuta mai multe
obiecte pe care s le ridice sau dac ncearc s se ntoarc ctre staia de
alimentare a bateriei. El ia decizia bazndu-se pe ct de repede i uor a reuit s
gseasc ncrctorul n trecut.
Aceste exemple mpart caracteristici care sunt de baz (fundamentale) nct sunt uor de
trecut cu vederea. Toate implic interace ntre un agent care ia deciziile activ i mediul
su, n care agentul caut s ating un scop n ciuda incertitudinii asupra mediului
nconjurtor. Aciunile agentului permit s afecteze starea viitoare a mediului
nconjurtor (de exemplu, urmtoarea mutare pe tabla de ah, urmtorul loc n care se va
afla robotul), astfel afectnd opiunile i oportunitile disponibile agentului mai trziu.
Alegerea corect pretinde s ia n calcul, indirect, cu ntrziere, consecinele aciunilor, i
astfel poate poate pretinde previziune sau planificare.
n aceste exemple agentul poate utiliza experiena sa pentru a-i mbunti performanele
de-a lungul timpului. Juctorul de ah i rafineaz intuiia pe care o folosete pentru a
evalua poziiile, astfel mbuntindu-i jocul; puiul de gazel i mbuntete eficiena
cu care poate alerga. Cunotinele pe care agentul le aduce sarcinii la nceput fie din
experiena anterioar cu sarcinile relatate sau construit prin evoluie influeneaz ce
este folositor sau uor de nvat, dar interaciunea cu mediul este esenial pentru
ajustarea comportamentului pentru a exploata caracteristici specifice ale sarcinii.
RL asociativ i non-asociativ
n cazul problemelor non-asociative nu este nevoie s fie asociate diferitele aciuni cu
situaiile diferite. n astfel de probleme cel care nva fie ncearc s gseasc o singur
aciune care s fie cea mai bun, cnd problema este staionar, fie ncearc s
urmreasc cea mai bun aciune schimbndu-se n decursul timpului, cnd problema este
non-staionar. Pentru o problem general de nvarea prin ntarire exist mai mult de o
situaie i scopul este de a nva o politic: o mapare a situaiilor spre aciuni care sunt
cele mai bune n acele situaii. n continuare vom discuta despre modul cel mai simplu n
care problemele non-asociative sunt extinse la poziia asociativ.
Ca exemplu, presupunem c sunt cteva probleme diferite de tipul banditul cu n brae
i c la fiecare pas ne confruntm cu un dintre acestea, aleas la ntmplare. De aceea,
problema banditului se schimba aleatoriu de la pas la pas. Aceasta poate prea o singur
problem nestaionar de tipul bandit cu n brae ale crei valori ale aciunii se schimb
aleatoriu de la pas la pas.
Presupunem c atunci cnd e selectat o problem a banditului, sunt date nite dovezi
distincte despre identitatea sa (dar nu despre valorile aciunii). Poate ne confruntm cu o
main automat care schimb culoarea afiajului su dup cum i schimb valorile
aciunii. Acum poate fi nvat o politic asociind fiecare problem, semnalizat de
culoarea vzut, cu cea mai bun aciune care trebuie fcut cnd ne confruntm cu acea
problem; de exemplu, dac este rou, mic braul 1, dac este verde, mic braul 2. Cu
o politic corect se poate face mult mai bine dect dac s-ar face n absena informaiilor
distingnd o problem a banditului de alta.
Acesta este un exemplu de problem de cutare asociativ, numit astfel deoarece
implic att nvarea din ncercri i erori n forma de cutare a celor mai bune aciuni
ct i asocierea acestor aciuni cu situaiile n care sunt cele mai bune. Problema de
cutare asociativ se gsete ntre problema de tipul banditul cu n brae i problema de
nvare prin ntrire complet. O astfel de problem este ca o problem de nvare prin
ntrire complet n care implic nvarea unei politici, dar ca versiunea problemei
banditului cu n brae n care fiecare aciune afecteaz numai recompensa imediat. Dac
aciunilor li se permite s afecteze situaia urmtoare la fel de bine ca i recompensa,
atunci vom avea o problem de nvare prin ntrire complet.
r1 r 2 ... rk
k
Metode TD cu un pas;
Metode TD cu n pai.
Bibliografie: