Sunteți pe pagina 1din 8

1 Academia de Studii Economice

2 Facultatea de Cibernetic, Statistic i Informatic Economic

3 4 5 6 7 8 9 10 11 12

nvarea prin ntrire


Inteligen artificial

Procesul de nvare, n general, este un proces n urma cruia agentul n cauz (cel care nvata) i mbuntete capacitatea de aciune astfel nct, n timpul unor solicitari ulterioare, agentul ntreprinde aciuni cu eficien crescut. Aciunile agentului au loc n cadrul unui mediu, iar n funcie de interaciunea dintre agent i mediu se disting urmatoarele tipuri de nvaare:

nvaarea supervizat (Supervised learning): mediul nconjurtor ofer att problemele pe care le are de rezolvat agentul, ct i rspunsurile corecte la aceste probleme; nvarea prin ntrire (RL Reinforcement Learning): mediul nconjurtor furnizeaz date despre corectitudinea aciunilor ntreprinse de agent, dar nu spune care sunt aciunile corecte; nvarea nesupervizat (Unsupervised learning): mediul nconjurtor nu ofer informaii despre corectitudinea aciunilor ntreprinse de agent.

nvarea prin ntrire se refer la o clas de probleme din nvarea automat care admite un agent s exploreze mediul nconjurtor n care agentul percepe starea (situaia) sa curent i ncearc nite aciuni asupra mediului. n schimb, mediul nconjurtor furnizeaz o recompens, care poate fi pozitiv sau negativ. Algoritmii de nvare prin ntrire urmresc s gseasc o politic care s maximizeze recompensa cumulat a agentului pe parcursul problemei. Spre deosebire de majoritatea formelor de nvare n care agentului i se spune dinainte ce aciuni s ntreprind, n cazul nvrii prin ntrire agentul trebuie sa descopere singur care aciuni duc la obinerea unei recompense mai mari. Aciunile ntreprinse pot afecta nu numai recompensa obinut imediat, dar i situaia urmtoare, i n consecin toate recompensele viitoare. Programarea agenilor se face prin semnale de ntrire sau slabire (rsplat/pedeaps) fr a fi nevoie s se precizeze modalitatea concret de rezolvare a sarcinii necesar a fi ndeplinit. Comportamentul adecvat se nva prin interaciuni de tipul ncercrilor succesive (trial-and-error) asupra mediului nconjurtor dinamic. nvarea prin ntrire este sinonim cu nvarea prin interaciune. Cele dou caracteristici, ncercrile succesive i recompensa ntrziat, reprezint una dintre cele mai importante caracteristici RL.

Elementele RL
Elementele de baz ale RL sunt agentul supus nvrii i mediul nconjurtor acestuia. Agentul reprezint un sistem care ncearc s ndeplineasc un scop ntr-un mediu complex i dinamic. n funcie de mediul n care i desfoar activitatea un agent poate fi de exemplu:

Un robot, dac mediul reprezint chiar lumea fizic; Agent software (knobot), dac mediul l reprezint un calculator sau reea de calculatoare (cyberspaiu). Un astfel de exemplu l reprezint un sistem de cutare a datelor de o anumit natur ntr-o reea de calculatoare. n modelul standard al RL agentul (program, robot etc.) este conectat la mediul nconjurtor prin intermediul percepiei i al aciunilor.

Agentul i mediul interacioneaz la fiecare pas al timpului discret prin: - intrarea s ce semnific starea mediului; - pe baza semnalului s agentul alege o aciune a i o genereaz ca ieire; - aciunea schimb starea mediului, iar valoarea tranziiei strilor este comunicat agentului prin scalarul r, denumit recompens (semnal de ntrire).

Agent

Mediul nconjurator
Interaciunea mediu-agent se face prin: aciuni (a), semnal de ntrire (r), semnal senzorial ce informeaz despre starea mediului (s)

Pot fi identificate i alte subelemente ale RL:


o politic care se definete comportamentul agentului la un moment dat (ce aciuni ntreprinde acesta pus n anumite situaii); o functie de recompensa; definete inta care se dorete s fie obinut; aceasta funcie realizeaz o asociere ntre o stare (sau perechi de stri-aciuni) i un numr ce indic dorina de a se ajunge n acea stare, cu alte cuvinte, cu ct recompensa primit ntr-o stare este mai mare, cu atat agentul va dori mai mult ca pe viitor s ajung n starea respectiv; o functie de evaluare; spre deosebire de recompens, care indic buna calitate a unei stri n sensul imediat, funcia de evaluare se refer la aceast caracteristic pe o perioad de timp mai ndelungat, fiind cantitatea total de recompense pe care agentul se ateapt s o obin n viitor pornind din starea respectiv; se poate astfel ca o stare n care recompensa primit s fie mic s aib totui o valoare ridicat a funciei de evaluare, deoarece starea respectiv este urmat n mod obinuit de stri care produc recompense ridicate; 3

Exemple RL
Un mod bun de a nelege nvarea prin ntrire este de a considera cteva exemple i aplicaii posibile care au ghidat dezvoltarea sa.

Un juctor de ah face o mutare. Alegerea este nvat (informat) prin plnuire anticipnd replicile i contramicrile posibile i prin raionament imediat i intuitiv dat de avantajul unei poziii sau mutri particulare. Un pui de gazel se ridic n picioare cu greu dup cteva minute dup ce a fost nscut. O jumtate de or mai trziu el alearg cu peste 30 km/or. Un robot mobil decide dac intr ntr-o nou camer pentru a cuta mai multe obiecte pe care s le ridice sau dac ncearc s se ntoarc ctre staia de alimentare a bateriei. El ia decizia bazndu-se pe ct de repede i uor a reuit s gseasc ncrctorul n trecut.

Aceste exemple mpart caracteristici care sunt de baz (fundamentale) nct sunt uor de trecut cu vederea. Toate implic interace ntre un agent care ia deciziile activ i mediul su, n care agentul caut s ating un scop n ciuda incertitudinii asupra mediului nconjurtor. Aciunile agentului permit s afecteze starea viitoare a mediului nconjurtor (de exemplu, urmtoarea mutare pe tabla de ah, urmtorul loc n care se va afla robotul), astfel afectnd opiunile i oportunitile disponibile agentului mai trziu. Alegerea corect pretinde s ia n calcul, indirect, cu ntrziere, consecinele aciunilor, i astfel poate poate pretinde previziune sau planificare. n aceste exemple agentul poate utiliza experiena sa pentru a-i mbunti performanele de-a lungul timpului. Juctorul de ah i rafineaz intuiia pe care o folosete pentru a evalua poziiile, astfel mbuntindu-i jocul; puiul de gazel i mbuntete eficiena cu care poate alerga. Cunotinele pe care agentul le aduce sarcinii la nceput fie din experiena anterioar cu sarcinile relatate sau construit prin evoluie influeneaz ce este folositor sau uor de nvat, dar interaciunea cu mediul este esenial pentru ajustarea comportamentului pentru a exploata caracteristici specifice ale sarcinii.

RL asociativ i non-asociativ
n cazul problemelor non-asociative nu este nevoie s fie asociate diferitele aciuni cu situaiile diferite. n astfel de probleme cel care nva fie ncearc s gseasc o singur aciune care s fie cea mai bun, cnd problema este staionar, fie ncearc s urmreasc cea mai bun aciune schimbndu-se n decursul timpului, cnd problema este non-staionar. Pentru o problem general de nvarea prin ntarire exist mai mult de o situaie i scopul este de a nva o politic: o mapare a situaiilor spre aciuni care sunt cele mai bune n acele situaii. n continuare vom discuta despre modul cel mai simplu n care problemele non-asociative sunt extinse la poziia asociativ. Ca exemplu, presupunem c sunt cteva probleme diferite de tipul banditul cu n brae i c la fiecare pas ne confruntm cu un dintre acestea, aleas la ntmplare. De aceea, problema banditului se schimba aleatoriu de la pas la pas. Aceasta poate prea o singur

problem nestaionar de tipul bandit cu n brae ale crei valori ale aciunii se schimb aleatoriu de la pas la pas. Presupunem c atunci cnd e selectat o problem a banditului, sunt date nite dovezi distincte despre identitatea sa (dar nu despre valorile aciunii). Poate ne confruntm cu o main automat care schimb culoarea afiajului su dup cum i schimb valorile aciunii. Acum poate fi nvat o politic asociind fiecare problem, semnalizat de culoarea vzut, cu cea mai bun aciune care trebuie fcut cnd ne confruntm cu acea problem; de exemplu, dac este rou, mic braul 1, dac este verde, mic braul 2. Cu o politic corect se poate face mult mai bine dect dac s-ar face n absena informaiilor distingnd o problem a banditului de alta. Acesta este un exemplu de problem de cutare asociativ, numit astfel deoarece implic att nvarea din ncercri i erori n forma de cutare a celor mai bune aciuni ct i asocierea acestor aciuni cu situaiile n care sunt cele mai bune. Problema de cutare asociativ se gsete ntre problema de tipul banditul cu n brae i problema de nvare prin ntrire complet. O astfel de problem este ca o problem de nvare prin ntrire complet n care implic nvarea unei politici, dar ca versiunea problemei banditului cu n brae n care fiecare aciune afecteaz numai recompensa imediat. Dac aciunilor li se permite s afecteze situaia urmtoare la fel de bine ca i recompensa, atunci vom avea o problem de nvare prin ntrire complet.

Comparaii cu alte tipuri de nvare


O diferen major dintre nvarea prin ntrire i nvarea de tip supervizat o reprezint faptul c primului tip i este necesar o faz explicit de explorare a mediului n scopul achiziionrii de cunotine. Cel de al doilea tip de nvare, cel supervizat, presupune acumularea cunotinelor pe baza unor exemple furnizate de ctre un expert/supervizor extern i, dei reprezint unul din tipurile cele mai importante de instruire, nu este adecvat nvrii din interaciuni cu mediul. n probleme interactive este deseori imposibil i nepractic s se obin exemple de comportament adecvat i reprezentativ pentru toate situaiile posibile n care un agent ar putea s se gseasc. Este deci necesar capacitatea agentului de a nva din propria experien. n acest context intervine problema explorare versus exploatare: pentru a obine o recompens nsemnat un agent instruit prin RL va prefera aciuni care au mai fost ncercate n trecut i care au dovedit c aduc un aport substanial. Totodat este necesar s ncerce i noi aciuni care s-ar putea dovedi mai productive dect cele testate pn n prezent. n consecin, dilema explorare-exploatare se rezum la faptul c un agent trebuie s exploateze cunotinele deja acumulate pentru a maximiza recompensa, dar trebuie i s exploreze noi aciuni care s-ar putea dovedi mai bune dect cele deja efectuate. Agentul trebuie s ncerce o varietate de aciuni i progresiv s le favorizeze pe cele care par a fi mai bune. Exemplu: Un agent are posibilitatea de a alege n mod repetat ntre n aciuni/opiuni diferite. Dup fiecare aciune primete o recompens numeric aleas dup o distribuie

de probabilitate staionar i dependent evident de aciunea efectuat. Obiectivul l reprezint maximizarea recompensei ntr-un anumit interval de timp, de exemplu 100 de aciuni selectate. Aceast problem cunoscut n literatur sub denumirea banditului cu n brae (n armed bandit) a fost intens studiat, iar dilema explorare-exploatare este evident: agentul ar putea alege cu prioritate unul din braele cu probabilitate mai mare de ctig (exploatare) sau ar trebui s ncerce i altele despre care nu exist suficient informaie (explorare)? Rspunsul la aceast ntrebare este dependent de numrul de ncercri disponibile. Cu ct acestea sunt mai numeroase cu att consecinele unei convergene premature spre o aciune suboptimal vor fi defavorabile, spre deosebire de faza de explorare care n acest caz ar trebui ncurajat.

Algoritmi specifici nvrii prin ntrire


1. Metode bazate pe valoarea aciunilor Fie Q*(a) valoarea adevrat a aciunii a. Estimarea sa la momentul t, Qt(a), se poate defini astfel: Qt(a)= Dac k atunci Qt(a) Q*(a). Cea mai simpl regul de selecie a unei aciuni este alegerea aciunii cu cea mai mare valoare estimat: Qt-1(a*t)= maxk Qt-1(a*t)n care a*t poart denumirea de aciune lacom (greedy). Aceast metod va exploata cunotinele curente n scopul maximizrii recompensei. Acest comportament poate fi mbunit prin aciuni -lacome, ceea ce nseamn c, cu o probabilitate mic vor fi selectate i aciuni n mod aleator. Unele strategii ncep cu un mare, pentru ncurajarea explorrii, dup care este diminuat treptat. 2. Metode bazate pe programarea dinamic ntr-un caz general problema nvrii prin ntrire presupune i existena unei recompense ntrziate. Aceasta nseamn c o recompens substanial poate s survin la finalul unui ir de aciuni care nu aduc dect o recompens imediat nesemnificativ. Agentul trebuie s fie capabil s nvee care din aciuni sunt dezirabile astfel nct s se obin o recompens ntr-un viitor arbitrar. Problemele ce presupun recompens nrrziat sunt modelate ca procese de decizie de tip Markov (Markov Decision Process, MDP). Un proces MDP const din: O mulime de stri S i de aciuni A; O funcie recompens R: S x A R; O funcie de tranziie a strilor T: S x A (S), n care (S) reprezint o distribuie de probabilitate asupra lui S. Fie T(s, a, s) probabilitatea executrii tranziiei ss prin efectuarea aciunii a. r1 + r 2 + ... + rk k

Termenul de programare dinamic (Dynamic Programming, DP) se refer la o colecie de algoritmi care pot fi folosii la calculul politicilor optime, fiind dat un model perfect al mediului de tip MDP. Aceti algoritmi au mai degrab importan teoretic datorit necesitii existenei unui model perfect i complexitii calculelor. n principiu toate celelalte metode ale RL pot fi vzute ca ncercri de rezolvare ale aceleiai probleme ca i n cazul DP folosind putere de calcul mai redus i fr necesitatea existenei vreunui model al mediului. 3. Metode de tip Monte Carlo Metodele de tip Monte Carlo nu presupun cunoaterea complet a modelului mediului. Sunt necesare ns secvene de stri, aciuni i recompense desprinse din interaciunea actual sau simulat cu mediul. 4. Diferena temporal Diferena temporal (Temporal Difference, TD) reprezint o combinaie ntre cele dou metode prezentate anterior (Monte Carlo i Programarea Dinamic). Se deosebesc n principal dou tipuri de algoritmi: Metode TD cu un pas; Metode TD cu n pai.

Bibliografie:
Tiponu Virgil, Cleanu Ctlin-Daniel - REELE NEURONALE. Arhitecturi i algoritmi, Editura Politehnica, 2002; Dumitru D. Principiile inteligenei artificiale, Editura Albastr, 2000; Sutton Richard, Barto Andrew - Reinforcement Learnin: An Introduction, The MIT Press, 1998 http://en.wikipedia.org/wiki/Reinforcement_learning; http://www.ace.tuiasi.ro/~fleon/BVIA/Invatarea%20cu %20intarire.pdf

S-ar putea să vă placă și