Sunteți pe pagina 1din 2

Deac Gh.

Daniel Master IIS an I

REFERAT - Invatare reimprospatata Invatarea reimprospatata este invatarea din interactiuni. Avem un agent care: Invata si planifica permanent Afecteaza mediul inconjurator Are o multime de sarcini Invata in urma a multiple mutari de genul incercare-si-eroare Invatarea reimprospatata inseamna a invata cum sa actionezi pentru a maximiza o recompensa numerica. Din punctul de vedere al agentului care invata: -Invatarea reimprospatata este invatare din interactiunea cu mediul inconjurator prin incercare si eroare E : ce recompensa primesc daca fac acest lucru! - Invatarea reimprospatata ca o unealta - Invatarea reimprospatata din recompense si pedepse -Antrenarea calculatorului in acelasi fel in care antrenezi un caine Aplica"ilitate: -pro"leme cu interactiune continua - #o"otica -Invatarea la animale - $lanificare -%ocuri -Sisteme de control Agentul invata prin interactiunea cu mediul si prin o"servarea rezultatelor o"tinute in aceste interactiuni. Este vor"a de &cauza si efect' si acesta este si modul in care noi ne formam cunoasterea aupra mediului pe parcursul vietii. Ideea de &cauza si efect' se traduce in pasii urmatori pentru in agent din cadrul invatarii reimprospatate: (. Agentul o"serva o stare de intrare ). Actiunea sa este determinata de o functie de luare de decizie *o strategie+. ,. Actiunea este indeplinita -. Agentul primeste o recompensa numerica de la mediu .. Informatia despre recompensa primita pentru starea/actiunea respectiva este retinuta

$rin e ecutarea de actiuni si o"servarea recompenselor o"tinute0strategia folosita pentru a determina cea mai "una actiune pentru o stare poate fi im"unatatita. Daca suficiente stari sunt o"servate0 o strategie de decizie optimala va fi generata si vom o"tine un agent care actioneaza perfect in mediul sau. Asadar0 agentul invata din recompensele primite de la mediu0 fara sa e iste vreo alta forma de supervizare in afara de propria strategie de a isi alege deciziile. Este aruncat in mediul sau si lasat sa se descurce singur0 din propriile greseli si succese. E plorare si e ploatare Daca agentul a incercat o actiune in trecut si a primit o recompensa potrivita0 atunci repetarea acestei actiuni va reproduce aceeasi valoare. Agentul exploateaza ceea ce stie pentru a primi recompensa. $e de alta parte0 agentul poate incerca alte posi"ilitati si ar putea o"tine acolo recompense mai "une0 deci explorarea este o tactica "una deseori. 1ara un echili"ru intre e plorare si e ploatare0 agentul nu va invata eficient. Strategii de selectare a actiunilor In functie de strategie0 se controleaza echili"rul intre e plorare si e ploatare. -greedy De cele mai multe ori0 actiunea care intoarce cea mai mare recompensa estimata este selectata. 2u o mica pro"a"ilitate0 30 se alege o actiune in mod aleator0 independent de estimarile pentru recompense. Softmax Se ataseaza o pondere pentru fiecare actiune relativ la estimarea starii in care se ajunge. Alegerea actiunilor se face in mod aleator0 insa proportional cu ponderea fiecarei actiuni. 2ele mai "une actiuni au sanse mari sa fie selectate0 iar cele mai proaste au sanse foarte mici

S-ar putea să vă placă și