Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
2016
Buzic Ioana-Adriana
Frona Alina
Necula Dan
31.03.2016
Funcia de ctig a jocului este funcia u = (u1, u2, ...un), format din
funciile de ctig ale fiecrui juctor. Notnd funcia de ctig a fiecrui
juctor ui i funciile de ctig ale celorlali juctori u-i, funcia de ctig a
jocului va fi: u : S R, u = (ui, u-i).
Strategia este mulimea aciunilor unui juctor cu scopul de a-i atinge
obiectivele. Numim strategie optimal acea strategie care maximizeaz
ctigul juctorului i, indiferent de strategiile alese de ceilali juctori.
Spunem c un joc merge spre un Echilibru Nash(John Nash), dac
strategiile ambilor juctori, i vor duce pe acetia la acelai ctig, innd
cont de strategia adversarului.
Dac exist un set de strategii cu proprietatea c nici unul dintre juctori
nu poate obine un beneficiu superior prin schimbarea unilateral a
propriei strategii, atunci setul respectiv i utilitaile asociate constituie un
punct de echilibru Nash.
Clasificarea jocurilor
31.03.2016
Dilema prizonierilor
Doi prizonieri sunt chestionai de poliie. Poliia tie ceva de
despre ce au fcut, dar nu are toate informaiile. Ca s afle, i
bag n doua celule separate i i interogheaz.
Prizonierii au dou opiuni: pot spune toat povestea (adic
s trdeze) sau pot s nu spun nimic (cooperare). Niciun
prizonier nu tie ce va spune celalalt.
Dac amndoi coopereaz (adic tac), ambii iau sentin
uoar (1 an).
Dac unul trdeaz i cellalt coopereaz, trdtorul e
liber, iar cel trdat primete 10 ani de nchisoare.
Dac ambii trdeaz, fiecare ia 5 ani de detenie.
31.03.2016
Vntoarea de cerbi/iepuri
Doi indivizi merg la vntoare. Fiecare poate
alege individual s vneze un cerb sau un
iepure i trebuie s fac alegerea fr s tie
ce a ales celalalt.
Dac unul alege un cerb, are nevoie de
cooperarea celuilalt ca s reueasc.
Fiecare poate vna un iepure de unul singur,
dar un iepure valoreaz mai puin dect un
cerb.
31.03.2016
Aplicabilitate
31.03.2016
31.03.2016
31.03.2016
Aplicaia X O
Importan
Managementul sistemelor informatice
Abilitatea de a asocia situaii spre aciuni care s
conduc la maximizarea unei recompense
numerice
Precum n cele mai multe forme de instruire a
mainilor, nu tim ce aciuni trebuie fcute dar
ncercndu-le pe toate, trebuie s descoperim
aciunile ce aduc cea mai mare recompens
31.03.2016
Aplicaia X O
Doi juctori mut pe rnd folosind o tabla de
joc de dimensiune 3 x 3. Unul dintre ei joac
cu X, iar cellalt cu O, pn cnd unul
dintre ei ctig, reuind s plaseze trei semne
de-ale sale pe o linie, coloan sau diagonal.
Dac nici un juctor nu reuete aceasta i
toat tabla este completat, jocul se ncheie la
egalitate
31.03.2016
X i 0 - reprezentare
De la starea iniial, MAX are posibilitatea de a alege din 9
stri posibile
Juctorii alterneaz punnd X i 0 pn cnd se ajunge la o
stare terminal stare n care un juctor are trei elemente
pe o linie, coloan sau diagonal ori toate casuele sunt
completate
Numrul ataat la fiecare nod frunz se refer la utilitatea
strii terminale pentru jucatorul MAX
Valorile mari sunt considerate bune pentru MAX i proaste
pentru MIN (i invers), de aici i numele celor doi juctori
Sarcina lui MAX este s foloseasc arborele de cutare
pentru a determina cele mai bune mutri, innd cont de
utilitile strilor terminale
Definirea jocului
Un joc poate fi definit prin:
Starea iniial (cum sunt elementele aranjate
iniial)
Aciunile posibile (unde sunt definite mutrile
permise)
Un test terminal (care spune dac jocul s-a
terminat)
O funcie de utilitate (care spune cine a catigat i
cu ce scor)
10
31.03.2016
Minimax
Minimax este considerat la scar larg ca fiind algoritmul
de baz n rezolvarea jocurilor, ns vom vedea c are
multe deficiene.
n primul rnd complexitatea lui este una exponenial
ceea ce-l face greu de adaptat unui joc cu multe stri cum
ar fi ahul sau tablele.
Un alt dezavantaj este acela c Minimax pleac mereu de
la premisa c adversarul su face cea mai bun mutare
posibil, ceea ce n multe cazuri nu se ntmpl.
Minimax (2)
Alternativa pe care o propunem acestei abordri
tradiionale este nvarea prin ntrire bazat pe diferena
ntre estimrile unor sri ale jocului n diferite momente.
Vom ncerca s proiectm un agent inteligent care
cunoscnd doar regulile de baz ale jocului, s nvee s
joace la un nivel expert, fr a fi supravegheat de un om.
Ne-am oprit la jocul Tic-Tac-Toe, unul tipic pentru
abordarea Minimax, i vom ncerca s artm c nvarea
este intr-adevr o alternativ viabil, cu cerine minime.
11
31.03.2016
Algoritmul Minimax
Algoritmul Minimax este un algoritm de cutare ntr-un
arbore. Acest algoritm urmrete selectarea celei mai bune
mutri pentru calculator, ntr-un joc cu doi juctori. Mai nti
se construiete arborele de joc cu toate mutrile posibile
pentru ambii juctori.
Minimax
n continuare vom considera cazul unui joc simplu cu
dou persoane, pe care le vom numi sugestiv MAX i
MIN. Primul care mut primul este MAX, apoi mut pe
rnd, pn la sfritul jocului, cnd unul este premiat
iar cellalt penalizat. MAX trebuie s gseasc o strategie
care s l aduc la o stare terminal n care el este
ctigtorul, indiferent de mutrile pe care le face MIN.
Strategia presupune c MAX face mutrile corecte,
indiferent de mutrile lui MIN. Ideea este de a arta cum
se gsete o strategie optim, chiar dac nu este timp
suficient s o gsim
12
31.03.2016
Arborele de cautare
13
31.03.2016
14
31.03.2016
15