Sunteți pe pagina 1din 16

UNIVERSITATEA TEHNIC GH.

ASACHI IAI FACULTATEA DE AUTOMATIC I CALCULATOARE

Teoria jocurilor
Inteligen artificial
- referat -

Iordache Ciprian-Doru, Leonte Bogdan Nicolae, mpu Radu Cristian

- 2002/2003 -

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________

Introducere

Inteligena artificial simbolic poate aborda o mare varietate de domenii:


vederea artificial - ce presupune recunoaterea formelor, identic cu vederea uman; robotica - focalizeaz producerea dispozitivelor mecanice capabile s reproduca micarea; prelucrarea vocii - ce privete constituirea i sinteza vocii umane; prelucrarea n limbaj natural - nelegerea i vorbirea n limbaj natural; demonstrarea teoremelor - n matematic i logic; 1

________________________________________________________________________________

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la

n ziua de azi, calculatoarele executa n mod curent taskuri lungi i complexe ntr-un timp egal cu o fraciune din timpul n care omul poate executa acelai lucru. Indirect, aceast lucru nseamn c un calculator este un ajutor supus care face ceea ce i se spune s fac. El nu demonstreaz nici o urm de inteligen. ntrebarea oare calculatoarele pot ntr-adevr s gndeasc a fost o problem controversat chiar din ziua n care au fost create. Preocuparea specialitilor de a crea programe "inteligente" (sisteme care prezint caracteristici asociate cu inteligena uman cum ar fi inelegerea vorbirii, nvarea, judecata i rezolvarea problemelor) a condus la apariia unui domeniu interdisciplinar, cu aplicaii practice nebnuite sub denumirea generic de inteligena artificial. Inteligena artificial ca tiin, are drept scop s confere calculatoarelor o serie de posibiliti pentru relizarea unor sarcini, pe care decidentul uman (expertul) este capabil s le faca. Aceast disciplin a fost iniiat n 1956 de ctre John McCarthy, Marvin Minsky, Allen Newell i Herbert Simon de la Dartmouth College, avnd drept obiectiv formalizarea aciunii inteligente. O definiie riguroas a inteligenei artificiale simbolice se bazeaz pe o serie de cunotine concrete ale acestei discipline i n mod special pe fundamentele logice ale acesteia. Inteligena artificial simbolic a insistat in permanena asupra noiunii de euristic, avnd contribuii importante n domeniul limbajelor de programare. Sistemul "Logic Theorist" al lui Newell, Shaw i Simon a fost n 1956 primul sistem de inteligen artificial utilizat n demonstrarea teoremelor din logica propoziiilor. Pentru realizarea acestui sistem, autorii au creat limbajul IPL (Information Processing Language), al crui succesor bine cunoscut este limbajul LISP. De asemenea, limbajul PROLOG creat de A. Colmerauer si P. Roussel (1975), a fost realizat de o echipa de cercettori din domeniul inteligenei artificiale de la Universitatea Luminy din Marseille, bazndu-se n mod esenial pe algoritmul de unificare. Aceste limbaje au avut drept primi utilizatori, cercettorii din domeniul inteligenei artificiale de la MIT, care erau frustrai de lipsa de acces la resursele unui calculator, cnd doreau acest lucru si au avut ideea conceptului de "time sharing", iar din anul 1960 au demarat proiectul Machine Aided Cognition. Din punct de vedere economic, inteligena artificial este un domeniu important tocmai datorit capacitii sale de a aborda noi clase de probleme, diferite de cele tratate de informatica clasic, cum ar fi: percepia, luarea de decizii, planificarea, diagnoza, interpretarea semnalelor, nelegerea limbajului natural, concepia. Aceste probleme acoper activiti umane dintre cele mai variate i prezint particulariti comune care se bazeaz n mod fundamental pe exploatarea "inteligent" a unor mari cantiti de cunotine, specifice domeniului studiat.

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________


"General Problem Solving" - rezolvarea unei clase generale de probleme exprimate n limbaje formale; recunoaterea formelor - recunoaterea i clasificarea diferitelor forme; nvtarea automat - maini ce acumuleaz cunotine prin observarea exemplelor; sisteme bazate pe cunotine; teoria jocurilor.

Dintre toate aceste domenii de activitate ale inteligenei artificiale, obiectul de studiu al acestui referat este numai teoria jocurilor. Pentru a putea fi implementat, un joc trebuie reprezentat in aa fel nct sa fie pe nelesul calculatorului. De aceea, un joc poate fi gndit ca un arbore a tuturor strilor viitoare ale jocului. De exemplu, n cazul unui joc de ah, starea jocului poate fi definit ca aranjamentul pieselor de pe tabla de ah precum i cine este la rnd s fac urmtoarea mutare. Starea curent a jocului este rdcina arborelui. n general, acest nod are numeroi fii, acetia fiind toate mutrile posibile pe care le poate face juctorul al crui rnd este, i aa mai departe. Fiecare din acest nod reprezint starea jocului dup fiecare mutare a oponentului. Aceste noduri au la rndul lor fii corespunztoare celei de-a doua mutri a juctorului curent i aa mai departe. Frunzele acestui arbore sunt strile finale ale jocului, stri din care nici o mutare nu mai poate fi fcut deoarece unul din juctori a ctigat, sau poate jocul e remiz (pat n cazul ahului). De fapt, arborele este un graf, deoarece pot fi mai multe mutri posibile dintr-o anumit stare a jocului ntr-o alt stare particular. Muli algoritmi au fost descoperii, printre cel mai cunoscut fiind algoritmul Minimax sau o versiune mai optim algoritmul Minimax cu reducerea Alfa-Beta.

________________________________________________________________________________

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________

Algoritmul Minimax
Algoritmul MiniMax e un algoritm de cutare ntr-un arbore. Acest algoritm urmrete selectarea celei mai bune mutri pentru calculator ntr-un joc cu doi juctori. Algoritmul construiete un arbore cu toate mutrile posibile pentru ambii juctori. Acest algoritm este denumit Minimax deoarece pur i simplu calculatorul face mutarea care-i ofer ctigul maxim, n acelai timp asigurndu-se c oponentul face mutarea cea mai defavorabil calculatorului. Deoarece mutrile alterneaz, algoritmul alterneaz minimiznd i maximiznd nivelele arborelui de cutare n mod recursiv. ntruct, chiar i n cazul unui joc simplu, numrul mutrilor posibile crete exponenial, i deoarece n general memoria unui calculator este limitat, acest algoritm face cutarea numai pe o adncime fix. n continuare vom considera un arbore de cutare ipotetic, ca s studiem cum algoritmul Minimax selecteaz mutarea cea mai bun. Acest exemplu este pentru un joc n care sunt posibile exact dou mutri, iar adncimea maxim de cutare e 4. Observm c i n acest caz cu puine mutri posibile, trebuiesc generate 30 situaii posibile.

Fig. 1 Arborele de cutare

n figura de mai sus nodurile maximizante sunt reprezentate printr-un ptrat iar cele minimizante printr-un cerc. S presupunem c urmtorul juctor este calculatorul i c n acest moment al jocului arborele de cutare este cel din figura 1. Rdcina arborelui ( cel mai de sus nod) este nodul curent i reprezint poziia actual n joc. Observm c din aceast poziie, calculatorul are numai dou
3

________________________________________________________________________________

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________ mutri posibile A i B. Momentan ignorm numerele din interiorul nodurilor, le vom calcula mai tarziu. Pentru nceput observm c nodul curent este un nod maximizant, altfel spus, dintre mutrile A i B o vom alege pe cea care ne furnizeaz valoarea maxim. Urmtorul nivel din arborele de cutare este corespunztor mutrilor posibile celui de-al doilea juctor, s presupunem omul. Pentru a nu complica lucrurile vom urma numai ramura A a arborelui de cutare. Omul va trebui s aleag acum ntre mutrile C i D. Observm c nodurile sunt reprezentate prin cercuri, aadar sunt noduri minimizante. Aadar, vom presupune c omul va alege mutarea care va lsa calculatorului cea mai mic valoare posibil. i aa se va continua mai departe n mod recursiv. Cel mai simplu algoritm MiniMax e posibil ca s evalueze recursiv toate cele 16 frunze ale arborelui de cutare, apoi va merge napoi, minimiznd valoarea pentru mutrile omului i maximiznd mutrile calculatorului. Dup cum observm, n exemplul nostru cea mai bun mutare pentru calculator este A deoarece valoarea din A este mai mare dect cea din B. Nodul A la rndul lui este un nod minimizant, aadar va reflecta minimul dintre 10 i 14. Nodul C maximizeaz, lund valoarea cea mai mare dintre 9 i 10. Nodul G minimizeaz valorile 10 i 11, amd. Conform celor de mai sus, nodul din colul din stnga, evaluat la 10, este cea mai bun poziie pe care calculatorul o poate obine, Astfel nct dac o lum n sens invers pe arbore, de jos n sus, prin G i C i n final A care e mutarea cea mai bun pe care calculatorul o poate face n final. Valorile din interiorul nodurilor reprezint ct de bun e poziia actual n cadrul jocului din punctul de vedere a calculatorului. Acest lucru pare foarte uor dac beneficiem de luxul de a cuta pn la finalul jocului, n acest caz o victorie fiind foarte bun, iar o nfrngere fiind foarte rea. Dar, de cele mai multe ori, n realitate, cutarea n adncime e limitat, iar n acest caz e se utilizeaz o funcie static de evaluare a poziie n cadrul jocului care returneaz o valoare ce indic ct de bun e aceast poziie. n terminologia inteligenei artificiale, acest numr e numit euristic. n caz c dorim s implememtm o astfel de euristic, trebuiesc luate n considerate urmtoarele lucruri: Care sunt elementele interesante ale jocului i cum trebuie evaluate astfel nct s determinm dac o poziie e mai bun dect alta? Care sunt valorile relative care trebuie asignate fiecrui element? Acest lucru de multe ori necesit o sofisticat analiz a jocului n cauz i nu ntotdeauna acest lucru e uor. Algorimul n limbaj pseudocod ar putea fi urmtorul: (minimax returneaz caloarea pentru o poziie dat n, adncimea maxim e d) int minimax(n: node, d: int): if leaf(n) or depth=0 return evaluate(n) if n is a max node v := L for each child of n v' := minimax (child,d-1) if v' > v, v:= v' return v if n is a min node v := W for each child of n v' := minimax (child,d-1) if v' < v, v:= v' return v

________________________________________________________________________________

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________ L reprezint o valoare minim cu care se iniializeaz variabila ce reprezint costul maxim pentru un nod maximizant, iar W reprezint o valoare maxim cu care se iniializeaz variabila ce reprezint costul minim pentru un nod minimizant.

Algoritmul MiniMax cu reducerea Alfa-Beta


Dup cum am mai precizat, arborele de cutare n cazul algoritmului MiniMax poate crete foarte mult, astfel nct se utilizeaz tehnici avansate care s limiteze timpul i resursele necesare algoritmului de cutare MiniMax. Cea mai uoar tehnic de acest gen este limitarea adncimii de cutare. O alt tehnic este aa-zisa reducere Alfa-Beta Reducerea Ala-Beta permite realizarea aceleeai analize, dar mai eficient, fr pierdere de informaii. n primul rnd, arborele de cutare trebuie parcurs ntr-o ordine predefinit, s zicem de la stnga spre dreapta, de sus n jos, mai nti n adincime, srind (=reducnd) peste toate nodurile ce nu pot influena determinarea celei mai bune valori. Exemplificarea o vom face tot pe arborele de cutare din figura 2. Pentru nceput vom sri peste nodul J i fiii si, nodurile tip frunz 13 i 14. Scopul explorrii printelui nodului J este acela de a dac valoarea nodului A poate fi redus sub 10, care este valoarea deja stabilit de fiul stng al nodului A, C. Pornind cutarea de la nodul D, mai nti vom evalua nodul I, n care vom avea valoarea 14. Acest lucru va determina ca nodul D s aib cel puin valoarea 14, indiferent de valoarea posibil din J. Cum valoarea 14 din D va fi neglijat n favoarea valorii 10 din nodul C, ar fi o pierdere de timp s se evaluez nodul J i fiii si. Valoarea din A sigur va fi 10 sau mai mic. Acelai argument poate fi folosit i la evaluarea celui de-al doilea fiu de tip frunz a lui K. Avnd n vedere faptul cutarea sus-jos, de la stnga la dreapta i n adncime mai nti, n timp ce explorm nodul K, observm c n A deja avem valoarea 10. Astfel, K este explorat ca s vedem dac nu poate furmiza o valoare mai mare ca 10 n B. Dar cum primul fiu al lui K are valoarea 5, se tie deja c nodul K va furniza valarea maxim 5, deci nu poate furniza o valoare mai mare ca 10 n nodul B, astfel nct ar fi o pierdere de timp s mai evalum i fiul din dreapta al nodului K i astfel cutarea se mut la nodul L. Similar, cum primul fiu al lui L produce valoarea 4, e tiut faptul c L poate furniza valoarea maxim 4 printelui su E, astfel nct nu se mai continu cutarea i pentru fiul din dreapta. Totui, observm c n nodul E se propag valoarea 5 i nu 2 ca n cazul anterior, dar acest lucru nu conteaz deoarece, n acest moment, nodul B este nod minimizant i se observ c poate fi cel mult 5, care nu e mai bun ca valoarea 10 din A, astfel nct nu se va mai parcurge nodul F sau vreunul din fiii si.

________________________________________________________________________________
Figura 2. Arborele de cutare n cazul reducerii Alfa-Beta

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________ n acest caz, algoritmul n limbaj pseudocod ar fi urmtorul: {(alfa+beta algor), adncimea d. * dac valoarea e mai mic dect min, returneaz min. * dac valoarea e mai mare dect max, returneaz max. *) fun minimax(n: node, d: int, min: int, max: int): int = if leaf(n) or depth=0 return evaluate(n) if n is a max node v := min for each child of n v' := minimax (child,d-1,...,...) if v' > v, v:= v' if v > max return max return v if n is a min node v := max for each child of n v' := minimax (child,d-1,...,...) if v' < v, v:= v' if v < min return min return v } n cazul reducerii Alfa-Beta, trebuie s mai facem o precizare. Eficiena acestui algoritm depinde de ordinea n care succesorii unui nod sunt examinai. Astfel, la un nod minimizant trebuie sa considerm nodurile de la cel mai mic la cel mai mare scor, iar la un nod maximizant de la cel mai mare la cel mai mic scor. Se poate demonstra c n cele mai favorabile circumstane, MiniMax cu reducere Alfa-Beta analizeaz tot attea situaii ca i MiniMax fr reducere Alfa-Beta dar la o adncime dubl.

________________________________________________________________________________

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________

Echilibrul Nash
Cel mai bun mod de a aborda Echilibrul Nash este folosind exemple. Fie N jucatori cu un numar finit de strategii. Ex: 2 jucatori ( Ion, Maricica) 2 strategii ( fiecare juctor are dou variante (opiuni): strategia 1 i strategia 2)

Presupunem c amndoi juctorii au ales una dintre variante fara a ti ce a ales adversarul. Un mod convenabil de a reprezenta un astfel de joc este matricea ctigurilor: Maricica Strategia 1 a11,b11 a21,b21

Ion

Strategia 1 Strategia 2

Strategia 2 a12,b12 a22,b22

Unde aij este catigul lui Ion dac Ion joac strategia i i Maricica joac strategia j, iar bij este ctigul Maricici dac Ion joac strategia i si Maricica joac strategia j. Deci, a-urile sunt catigrile lui Ion iar b-urile sunt catigurile Maricici. Presupunem c fiecare juctor prefer ctigurile cele mai mari, fara a ine cont de ctigurile celuilalt. Fie

Jocul 1
Maricica Strategia 1 0,1 2,0 Strategia 2 2,6 3,1

Ion

Strategia 1 Strategia 2

Se observ c indiferent de strategia aleas de Maricica, Ion va alege strategia 2. De ce? Pentru ca un ctig de 2 sau 3 este mai bun dect un ctig de 0 sau 2. Cand un juctor alege strategia j indiferent de alegerea celuilalt, spunem c j este strategia lui dominant. Strategia 2 este strategia dominant a Maricici. La fel si pentru Ion. Deci strategia de echilibru este (2,2) cu un ctig de (3,1). Un prim rezultat ar fi:
7

________________________________________________________________________________

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la

Cum ar trebui s joace Ion i Maricica?

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________ ntr-un joc cu 2 juctori, unde fiecare are 2 strategii, dac ambii juctori au o strategie dominant, echilibrul se obtine atunci cnd juctorii joaca strategiile dominante.

Jocul 2
Maricica Strategia 1 0,2 2,0 Strategia 2 2,1 3,1

Ion

Strategia 1 Strategia 2

Strategia dominant a lui Ion este strategia 2. Maricica nu are o strategie dominant. Cum putem defini echilibrul in acest caz?

Strategiile alese reprezint echilibrul dac Ion i alege strategia cunoscand strategia aleas de Maricica, si invers.
Obinem echilibrul Nash atunci cnd fiecare juctor maximizeaz ctigul cunoscnd strategia aleas de oponent. Echilibrul pentru jocul anterior se realizeaz n (2,2) cu un catig de (3,1) Definiie echivalent a echilibrului Nash pentru un joc cu 2 juctori: presupunerile fiecrui juctor in privina alegerii fcute de adversar sunt corecte fiecare juctor alege strategia care maximizeaz cstigul su considernd c oponentul va aplica strategia presupus de el n incercarea de a atinge echilibrul Nash, care ar fi procesul de alegere a strategiei? Fiecare juctor se va gndi la o strategie maximizant pentru adversar, tiind c cellalt juctor este inteligent i raional. Dupa gsirea acestei strategii, juctorul va cuta cea mai buna strategie pentru a contracara (presupusa) strategie adversarului.

Jocul 3

Ion

Strategia 1 Strategia 2

Maricica Strategia 1 1,3 0,0

Nici un juctor nu are o strategie dominant. Exist doua echilibre Nash: (1,1) i (2,2)
8

________________________________________________________________________________

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la
Strategia 2 .5,1 4,2

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________

Teorema:
Nu exista un joc cu urmoarele 4 proprieti: 2 juctori fiecare juctor are 2 strategii nici un juctor nu are o strategie dominant exist numai un echilibru Nash n strategii pure Demonstraia se realizeaz prin reducere la absurd. (consultai bibliografia)

Echilibrul Nash n strategii mixte


Jocul 4
Oameni sraci cu copii Munc Refuz de a munci remunerat Statul Asigur ajutor pentru copii Nu asigur ajutor pentru copii 3,2 -1,1 -1,3 0,0

Este usor de observat c nu exista un echilibru Nash. Nu exist un echilibru Nash dac dorim ca fiecare agent s aleag o strategie i nu probabilitatea de a aplica o strategie. Poate exist totui un echilibru dac fiecare agent alege probabilitatea unei strategii. Ce este probabilitatea de a alege o strategie? Presupunem c alegerea statului (s ofere ajutor pentru copii sau nu) este o variabil aleatoare din perspectiva statului (statul d cu zarul) iar alegerea omului srac (de a munci sau nu) este tot o variabil aleatoare din perspectiva sracului ( saracul da i el cu zarul) unde: p = probabilitatea ca statul s ofere ajutor pentru copii. ( 1 p) = probabilitatea ca statul s nu ofere ajutor pentru copii. q = probabilitatea ca sracul s munceasc. ( 1 q) = probabilitatea ca sracul s nu munceasc. Ce nseamn c guvernul alege p iar saracul alege q?

Dac guvernul alege p, nu nseamn c ofer sau nu ofer ajutor pentru copii unui anumit individ, ci c oferirea acest ajutor se bazeaz pe o alegere aleatoare dintr-o distribuie unde probabilitatea de a oferi ajutor este egal cu p.
9

________________________________________________________________________________

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________ Deci, n acest nou joc, sracul alege probabilitatea de munci, nu dac munceste sau nu, iar statul alege probabilitatea de a oferi ajutor pentru copii. Strategiile n care agenii aleg probabilitile p i q se numesc strategii mixte. Dac p i q sunt restrictionai la valorile 0 i 1, strategiile sunt pure. Echilibrul Nash n strategii mixte: La echilibru, cunoscndu-se probabilitatea ca statul s ofere ajutor pentru copii, sracul nu doreste sa-i schimbe probabilitatea de a munci i similar, cunoscndu-se probabilitatea ca sracul s munceasc (q), statul nu dorete s-i schimbe probabilitatea de a oferi ajutor pentru copii. Cu alte cuvinte: presupunerile sunt corecte: p=p i p=q unde p este valoarea presupus de sarac a probabilitii ca statul s ofere ajutor pentru copii, iar q este valoarea presupus de stat a probabilitii ca sracul s munceasc. Statul alege p astfel nct s-i maximizeze beneficiile tiind valoarea presupus a probabilitii ca sracul s munceasc iar saracul alege q astfel nct s-i maximizeze beneficiile stiind valoarea presupus a probabilitii ca statul s ofere ajutor pentru copii.

Pentru a decide dac jocul precedent are un echilibru n strategiile mixte, trebuie determinate beneficiile ateptate de fiecare agent.

Oameni sraci cu copii Munc Refuz de a munci remunerat Statul Asigur ajutor pentru copii Nu asigur ajutor pentru copii 3,2 -1,1 -1,3 0,0

Ebgov = pq3 + p(1 - q)(-1) + (1 p) q(-1) + (1 p)(1 - q)0 = 5pq - p - q Ebpauper

= pp2 + (1 p)p3 + q(1 - p) 1 + (1 q)(1 - p)0

= -2qp + q + 3p

10

________________________________________________________________________________

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________ Statul dorete s aleag un p astfel nct sa maximizeze Ebgov iar sracul dorete s gseasc un q astfel nct s maximizeze Ebpauper. ncepem cu problema de maximizare a statului. Ebgov/p=5q-1 Observm c derivata funciei de obiectiv a statului nu mai contine variabila p. Singura solutie n intervalul (0,1) se obine dac q=0.2 si pentru aceast valoare, statului nu-i mai pas ce valoare va alege pentru p.

n acelai mod se obine p=0.5 Ce-am descoperit? Dac p = 0.5 sracului nu-i pas ce valoare va alege pentru q, iar dac q=0.2 statului nu-i mai pas ce valoare va alege pentru p. Deci p=0.5, q=0.2 este un echilibru n strategia mixt pentru jocul 4. Cum ar trebui interpretat echilibrul intr-o strategie mixt? Evident, nu este la fel de intuitiv ca echilibrul n strategiile pure.

Un argument mpotriva echilibrului n strategiile mixte este afirmaia c agenii nu i aleg uneori la ntamplare aciunile n viaa de zi cu zi. Un argument mai puternic mpotriva echilibrului n strategiile mixte l constituie faptul c la echilibru, i este indiferent ce actiunea pe care o alege. De fapt, n exemplul precedent am artat c statului nu-i pas dac ofer ajutor pentru copii att timp ct probabilitatea ca sracul s munceasc este 0.2, iar sracului nu-i pas dac muncete sau nu, att timp ct probabilitatea ca statul s ofere ajutor pentru copii este 0.5. Dar dac oricare dintre ageni decide s-i schimbe probabilitatea, echilibrul se prbuete.
11

________________________________________________________________________________

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________ n acest sens, echilibrul n strategiile mixte este criteriu destul de slab.

12

________________________________________________________________________________

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________

Optimizarea Pareto
Economistul italian Vilfredo Pareto, 1848-1923, a fost unul din liderii Scolii Lausanne si un ilustru membru al celei de-a doua generatii a revolutiei neoclasice. In cursul vietii a elaborat diverse teoreme, in special in domeniul economic si social. Printre cele mai cunoscute este cea a veniturilor distribuite. El argumenta ca in toate tarile si timpurile, ditributia venitului si bunastarii urmareste un tipar logaritmic regulat care poate fi sintetizat de formula: log N = log A + m log x unde N este numarul de salariati care obtin venituri mai mari decat x, si A si m sunt constante. De-a lungul anilor, Legea lui Pareto s-a dovedit a fi remarcabil de elastica in studiile empirice. De asemenea, Teoria lui Pareto despre societate pretinde ca exista o tendinta de a se intoarce la echilibru cand un unmar egal de persoane de Clasa I si Clasa II sunt prezente in elita conducatoare. Ocazional, cand devine prea inclinata intr-o parte, o elita va fi inlocuita in masa de o alta. Daca sunt prea multe persoane de Clasa I in elita conducatoare, inseamna ca violenta si conservatoarea Clasa II se afla in esaloanele inferioare, dorind si fiind capabile sa preia puterea cand Clasa I greseste prea tare prin siretenie si coruptie. Daca elita conducatoare este compusa in general din persoane din Clasa II, atunci va cadea intr-o mizerie birocratica, ineficienta si reactionara, o prada usoara pentru Clasa I, mai calculata si mobila. (Clasa I, Clasa II = politica de stanga, dreapta) Reamintim cateva notiuni generale: teoria jocurilor utilizeaza matrici de castiguri pentru a reprezenta utilitatea pe care doi jucatori (A si B) se asteapta sa o primeasca in conditiile date. persoana A a 1,2 4,5 b 2,3 5,6

persoana B

a b

In mod general, jucatorii se presupune ca au cunostinte generale despre matrice. Adica persoana A cunoaste ca persoana B cunoaste ca persoana A cunoaste ... numerele din matricea castiguilor. Intrebarea care le punem sunt: ce vor face jucatorii? ce ar trebui sa faca jucatorii? Presupunem ca jucatorii sunt rationali (maximizarea utilitatii). Presupunem ca ei participa deoarece altfel le-ar aduce castiguri mai mici (rationalitate individuala). O strategie S se spune ca este stabila daca nici un jucator nu este motivat sa se abata de la ea.
13

________________________________________________________________________________

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la

O strategie S este definita ca un set de actiuni pe care le pot avea toti jucatorii. In acest caz o strategie de (a,b) ar da persoanei B 2 si persoanei A 3. De asemenea ne referim la strategia persoanei B in S ca S(persoana B), ceea ce reprezinta a in cazul nostru.

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________ In teoria jocurilor, din teoremele dezvoltate de Pareto s-a adoptat axioma Pareto-optimitatii: o strategie S este Pareto-optimal daca nu exista nici o strategie S in care cel putin unui jucator sa nu o duca mai bine si nici un jucator nu o duce mai rau decat in S. In exemplele de la echilibrul Nash, eficienta poate fi determinata prin notiunea de Paretooptimal. Ca si la echillibrul Nash, teorema se intelegel cel mai bine prin urmarirea unor exemple. Un prim exemplu a unui echilibru ce este Pareto-optimal poate fi jocul dilema prizonierilor, cu matricea costurilor: persoana A Strategia 1 Strategia 2 (se confeseaza) (nu se confeseaza) persoana B Strategia 1 (se confeseaza) Strategia 2 (nu se confeseaza) 5,5 10,2 2,10 3,3

Daca ambele persoane marturisesc crima (nestiind ce va face cealalta persoana) amandoua primesc o condamnarede 5 ani. Daca numai o persoana marturiseste (am facut-o impreuna), va obtine o pedeapsa mai scurta, pentru cooperare, si cealalta persoana va optine o pedeapsa mai lunga cu o condamnare bazata pe evidente solide. Daca nici una dintre persoane nu marturiseste, e mult mai dificil pentru stat sa prezinte cazul si condamnarile vor fi mai mici. In acest joc, amandoua persoanele vor marturisi, (strategia dominanta pentru amandoua), in timp ce solutia Pareto-optimala ar fi ca nici unul dintre ei sa nu marturiseasca. Extinderile in acest caz vor fi natura argumentelor, constrangerile, sau intelegerile secrete dintre cele doua persoane, pentru a se gasi o solutie Pareto-optimala. Teoriticianul jocului va cauta sa defineasca in ce mod aceste intelegeri vor fi suportate si ce note de constrangere vor fi impuse. Impunerile pot fi in forma unei razbunari daca unul din jucatori renunta la intelegere sau razbunarea devine posibila prin repetarea jocului. * * * Un alt exemplu din care se poate arata un rezultat Pareto-optimal este prieteni cu preferinte asimetrice Vom considera doua persoane, Ion si Maricica. Ion o place pe Maricica, dar Maricica nu-l place pe Ion la fel de mult. Fiecare cunoaste aceasta, si nici unul dintre ei nu vrea sa-l sune pe celalalt pana nu se decide ce va face dupamiaza: sa stea acasa la ei sau sa mearga la piscina din cartier. Matricea castigurilor: Maricica Acasa 2,0 3,0
14

Ion

Acasa Piscina

________________________________________________________________________________

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la
Piscina 2,1 1,2

Proiect la inteligen artificial Teoria jocurilor ________________________________________________________________________________ In acest caz, strategia cea mai buna a Maricicai depinde de ceea ce face Ion. Dar daca presupune ca Ion este rational, va gandi ca el va decide sa nu stea acasa, pentru ca a merge la piscina e o strategie dominanta pentru el. Stiind aceasta, ea se poate decide sa stea acasa (deoarece 2>1). Aceasta se cheama dominare iterata. In acest exemplu, Maricica primeste o utilitate mai mare ca a lui Ion din cauza preferintelor lor relative, si Ion primeste o utilitate mai mica decat ar fi avut daca Maricica ar fi vrut sa fie cu el. In acest exemplu, Piscina-Acasa (3,0), Acasa-Piscina (2,1) si Piscina-Piscina (1,2) sunt toate rezultate (strategii) Pareto-optimal. * * * Un exemplu asemanator: Ion si Vasile prefera amandoi sa fie in aceleasi locuri (sa inoate sau sa mearga in excursie) dar preferintele lor difera referitor la locul unde fiecare trebuie sa fie. Ion ar prefera sa mearga la inot, iar Vasile ar prefera sa mearga in excursie. Forma normala arata asa: Vasile Inot 3,2 1,1 Excursie 1,1 2,3

Ion

Inot Excursie

Acest joc are trei echilibre Nash: Inot-Inot, Excursie-Excursie si (Inot,2/3;Excursie,1/3)(Inot,1/3;Excursie,2/3). Se observa ca strategia mixa difera pentru fiecare jucator in parte in al treilea echilibru: fiecare se duce la activitatea sa preferata cu o probabilitate de 2/3. Toate aceste echilibrele sunt Pareto-optimal de data aceasta.

15

________________________________________________________________________________

B ht ibli tp ot :// ec eu a v C rek irt o a u flo or .cs ala rin do .tu d le nat ia e In on o si t @ r: F .ro elig ya lo /~ e ho rin fle nta o. L on a co eo /b rti m n via fic .h ia tm la