Sunteți pe pagina 1din 15

Teoria jocurilor

Curs 6

2011/2012

Introducere
Orice piata (in particular si o piata electronica) poate fi descrisa ca un mediu in care o multime de agenti (software, agenti umani, etc.) se intalnesc pentru a tranzactiona produse sau servicii. O etapa foarte importanta a acestui proces o reprezinta negocierea. Negocierea presupune interactiunea intre agenti conform unor reguli generale publice numite protocol sau mecanism de negociere si valabile pentru toti agentii, si urmand o strategie particulara privata, specifica fiecarui agent in parte. Agentii au interese personale (engl.self-interested), adica ei dispun de preferinte proprii ce pot fi diferite pentru fiecare agent in parte. Agentii sunt rationali (engl.rational), adica ei actioneaza in interes personal in sensul maximizarii bunastarii proprii, a preferintelor proprii sau a rasplatii (engl.payoff).
2011/2012

Relatia de preferinta
Orice negociere are in vedere obtinerea unei intelegeri (engl.agreement) ce exprima un acord intre agenti. Acordul reprezinta rezultatul (engl.outcome) negocierii. Exista o multime de rezultate sau intelegeri posibile pe care o notam cu = { 1, 2, , n, ...}. Elementele lui se mai numesc stari. Fiecare agent i este auto-interesat, adica este caracterizat printr-o relatie de preferinta proprie i definita pe multimea rezultatelor posibile cu interpretarea:
x i y daca rezultatul y este preferat fata de rezultatul x de agentul i

2011/2012

Proprietati ale relatiei de preferinta


O relatie de preferinta are de obicei urmatoarele 3 proprietati: Completitudine, numita si conexitate sau comparabilitate:
Pentru orice doua rezultate x si y avem fie x i y, fie y i x, fie ambele

Reflexivitate
Pentru orice rezultat x avem x i x

Tranzitivitate
Pentru orice rezultate x, y si z, daca x i y si y i z atunci x i z

2011/2012

Functia de utilitate
Se numeste functie de utilitate pentru un agent i o functie ui : IR cu proprietatea ca x i y daca si numai daca ui(x) ui(y). Se spune ca functia de utilitate ui reprezinta relatia de preferinta i pentru agentul i. Relatia de preferinta este calitativa, iar functia de utilitate este cantitativa. Putem defini si o relatie de preferinta stricta in felul urmator:
x <i y daca si numai daca x i y si (y i x)

Se observa ca in termenii functiilor de utilitate:


x <i y daca si numai daca ui(x) < ui(y)

Se poate defini o relatie de echivalenta a preferintelor astfel:


x i y daca si numai daca x i y si y i x ; din completitudinea relatiei i rezulta ca exact una dintre x <i y sau x <i y sau x i y este adevarata

2011/2012

Interpretarea functiei de utilitate

Utilitate bani, insa in mod cert exista o legatura de monotonie intre utilitate si bani. Aceasta legatura ne permite sa argumentam de ce utilitatea trebuie sa fie marginita superior:
Utilitatea unei sume de bani va creste din ce in ce mai incet pe masura ce suma de bani creste. Volumul total al economiei este marginit superior in orice moment.

2011/2012

Economia bunastarii (i)


Interpretand o multime de agenti A ca pe o societate de agenti, valoarea ui(x) se poate interpreta ca bunastarea (engl.welfare) perceputa de agentul i A in urma receptionarii rezultatului x. Problema fundamentala a economiei bunastarii (engl.welfare economics) este modul in care bunastarea fiecarui agent in parte afecteaza bunastarea intregii societati de agenti, numita si bunastare sociala. Bunastarea sociala se determina printr-o functie de utilitate colectiva (engl.collective utility function). Bunastarea sociala utilitara (engl.utilitarian social welfare) asociata unui rezultat x se defineste prin:
bsu(x) = iA ui(x)

Maximizarea bunastarii sociale utilitare este echivalenta cu maximizarea utilitatii medii percepute de toti agentii societatii.
2011/2012

Economia bunastarii (ii)


Bunastarea sociala egalitara (engl.egalitarian social welfare) asociata unui rezultat x se defineste prin:
bse(x) = miniA ui(x)

Maximizarea bunastarii sociale egalitare este echivalenta cu maximizarea utilitatii celui mai sarac dintre toti agentii societatii. Bunastarea sociala Nash (engl.Nash social welfare) asociata unui rezultat x se defineste prin:
bsn(x) = iA ui(x)

Maximizarea bunastarii sociale Nash favorizeaza bunastarea sociala utilitara (la fel ca functia bsu). Insa in cazul unei bunastari sociale utilitare egale este favorizata o repartitie egalitara a utilitatii deoarece maximul produsului unor numere pozitive cu suma constanta se obtine cand numerele sunt egale conform inegalitatii mediilor.
2011/2012

Optimalitate Pareto
Conceptul de optimalitate Pareto a fost introdus de inginerul, sociologul, economistul si filosoful italian Vilfredo Federico Damaso Pareto (1848 1923). Un rezultat x este Pareto optimal sau optimal in sens Pareto daca nu exista nici un alt rezultat y care sa fie strict mai bun decat x pentru cel putin un agent fara sa fie mai rau decat x pentru nici un alt agent.
(y (iA x<iy) (iA xiy))
Mamaia Petre Paul Maria bsu bse bsn 5 2 3 10 2 30 Istanbul 8 3 7 18 3 168 Ayia Napa 1 14 4 19 1 56 2011/2012

Mamaia este singurul rezultat care nu este Pareto optimal.

Teoria jocurilor
Teoria jocurilor (engl.game theory) este o ramura a matematicii (unii o considera o ramura a stiintelor economice microeconomie) preocupata de studiul comportamentului strategic al agentilor rationali si auto-interesati care interactioneaza in scopul luarii de decizii. Fiind dat mecansimul de negociere, ce strategie va adopta fiecare agent? Se considera ca fiecare agent i are la dispozitie o multime de actiuni Aci. Fiecare agent poate influenta mediul prin executia unei actiuni, astfel ca evolutia mediului poate fi descrisa printro functie ce asociaza cate un rezultat posibil fiecarei actiuni cumulate (engl.joint action) a agentilor:
: iA Aci

O astfel de situatie se descrie printr-un joc in forma normala.


2011/2012

Exemplu
Dilema prizonierilor (engl.prisoners dilemma). Doi prizonieri A si B suspectati de crima sunt interogati separat de politie. Fiecarui participant i se ofera urmatoarele optiuni:
Marturiseste doar el => este eliberat, adica 0 ani inchisoare Marturiseste doar celalalt => primeste 5 ani inchisoare Amandoi marturisesc => primeste 3 ani inchisoare Nici unul nu marturiseste => primeste 1 an inchisoare

Se defineste utilitatea unui participant prin 5 n, unde n = numarul de ani de inchisoare. Cu cat n este mai mare, cu atat utilitatea este mai mica. Problema se poate reprezenta printr-o matrice a rezultatelor: uA / uB A marturiseste A nu marturiseste B marturiseste 2/2 0/5 B nu marturiseste 5/0 4/4
2011/2012

Jocuri in forma normala


Se numeste joc in forma normala (engl.normal form game) o tripleta (A,Ac,u) unde:
A este o multime finita de n agenti numiti jucatori Ac = Ac1 Ac2 Acn unde Aci este multimea de actiuni a jucatorului i A. Un vector (a1, a2, , an) Ac se numeste actiune cumulata sau profil de actiuni (engl.action profile). u = (u1, u2, , un) este un tuplu de functii, unde fiecare ui : Ac IR este functia de utilitate a agentului i A.

Se observa ca in aceasta reprezentare se ignora functia , identificandu-se practic fiecare rezultat posibil cu o actiune cumulata. Cu alte cuvinte se considera ca = Ac.

2011/2012

Jocuri cu rezultat comun


Daca pentru orice doi jucatori diferiti i j A si pentru orice a Ac avem ui(a) = uj(a) atunci jocul se numeste joc cu rezultat comun (engl.common payoff game), joc de coordonare pura (engl.pure coordination game) sau joc de echipa (engl.team game). Jocul soferilor. Doi soferi conduc unul inspre celalalt pe o strada dintr-o tara in care nu exista reguli de circulatie. O strada are doua benzi si fiecare poate alege independent de celalalt pe ce banda sa circule: stanga sau dreapta.
Daca cei doi soferi aleg sa circule pe aceeasi banda, indiferent de aceasta, ei vor avea o utilitate mare deoarece nu se vor ciocni Daca cei doi soferi aleg sa circule pe benzi diferite, utilitatea lor va fi mai mica deoarece se vor ciocni

uA / uB A pe stanga A pe dreapta

B pe stanga 1/1 0/0

B pe dreapta 0/0 1/1


2011/2012

Jocuri cu suma nula


Daca intr-un joc cu doi jucatori (A = {1,2}) in forma normala exista o constanta c astfel incat pentru orice a Ac avem u1(a) + u2(a) = c atunci jocul se numeste joc cu suma constanta (engl.constant-sum game). Se poate considera fara a pierde generalitatea ca c = 0, rezultand un joc cu suma nula (engl.zero-sum game). Daca jocurile cu rezultat comun reprezinta o situatie de cooperare pura, jocurile cu suma nula reprezinta o situatie de competitie pura (x <1 y dnd y <2 x). Jocul identificarii monedelor (engl.matching pennies). Fiecare dintre cei doi jucatori are o moneda si alege sa afiseze fie marca, fie banul, urmand sa se compare rezultatele:
Daca rezultatele sunt la fel atunci monedele sunt castigate de jucatorul 1 Daca rezultatele sunt diferite atunci monedele sunt castigate de jucatorul 2

Utilitatea unui jucator este egala cu diferenta intre numarul de monede de la sfarsitul jocului si numarul de monede de la inceputul jocului.

u1 / u2 1 afiseaza marca 1 afiseaza banul

2 afiseaza marca 1 / -1 -1 / 1

2 afiseaza banul -1 / 1 1 / -1
2011/2012

Strategii
Orice actiune si Aci se numeste strategie (numita si strategie pura) a unui jucator i A intr-un joc cu n jucatori in forma normala (A,Ac,u) Orice tuplu (s1, s2, , sn) Ac se numeste strategie cumulata (engl.joint strategy) sau profil de strategie (engl.strategy profile) si se noteaza prin s sau (si). Se noteaza prin (s-i) strategia cumulata a tuturor jucatorilor, exceptand jucatorul i. Atunci (si,s-i) va reprezenta o strategie cumulata in care jucatorul i alege sa joace strategia si. Se observa ca rezultatul jocului este determinat de strategia cumulata, astfel ca fiecare agent / jucator va contribui la rezultatul final al jocului. Ne intereseaza in ce masura strategia privata a unui jucator poate influenta rezultatul jocului.
2011/2012

Strategia maxmin
Strategia maxmin a fost propusa de Von Neumann. Un agent alege actiunea care sa-i maximizeze valoarea minima a utilitatii pe care ar puteao obtine. Fie un joc cu doi jucatori 1 si 2. Strategia maxmin s1* a jucatorului 1 este: mins Ac u1(s1*,s2) = maxs Ac (mins Ac u1(s1,s2)) 2 2 1 1 2 2 Exemplu. Se considera un joc cu 2 jucatori 1 si 2 astfel incat Act1 = {a,b} si Act2 = {c,d}. u1 / u2 c d a 1/2 4/3 b 3/2 2/4 Strategia maxmin pentru jucatorul 1 este s1* = b si pentru jucatorul 2 este s2* = d. O problema a strategiei maxmin este ca echilibrul nu este stabil. Spre exemplu, daca jucatorul 1 stie ca jucatorul 2 va juca strategia maxmin (adica d) atunci el va juca a nu (b), deoarece astfel va obtine o utilitate de 4 in loc de 2.

2011/2012

Strategia minmax
Strategia minmax este duala strategiei maxmin. Un agent alege actiunea care sa minimizeze valoarea maxima a utilitatii pe care ar putea-o obtine adversarul sau. Fie un joc cu doi jucatori 1 si 2. Strategia minmax s1* a jucatorului 1 este: maxs Ac u2(s1*,s2) = mins Ac (maxs Ac u2(s1,s2)) 2 2 1 1 2 2 Exemplu. Se considera un joc cu 2 jucatori 1 si 2 astfel incat Act1 = {a,b} si Act2 = {c,d}. u1 / u2 c d a 1/2 4/3 b 3/2 2/4 Strategia minmax pentru jucatorul 1 este s1* = a si pentru jucatorul 2 este s2* = c. Similar cu strategia maxmin, echilibrul strategiei minmax nu este stabil. Spre exemplu, daca jucatorul 1 stie ca jucatorul 2 va juca strategia minmax (adica c) atunci el va juca b nu (a), obtinand utilitatea de 3 in loc de 2.

2011/2012

Strategii dominante
Fie doua strategii si1, si2 Aci ale unui jucator i A. Se spune ca si1 domina strict pe si2 daca ui(si1,s-i) > ui(si2,s-i) pentru orice s-i. Se spune ca si1 domina pe si2 daca ui(si1,s-i) ui(si2,s-i) pentru orice s-i. si exista s-i astfel incat ui(si1,s-i) > ui(si2,s-i). Daca pentru o strategie si exista o strategie si astfel incat si domina (strict) pe si atunci si se numeste strategie dominata (strict). O strategie si* Aci a unui jucator i A se numeste strategie dominanta (strict) a jucatorului i daca ea domina (strict) toate celelalte strategii ale jucatorului i. In dilema prizonierilor ambii jucatori au o strategie dominanta strict, si anume sa marturiseasca:
Daca B marturisteste atunci uA(A marturiseste, B marturiseste) = 2 > uA(A nu marturiseste, B marturiseste) = 0 Daca B nu marturiseste atunci uA(A marturiseste, B nu marturiseste) = 5 > uA(A nu marturiseste, B nu marturiseste) = 4 uA(A marturiseste) = [2 5], uA(A nu marturiseste) = [0 4] Vectorul [2 5] domina Pareto (strict) vectorul [0 4]

2011/2012

Echilibru cu strategie dominanta


Agentii fiind rationali, ei vor alege intotdeauna acea strategie care sa le maximizeze castigul, daca exista o astfel de strategie. Se numeste echilibru cu strategie dominanta (engl.dominant strategy equilibrum) un profil de strategie s* Ac astfel incat pentru pentru orice jucator i A, si* Aci este o strategie dominanta a lui i. Spre exemplu, pentru dilema prizonierilor, strategia cumulata (A marturiseste, B marturiseste) este un echilibru cu strategie dominanta. Batalia sexelor (engl.battle of sexes). Doi jucatori, Maria si Ion, trebuie sa decida daca sa mearga la cumparaturi sau sa joace fotbal. uM / uI M cumparaturi I cumparaturi 2/1 I fotbal 0/0

M fotbal 0/0 1/2 Pentru Maria e mai bine sa aleaga sa mearga la cumparaturi daca si Ion ar alege cumparaturile, dar i-ar fi mai rau alegand cumparaturile daca Ion ar alege sa joace fotbal. Deci joucl nu are strategie dominanta pentru Maria.
2011/2012

Echilibru Pareto optimal


Un profil de strategie s domina Pareto un profil de strategie s daca pentru orice i A avem ui(s) ui(s) si exista cel putin un jucator i A astfel incat ui(s) > ui(s). Un profil de strategie s se numeste Pareto optimal daca nu exista nici un alt profil de strategie s care domina Pareto pe s. Orice joc are cel putin un echilibru Pareto optimal. Acest lucru se poate demonstra usor prin reducere la absurd. Un joc poate avea mai multe echilibre Pareto optimale. Spre exemplu, jocul bataliei sexelor are doua echilibre Pareto optimale:
(M cumparaturi, I cumparaturi) si (M fotbal, I fotbal)

Echilibrul Pareto optimal este de dorit din punctul de vedere al optimizarii bunastarii sociale. Din pacate echilibrul Pareto poate sa fie instabil, in sensul ca unii jucatori pot fi stimulati sa aleaga o actiune diferita pentru a putea obtine o utilitate mai mare. Spre exemplu in echilibrul (M cumparaturi, I cumparaturi) Ion poate fi stimulat sa aleaga sa joace fotbal pentru ca astfel ar putea obtine o 2011/2012 utilitate mai mare.

Echilibru Nash
Un protocol de negociere trebuie sa fie stabil. Stabilitatea inseamna ca protocolul sa nu fie manipulabil, in sensul ca el trebuie sa motiveze (stimuleze) agentii sa se comporte in maniera dorita. Faptul ca agentii sunt auto-interesati, ori de cate ei ar putea sa devieze de la comportamentul dorit in scopul maximizarii rezultatului propriu, o vor face. Spre exemplu, am vazut ca atat echilibrul determinat de strategia maxmin, cat si cel determinat de strategia Pareto optimala nu sunt stabile. Se numeste raspuns optim (engl.best response) al unui jucator i intr-un joc cu n jucatori la un profil de strategie s-i al celorlalti jucatori, o strategie si* astfel incat ui(si*, s-i) ui(si, s-i) pentru orice strategie si Aci. Pentru orice jucator i, exista intotdeauna un cel mai bun raspuns si acesta poate sa nu fie unic. Un profil de strategie s = (s1, s2, , sn) Ac este un echilibru Nash daca si numai daca pentru orice agent i A, strategia si a jucatorului i este un un raspuns optim la profilul de strategie al celorlalti jucatori s-i. Intuitiv, un echilibru Nash este stabil. Daca fiecare agent cunoaste strategiile celorlalti jucatori, va sti ca daca doar el va schimba strategia in mod cert va pierde (nu va castiga). 2011/2012

Echilibru Nash strict


Raspunsul optim strict (engl.strictly best response) al unui jucator i intr-un joc cu n jucatori la un profil de strategie s-i al celorlalti jucatori este acea strategie unica si* astfel incat ui(si*, s-i) > ui(si, s-i) pentru orice strategie si Aci, si* si. Un profil de strategie s = (s1, s2, , sn) Ac este un echilibru Nash strict daca si numai daca pentru orice agent i A, strategia si a jucatorului i este raspunsul optim strict la profilul de strategie al celorlalti jucatori s-i. Un echilibru Nash se mai numeste si echilibru Nash slab (engl.weak Nash equilibrium). Intuitiv, un echilibru Nash slab este mai putin stabil decat un echilibru Nash strict, deoarece agentii isi pot schimba strategia fara sa le scada utilitatea. Nu orice joc are un echilibru Nash. Exista jocuri cu mai multe echilibre Nash.
2011/2012

Exemplu de joc fara echilibru Nash


Se considera jocul identificarii monedelor.
u1 / u2 1 afiseaza marca 1 afiseaza banul 2 afiseaza marca 1 / -1 -1 / 1 2 afiseaza banul -1 / 1 1 / -1

Cel mai bun raspuns al lui 1 la 2 afiseaza banul este 1 afiseaza banul. Cel mai bun raspuns al lui 1 la 2 afiseaza marca este 1 afiseaza marca. Cel mai bun raspuns al lui 2 la 1 afiseaza marca este 2 afiseaza banul. Cel mai bun raspuns al lui 2 la 1 afiseaza banul este 2 afiseaza marca.
2011/2012

Exemplu de joc cu mai multe echilibre Nash


Se considera jocul bataliei sexelor. uM / uI M cumparaturi M fotbal I cumparaturi 2/1 0/0 I fotbal 0/0 1/2

Cel mai bun raspuns al Mariei la Ion alege fotbal este Maria alege fotbal. Cel mai bun raspuns al Mariei la Ion alege cumparaturi este Maria alege cumparaturi. Cel mai bun raspuns al lui Ion la Maria alege fotbal este Ion alege fotbal. Cel mai bun raspuns al lui Ion la Maria alege cumparaturi este Ion alege cumparaturi. Exista doua echilibre Nash:
(Maria alege fotbal, Ion alege fotbal) (Maria alege cumparaturi, Ion alege cumparaturi)
2011/2012

Strategii mixte
Un jucator i poate alege dintre actiunile disponibile Aci pe baza unei distributii de probabilitate. Pentru orice multime X fie (X) multimea tuturor distributiilor de probabilitate definite pe X. Fie (A,Ac,u) un joc in forma normala. Multimea strategiilor mixte (engl.mixed strategy) si disponibile jucatorului i A este Si = (Aci). Probabilitatea unei actiuni ai intr-o strategia mixta si este egala cu si(ai). Se numeste profil de strategie mixta (engl.mixed-strategy profile) un element al produsului cartezian S = S1S2Sn. Multimea {ai | si(ai) > 0} se numeste suportul (engl.support) strategiei mixte si. Orice strategie pura are suportul o multime singleton. Daca suportul este intreaga multime Aci atunci strategia se numeste complet mixta (engl.fully mixed) 2011/2012

Utilitate asteptata
Pentru a determina rezultatul unui profiul de strategie mixta se foloseste utilitatea asteptata (engl.expected utility) din teoria deciziei. Fie (A,Ac,u) un joc in forma normala. Utilitatea asteptata pentru un jucator i A pentru un profil de strategie mixta s = (s1, s2, , sn) se defineste prin: ui(s) = aAcui(a)nj=1 sj(aj) Definitiile notiunilor de raspuns optim si echilibru Nash se pastreaza si pentru strategiile mixte. Teorema (Nash, 1951). Orice joc cu un numar finit de jucatori astfel incat fiecare jucator are la dispozitie un numar finit de actiuni are cel putin un echilibru Nash.
2011/2012

Exemplu
Se considera jocul bataliei sexelor din perspectiva strategiilor mixte.
uM / uI M cumparaturi M fotbal I cumparaturi 2/1 0/0 I fotbal 0/0 1/2

Sa presupunem ca strategia lui Ion este sa opteze pentru cumparaturi cu probabilitatea p si pentru fotbal cu 1-p, iar strategia Mariei este sa opteze pentru cumparaturi cu probabilitatea q si pentru fotbal cu 1-q. uM((q:c,(1-q):f),(p:c,(1-p):f)) = uM(c,c)qp+uM(c,f)q(1-p)+uM(f,c)(1q)p+uM(f,f)(1-q,1-p) = 2qp + 0q(1-p) + 0(1-q)p + 1(1-q)(1-p) = 2qp + (1q)(1-p) = q(3p-1)+1-p este o functie de q cu parametru p
crescatoare daca p>1/3, are un maxim in q = 1 p > 1/3 si q = 1 descrescatoare pentru p<1/3, are un maxim in q = 0 p < 1/3 si q = 0 constanta daca p =1/3, adica nu conteaza ce va alege Maria p = 1/3 si q = oricat

uI((q:c,(1-q):f),(p:c,(1-p):f)) = p(3q-2)+2-2q functie de p cu parametru q


crescatoare daca q >2/3, maxim in p = 1 p = 1 si q > 2/3 descrescatoare daca q<2/3, maxim in p = 0 p = 0 si q < 2/3 constanta daca q = 2/3, adica nu conteaza ce va alege Ion p = oricat si q = 2/3

Avem 3 echilibre (2 pure si 1 mixt): p=q=1,p=q=0, p=1/3 si q=2/3

2011/2012

Legatura dintre echilibrele Nash si Pareto


Nu exista o relatia generala intre echilibrele Nash si echilibrele Pareto. Un echilibru Nash nu este neaparat echilibru Pareto (adica optimal in sens Pareto). De gasit un exemplu ! Un echilibru Pareto nu este neaparat echilibru Nash (am vazut exemplul jocului bataliei sexelor). Un echilibru Pareto ar fi insa de dorit in cazul asigurarii unei bunastari sociale. In general un joc poate avea mai multe echilibre Nash, iar acest lucru este o problema, deoarece agentii vor avea nevoie de mecanisme suplimentare de coordonare pentru a converge catre aceeasi strategie.
2011/2012

Echilibre Nash in jocuri cu suma nula


Teorema (von Neumann 1928). In orice joc finit cu suma nula cu doi jucatori, orice echilibru Nash va produce utilitati ale fiecarui jucator egale cu valorile pe care acestia le-ar putea obtine aplicand strategiile minmax sau maxmin (cele doua valori sunt egale). Demonstratie: ????? In concluzie, echilibrele Nash si strategiile maxmin, respectiv minmax corespund in jocurile cu suma nula cu doi jucatori.

2011/2012

S-ar putea să vă placă și