Teoria de Juegos

Introduccion Objetivos del Trabajo Desarrollo Estrategias Mixtas (Concepto + Ejemplo Aplicado con solucin Algebraica) Conclusiones Bibliografia
Estrategia Mixta
En teora de juegos una estrategia mixta, a veces tambin llamada estrategia mezclada (del nombre en ingls mixed strategy), es una generalizacin de las estrategias puras, usada para describir la seleccin aleatoria de entre varias posibles estrategias puras, lo que determina siempre una distribucin de probabilidad sobre el vector de estrategias de cada jugador. Una estrategia totalmente mixta es aquella en la que el jugador asigna una probabilidad estrictamente positiva a cada estrategia pura. Las estrategias totalmente mixtas son importantes para el refinamiento del equilibrio. El Objetivo en la Teoria de Juegos es determinar una estrategia Mejor para un jugador dado, bajo la consideracion de que el oponente es racional y realizara movimientos inteligentes en contra. En consecuencia si un jugador siempre seleccionara la misma estrategia pura o selecciona estrategias purs en un orden fijo, su oponente reconocera a tiempo el patron y tratara de vencerlo , si es posible. Por esto, la estrategia mas efectiva es una estrategia mixta, definida por una distribucion probabilistica sobre un conjunto de estrategias pura.
Estrategias Mixtas y equilibrios de Nash
Fue John Forbes Nash en su tesis de doctorado quien demostr que cualquier juego rectangular finito tiene al menos un equilibrio de Nash en estrategias mixtas (la existencia de equilibrios no necesariamente se da para las estrategias puras). Los equilibrios de Nash tienen importancia crucial en la teora de juegos ya que corresponden a estrategias estables.
Ejemplos: Juegos de Coordinacion

El siguiente juego mostrado se conoce como juego de coordinacin. En l, un jugador elige las filas y otro las columnas. El jugador de las filas recibe la recompensa marcada por el primer dgito, el de las columnas la marcada por el segundo. Si el de las filas opta por jugar A con probabilidad 1 (es decir, juega A seguro), entonces est jugando una estrategia pura. Si el de las columnas elige lanzar una moneda y jugar A si sale cara y B si sale cruz, entonces est jugando una estrategia mezclada A 1,1 0,0 B 0,0 1,1
A B
Piedra Papel o Tijera

Consideremos el juego piedra, papel o tijera con la matriz de pagos dada por:
Piedra Papel Tijera
Piedra 0 +1 -1
Papel -1 0 +1
Tijera +1 -1 0
Supongamos que el jugador 1 juega siempre en estrategias puras, por ejemplo piedra. Entonces el jugador 2 podra sacar ventaja de ello jugando siempre papel. Una mejor respuesta del jugador 1 sera entonces jugar con estrategias mixtas, es decir, asignarle cierta probabilidad a cada estrategia y en cada jugada elegir aleatoriamente de acuerdo a la distribucin elegida. Puede demostrarse que siempre que haya sesgo en estas probabilidades (es decir, cuando se le asigne mas probabilidad a una estrategia que a otra), el otro jugador puede sacar ventaja de ello y mejorar su pago esperado. De ste modo, el juego slo tiene un equilibrio de Nash y es (1/3,1/3,1/3), es decir, jugar con igual probabilidad cada estrategia (siempre y cuando se mantengan los pagos dados por la matriz).
Competencia de empresas
Las estrategias mixtas tienen otras interpretaciones adems de la frecuencia con la que se elige cada estrategia pura a lo largo de distintos juegos. Consideremos una empresa que tiene el monopolio de un producto y una recin llegada que quiere entrar a competir por dicho mercado. Justo antes de que la nueva empresa entre al mercado, el monopolio decide lanzar una campaa de publicidad, para la cual existen tres opciones: Regalar productos (con un costo x), anunciarse en la prensa escrita (con un costo y) o anunciarse en medios electrnicos (con un costo z). La nueva empresa solo tiene dos opciones: entrar a competir o no entrar. La matriz de pagos del juego est dada como sigue:
Regalar Muestras Prensa Medios Electrnicos
Entrar (40,20) (30,10) (50,-15)
No Entrar (90,0) (60,0) (60,0)
Si el monopolio jugara en estrategias puras dedicara todo el capital disponible para una de las estrategias. Podemos pensar en cambio que el monopolio tiene la opcin de no hacerse publicidad en un solo medio, sino repartir el dinero disponible en dos o ms de las estrategias. Por ejemplo, la estrategia mixta (1/2,1/4,1/4) significa que el monopolio gast x/2 en regalar muestras, y/4 en medios escritos y z/4 en medios electrnicos. Podemos entonces usar las estrategias mixtas para encontrar la mejor respuesta del monopolio ante la amenaza del competidor.
Juegos con suma distinta de cero (Concepto + Ejemplo Aplicado)

Estos juegos describen situaciones donde lo jugadores participan intentando maximizar sus beneficios sin importar que los dems participantes ganen o pierdan en el intento. Un ejemplo clsico es el dilema del prisionero. Se presenta de la siguiente manera: El dilema del prisionero es un problema fundamental de la teora de juegos que muestra que dos personas pueden no cooperar incluso si en ello va el inters de ambas. Fue desarrollado originariamente por Merrill Flood y Melvin Dresher mientras trabajaban en RAND en 1950. Albert W. Tucker formaliz el juego con la frase sobre las recompensas penitenciarias y le dio el nombre del "dilema del prisionero" (Poundstone, 1995). Es un ejemplo de problema de suma no nula. Las tcnicas de anlisis de la teora de juegos estndar, por ejemplo determinar el equilibrio de Nash, pueden llevar a cada jugador a escoger traicionar al otro, pero ambos jugadores obtendran un resultado mejor si colaborasen. En el dilema del prisionero iterado, la cooperacin puede obtenerse como un resultado de equilibrio. Aqu se juega repetidamente, por lo que, cuando se repite el juego, se ofrece a cada jugador la oportunidad de castigar al otro jugador por la no cooperacin en juegos anteriores. As, el incentivo para defraudar puede ser superado por la amenaza del castigo, lo que conduce a un resultado cooperativo. La enunciacin clsica del dilema del prisionero es: La polica arresta a dos sospechosos. No hay pruebas suficientes para condenarlos y, tras haberlos separado, los visita a cada uno y les ofrece el mismo trato. Si uno confiesa y su cmplice no, el cmplice ser condenado a la pena total, diez aos, y el primero ser liberado. Si uno calla y el cmplice confiesa, el primero recibir esa pena y ser el cmplice quien salga libre. Si ambos confiesan, ambos sern condenados a seis aos. Si ambos lo niegan, todo lo que podrn hacer ser encerrarlos durante seis meses por un cargo menor. Lo que puede resumirse como:
Tu confiesas El confiesa El lo Niega Ambos son condenados a 6 aos. El es condenado a 10 aos y tu sales Libre.
Tu lo Niegas El Sale libre y tu eres condenado a 10 aos. Ambos son condenados a 6 meses.
Vamos a suponer que ambos prisioneros son completamente egostas y su nica meta es reducir su propia estancia en la crcel. Como prisioneros tienen dos opciones: cooperar con su cmplice y permanecer callado, o traicionar a su cmplice y confesar. El resultado de cada eleccin depende de la eleccin del cmplice. Por desgracia, uno no conoce qu ha elegido hacer el otro. Incluso si pudiesen hablar entre s, no podran estar seguros de confiar mutuamente. Si uno espera que el cmplice escoja cooperar con l y permanecer en silencio, la opcin ptima para el primero sera confesar, lo que significara que sera liberado inmediatamente, mientras el cmplice tendr que cumplir una condena de 10 aos. Si espera que su cmplice decida confesar, la mejor opcin es confesar tambin, ya que al menos no recibir la condena completa de 10 aos, y slo tendr que esperar 6, al igual que el cmplice. Y, sin embargo, si ambos decidiesen no cooperar y permanecer en silencio, ambos seran liberados en slo 6 meses. Confesar es una estrategia dominante para ambos jugadores. Sea cual sea la eleccin del otro jugador, pueden reducir siempre su sentencia confesando. Por desgracia para los prisioneros, esto conduce a un resultado regular, en el que
ambos confiesan y ambos reciben largas condenas. Aqu se encuentra el punto clave del dilema. El resultado de las interacciones individuales produce un resultado que no es ptimo -en el sentido de eficiencia de Pareto-; existe una situacin tal que la utilidad de uno de los detenidos podra mejorar (incluso la de ambos) sin que esto implique un empeoramiento para el resto. En otras palabras, el resultado en el cual ambos detenidos no confiesan domina al resultado en el cual los dos eligen confesar. Si se razona desde la perspectiva del inters ptimo del grupo (de los dos prisioneros), el resultado correcto sera que ambos cooperasen, ya que esto reducira el tiempo total de condena del grupo a un total de un ao. Cualquier otra decisin sera peor para ambos si se consideran conjuntamente. A pesar de ello, si siguen sus propios intereses egostas, cada uno de los dos prisioneros recibir una sentencia dura. Si has tenido una oportunidad para castigar al otro jugador por confesar, entonces un resultado cooperativo puede mantenerse. La forma iterada de este juego (mencionada ms abajo) ofrece una oportunidad para este tipo de castigo. En ese juego, si el cmplice traiciona y confiesa una vez, se le puede castigar traicionndolo a la prxima. As, el juego iterado ofrece una opcin de castigo que est ausente en el modo clsico del juego. Una opcin es considerar este dilema como una simple "mquina de la verdad". El jugador puede tomar no dos, sino tres opciones: cooperar, no cooperar o, sencillamente, no jugar. La respuesta lgica en este caso es "no jugar", pues el prisionero carece de informacin suficiente para jugar correctamente: no sabe cul ser la opcin de su compaero. No hay tal dilema, pues no es posible el juego. Si juega, se trata de una "apuesta", ms que de una solucin lgica. Pensemos tambin que el prisionero en realidad est "jugando" con su carcelero, no con el otro prisionero. El carcelero le ofrece una opcin. Para l, la mayor ganancia sera condenar al prisionero a la pena mayor, pues se es su trabajo. Si logra condenar a los dos a la mxima pena, doble ganancia. El prisionero sabe eso, en el fondo. Slo "jugara" si supiera con toda certeza que el polica cumplira su palabra a pesar de su confesin. Pero tampoco lo sabe. En realidad, prisionero-carcelero y prisionero-prisionero estn jugando al mismo juego: encubrir o traicionar (en el caso del ejemplo de los prisioneros, no concuerda el verdad o mentira puesto que decir la verdad sera traicionar). Tu encubres Maximo beneficio comun El Gana, Tu pierdes Tu traicionas Tu Ganas, El Pierde Maximo Beneficio Comun
El encubre El traiciona
En este caso, decir la verdad equivale a cooperar, a callarse. Pero un jugador slo optar por la casilla "verdad" si sabe que el otro jugador tambin opta por la misma solucin. En la vida real, eso no lo sabemos: hay que "jugar", es decir, arriesgarse. Todo se basa en la "relacin de confianza" existente entre los dos jugadores. Pongamos, por ejemplo, que los dos prisioneros son hermanos, con una relacin de confianza muy estrecha. O que lo son uno de los prisioneros y el carcelero. Entonces s sabran (casi con toda seguridad, pero nunca completa) cul sera la opcin de su compaero, y entonces siempre jugaran correctamente: cooperaran. La nica solucin lgica es, por tanto, decir la verdad. Y adems ser la que dar el mximo beneficio comn. Este planteamiento nos lleva a la correcta solucin del dilema, que es decir la verdad, cooperar. Pero en este caso el error estaba en el planteamiento correcto del dilema, que no es pensar en nuestro beneficio (ser egosta) sino en el del "otro" (ser generoso). En este caso, jugando a "verdad" siempre conseguiremos que el "otro" gane. Si el objetivo del juego es que siempre gane el rival, hay pues una nica solucin lgica, y que no depende de la jugada del rival. Dilema resuelto. Una solucin "incorrecta" sera en el caso que el hermano traicione al hermano. Aun as, el juego es correcto (pues todo juego tiene una y slo una solucin lgica). Lo que ha sucedido es que ha cambiado el nombre del juego: ahora lo podramos llamar "Descubre al mentiroso". Hemos ganado, pues descubrimos a un mentiroso. Tu Ganas Los 2 dijeron la Verdad Tu mentiste Tu Pierdes El Mintio Los 2 mintieron
El Gana El Pierde
Es entonces una autntica "mquina de la verdad".
El dilema del prisionero es pues siempre un juego dual; pero siempre tiene una solucin lgica. Si los dos juegan lgicamente, es decir, con honestidad, el juego es beneficioso para ambos. Si uno engaa y el otro no, el juego se llama "Descubre al Mentiroso", y ambos vuelven a ganar. Pero si pensamos en el Dilema como bsqueda egosta, y no generosa, la jugada "incorrecta" del dilema impide la iteracin, luego finaliza el juego. Por esa razn, el jugador "ilgico" siempre tendr dos objetivos: uno, engaar al honesto; y dos, convencerle a posteriori de que no fue engaado, mediante otro ardid, para poder seguir engandole. Un mentiroso siempre necesitar otra mentira para cubrir la primera. Este tipo de estrategias es muy comn en la vida cotidiana y se conoce como "manipulacin". Para algunos, quizs exagerando, la poltica (la mala poltica) es el arte de la manipulacin continua. Y que la estrategia funcione tiene tanto que ver con la "mentira" del tramposo como la "doble ingenuidad" del honesto. Fiarse de un mentiroso no es honestidad, sino estupidez. (De ah que la estrategia conocida como "vengativa no rencorosa", o Toma y daca (tit for tat) ver ms adelante sea la ms eficaz). Pero sabemos que el nico resultado correcto es bueno para todos los jugadores, y ste slo sucede cuando todos dicen la verdad. Si alguien miente, engaa o manipula, la solucin siempre ser incorrecta. O, dicho de otro modo, si la solucin es incorrecta, es que alguien nos enga o nos minti. El cientfico cognitivo Douglas Hofstadter (ver las referencias ms abajo) sugiri una vez que la gente encuentra muchas veces problemas como el dilema del prisionero ms fciles de entender cuando estn presentados como un simple juego o intercambio. Uno de los ejemplos que us fue el de dos personas que se encuentran e intercambian bolsas cerradas, con el entendimiento de que una de ellas contiene dinero y la otra contiene un objeto que est siendo comprado. Cada jugador puede escoger seguir el acuerdo poniendo en su bolsa lo que acord, o puede engaar ofreciendo una bolsa vaca. En este juego de intercambio el engao no es la mejor opcin, pues si los dos anteponen su egosmo al bien comn nunca sern capaces de realizar un intercambio, ya que las dos personas siempre darn la bolsa vaca.
Matriz de Pagos del Dilema del Prisionero

En el mismo artculo, Hofstadter tambin observ que la matriz de pagos del dilema del prisionero puede, de hecho, escribirse de mltiples formas, siempre que se adhiera al siguiente principio: (T > R > C > P), donde: T es la tentacin para traicionar (esto es, lo que obtienes cuando desertas y el otro jugador coopera); R es la recompensa por la cooperacin mutua; C es el castigo por la desercin mutua; P es la paga del primo (esto es, lo que obtienes cuando cooperas y el otro jugador deserta). En el caso del dilema del prisionero, la frmula se cumple: 0 > -0,5 > -6 > -10 (en negativo pues los nmeros corresponden a aos de crcel). Suele tambin cumplirse que (T + C)/2 < R, y esto se requiere en el caso iterado. Las frmulas anteriores aseguran que, independientemente de los nmeros exactos en cada parte de la matriz de pagos, es siempre "mejor" para cada jugador desertar, haga lo que haga el otro. Siguiendo este principio, y simplificando el dilema del prisionero al escenario del cambio de bolsas anterior (o a un juego de dos jugadores tipo Axelrod ver ms abajo), obtendremos la siguiente matriz de pagos cannica para el dilema del prisionero, esto es, la que se suele mostrar en la literatura sobre este tema: Cooperar 3,3 5,-5 Desertar -5,5 -1,-1
Cooperar Desertar
En terminologa "ganancia-ganancia" la tabla sera similar a esta: Cooperar Ganar- Ganar Ganar- Perder Desertar Perdida- Ganancia Perder Perder
Cooperar Desertar
Otro criterio seria este: En el tratamiento del Dilema del Prisionero por lo general slo se considera una matriz con los resultados individuales o egostas pero no con los resultados conjuntos o de bien comn, esto es, la suma de los resultados individuales. Podemos crear una matriz de resultados extendida: Prisionero A No Confesar No Confesar Confesar Confesar Prisionero B No Confesar Confesar No Confesar Confesar Prisionero A 1 ao en Prision 5 aos en Prision 0 aos en Prision 3 aos en Prision Prisionero B 1 ao en Prision 0 aos en Prision 5 aos en Prision 3 aos en Prision Ambos 2 aos en Prision 5 aos en Prision 5 aos en Prision 6 aos en Prision
A partir de esta matriz de resultados podemos utilizar un criterio del resultado conjunto o del bien comn que produce resultados diferentes a los obtenidos por el criterio de los resultados individuales o egostas: La decisin que beneficia en forma conjunta a ambos participantes es No Confesar que resulta en un total de dos aos de crcel contra cinco o seis aos de crcel con las otras decisiones. Dos importantes corolarios de este criterio son los siguientes: La mejor decisin basada en el criterio individual o egosta es opuesta a la decisin basada en el criterio conjunto o del bien comn. La decisin conjunta o de bien comn implica un costo individual real o de oportunidad. Recordemos que el concepto de Costo de Oportunidad se refiere al beneficio que se deja de percibir que es diferente al desembolso de algo que se posea. En este caso, el costo individual de la decisin altruista o de bien comn es de un ao de crcel en lugar de salir libre de manera inmediata. Ntese que no se habla de la culpabilidad o inocencia reales de los presuntos criminales sino de la decisin de confesar o no hacerlo. El efecto del cambio de criterio, del resultado individual o egosta al resultado conjunto o del bien comn, produce un cambio de 180 en el anlisis del Dilema del Prisionero. El ms importante corolario de este dilema es que la nica forma de ganar es con un cambio de valores: del egosmo individual al altrusmo del bien comn. Este puede ser el juego de supervivencia del planeta: o la humanidad termina en la extincin o sobrevive gracias al respeto al otro. El instinto filial (amor padres-hijos) adquirido en el proceso evolutivo ha permitido la supervivencia de la especie humana, que de otra forma ya se hubiera extinguido debido a la incapacidad de los infantes humanos para sobrevivir sin la proteccin de sus padres o substitutos; tal incapacidad es mayor en los humanos que en ninguna otra especie animal. El problema es que no existe el tiempo para adquirir por evolucin biolgica un instinto social o de amor al otro. Parece que la nica salida es adelantarse al proceso evolutivo con la toma de conciencia y el cambio propositivo de valores de los seres humanos. La paradoja de todo lo anterior es que para lograr el beneficio individual es menester respetar el bien comn. El egosmo finalmente desemboca en la auto-destruccin de la humanidad. Los mensajes ticos producto de la sabidura humana, desde los albores del hombre, son vigentes.
Ejemplos de la Vida Real

Estos ejemplos en concreto en los que intervienen prisioneros, intercambio de bolsas y cosas parecidas pueden parecer rebuscados, pero existen, de hecho, muchos ejemplos de interacciones humanas y de interacciones naturales en las que se obtiene la misma matriz de pagos. El dilema del prisionero es por ello de inters para ciencias sociales como economa, ciencia poltica y sociologa, adems de ciencias biolgicas como etologa y biologa evolutiva.
En ciencia poltica, dentro del campo de las relaciones internacionales, el escenario del dilema del prisionero se usa a menudo para ilustrar el problema de dos estados involucrados en una carrera armamentstica. Ambos razonarn que tienen dos opciones: o incrementar el gasto militar, o llegar a un acuerdo para reducir su armamento. Ninguno de los dos estados puede estar seguro de que el otro acatar el acuerdo; de este modo, ambos se inclinarn hacia la expansin militar. La irona est en que ambos estados parecen actuar racionalmente, pero el resultado es completamente irracional. Otro interesante ejemplo tiene que ver con un concepto conocido de las carreras en ciclismo, por ejemplo el Tour de Francia. Considrense dos ciclistas a mitad de carrera, con el pelotn a gran distancia. Los dos ciclistas trabajan a menudo conjuntamente (cooperacin mutua) compartiendo la pesada carga de la posicin delantera, donde no se pueden refugiar del viento. Si ninguno de los ciclistas hace un esfuerzo para permanecer delante, el pelotn les alcanzar rpidamente (desercin mutua). Un ejemplo visto a menudo es que un slo ciclista haga todo el trabajo (coopere), manteniendo a ambos lejos del pelotn. Al final, esto llevar probablemente a una victoria del segundo ciclista (desertor) que ha tenido una carrera fcil en la estela del primer corredor. Un ejemplo adicional se puede observar en las intersecciones de dos vas por donde circulan autos y donde ninguna tiene una preferencia sobre la otra: si todos los conductores colaboran y hacen turnos para pasar, la pequea espera se justifica por el beneficio de no generar una congestin en el medio. Si alguien no colabora y el resto s, se beneficia el "no colaborador" generando un desorden en la secuencia de turnos que perjudica a los que estaban colaborando. Por ltimo, cuando nadie quiere colaborar y tratan de pasar primero, se genera una gran congestin donde todos pierden mucho tiempo. Por ltimo, la conclusin terica del dilema del prisionero es una razn por la cual, en muchos pases, se prohben los acuerdos judiciales. A menudo, se aplica precisamente el escenario del dilema del prisionero: est en el inters de ambos sospechosos el confesar y testificar contra el otro prisionero/sospechoso, incluso si ambos son inocentes del supuesto crimen. Se puede decir que, el peor caso se da cuando slo uno de ellos es culpable: no es probable que el inocente confiese, mientras que el culpable tender a confesar y testificar contra el inocente.
http://es.wikipedia.org/wiki/Suma_no_nula http://es.wikipedia.org/wiki/Dilema_del_prisionero http://es.wikipedia.org/wiki/Juego_de_suma_cero http://www.angelfire.com/ak5/bustosfarias/clase38.pdf http://es.wikipedia.org/wiki/Estrategia_mixta http://conexion-ethos.blogspot.com/2009/07/juegos-suma-cero-y-no-nula.html

Teoria de Juegos

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Teoria de Juegos

Încărcat de

Drepturi de autor:

Formate disponibile

Introduccion Objetivos del Trabajo Desarrollo Estrategias Mixtas (Concepto + Ejemplo Aplicado con solucin Algebraica) Conclusiones Bibliografia

Estrategias Mixtas y equilibrios de Nash

Ejemplos: Juegos de Coordinacion

Piedra Papel o Tijera

Piedra Papel Tijera

Regalar Muestras Prensa Medios Electrnicos

Entrar (40,20) (30,10) (50,-15)

No Entrar (90,0) (60,0) (60,0)

Juegos con suma distinta de cero (Concepto + Ejemplo Aplicado)

Es entonces una autntica "mquina de la verdad".

Matriz de Pagos del Dilema del Prisionero

Ejemplos de la Vida Real

S-ar putea să vă placă și