Documente Academic
Documente Profesional
Documente Cultură
Estrategia Mixta
En teora de juegos una estrategia mixta, a veces tambin llamada estrategia mezclada (del nombre en ingls mixed strategy), es una generalizacin de las estrategias puras, usada para describir la seleccin aleatoria de entre varias posibles estrategias puras, lo que determina siempre una distribucin de probabilidad sobre el vector de estrategias de cada jugador. Una estrategia totalmente mixta es aquella en la que el jugador asigna una probabilidad estrictamente positiva a cada estrategia pura. Las estrategias totalmente mixtas son importantes para el refinamiento del equilibrio. El Objetivo en la Teoria de Juegos es determinar una estrategia Mejor para un jugador dado, bajo la consideracion de que el oponente es racional y realizara movimientos inteligentes en contra. En consecuencia si un jugador siempre seleccionara la misma estrategia pura o selecciona estrategias purs en un orden fijo, su oponente reconocera a tiempo el patron y tratara de vencerlo , si es posible. Por esto, la estrategia mas efectiva es una estrategia mixta, definida por una distribucion probabilistica sobre un conjunto de estrategias pura.
Fue John Forbes Nash en su tesis de doctorado quien demostr que cualquier juego rectangular finito tiene al menos un equilibrio de Nash en estrategias mixtas (la existencia de equilibrios no necesariamente se da para las estrategias puras). Los equilibrios de Nash tienen importancia crucial en la teora de juegos ya que corresponden a estrategias estables.
A B
Piedra 0 +1 -1
Papel -1 0 +1
Tijera +1 -1 0
Supongamos que el jugador 1 juega siempre en estrategias puras, por ejemplo piedra. Entonces el jugador 2 podra sacar ventaja de ello jugando siempre papel. Una mejor respuesta del jugador 1 sera entonces jugar con estrategias mixtas, es decir, asignarle cierta probabilidad a cada estrategia y en cada jugada elegir aleatoriamente de acuerdo a la distribucin elegida. Puede demostrarse que siempre que haya sesgo en estas probabilidades (es decir, cuando se le asigne mas probabilidad a una estrategia que a otra), el otro jugador puede sacar ventaja de ello y mejorar su pago esperado. De ste modo, el juego slo tiene un equilibrio de Nash y es (1/3,1/3,1/3), es decir, jugar con igual probabilidad cada estrategia (siempre y cuando se mantengan los pagos dados por la matriz).
Competencia de empresas
Las estrategias mixtas tienen otras interpretaciones adems de la frecuencia con la que se elige cada estrategia pura a lo largo de distintos juegos. Consideremos una empresa que tiene el monopolio de un producto y una recin llegada que quiere entrar a competir por dicho mercado. Justo antes de que la nueva empresa entre al mercado, el monopolio decide lanzar una campaa de publicidad, para la cual existen tres opciones: Regalar productos (con un costo x), anunciarse en la prensa escrita (con un costo y) o anunciarse en medios electrnicos (con un costo z). La nueva empresa solo tiene dos opciones: entrar a competir o no entrar. La matriz de pagos del juego est dada como sigue:
Si el monopolio jugara en estrategias puras dedicara todo el capital disponible para una de las estrategias. Podemos pensar en cambio que el monopolio tiene la opcin de no hacerse publicidad en un solo medio, sino repartir el dinero disponible en dos o ms de las estrategias. Por ejemplo, la estrategia mixta (1/2,1/4,1/4) significa que el monopolio gast x/2 en regalar muestras, y/4 en medios escritos y z/4 en medios electrnicos. Podemos entonces usar las estrategias mixtas para encontrar la mejor respuesta del monopolio ante la amenaza del competidor.
Tu confiesas El confiesa El lo Niega Ambos son condenados a 6 aos. El es condenado a 10 aos y tu sales Libre.
Tu lo Niegas El Sale libre y tu eres condenado a 10 aos. Ambos son condenados a 6 meses.
Vamos a suponer que ambos prisioneros son completamente egostas y su nica meta es reducir su propia estancia en la crcel. Como prisioneros tienen dos opciones: cooperar con su cmplice y permanecer callado, o traicionar a su cmplice y confesar. El resultado de cada eleccin depende de la eleccin del cmplice. Por desgracia, uno no conoce qu ha elegido hacer el otro. Incluso si pudiesen hablar entre s, no podran estar seguros de confiar mutuamente. Si uno espera que el cmplice escoja cooperar con l y permanecer en silencio, la opcin ptima para el primero sera confesar, lo que significara que sera liberado inmediatamente, mientras el cmplice tendr que cumplir una condena de 10 aos. Si espera que su cmplice decida confesar, la mejor opcin es confesar tambin, ya que al menos no recibir la condena completa de 10 aos, y slo tendr que esperar 6, al igual que el cmplice. Y, sin embargo, si ambos decidiesen no cooperar y permanecer en silencio, ambos seran liberados en slo 6 meses. Confesar es una estrategia dominante para ambos jugadores. Sea cual sea la eleccin del otro jugador, pueden reducir siempre su sentencia confesando. Por desgracia para los prisioneros, esto conduce a un resultado regular, en el que
ambos confiesan y ambos reciben largas condenas. Aqu se encuentra el punto clave del dilema. El resultado de las interacciones individuales produce un resultado que no es ptimo -en el sentido de eficiencia de Pareto-; existe una situacin tal que la utilidad de uno de los detenidos podra mejorar (incluso la de ambos) sin que esto implique un empeoramiento para el resto. En otras palabras, el resultado en el cual ambos detenidos no confiesan domina al resultado en el cual los dos eligen confesar. Si se razona desde la perspectiva del inters ptimo del grupo (de los dos prisioneros), el resultado correcto sera que ambos cooperasen, ya que esto reducira el tiempo total de condena del grupo a un total de un ao. Cualquier otra decisin sera peor para ambos si se consideran conjuntamente. A pesar de ello, si siguen sus propios intereses egostas, cada uno de los dos prisioneros recibir una sentencia dura. Si has tenido una oportunidad para castigar al otro jugador por confesar, entonces un resultado cooperativo puede mantenerse. La forma iterada de este juego (mencionada ms abajo) ofrece una oportunidad para este tipo de castigo. En ese juego, si el cmplice traiciona y confiesa una vez, se le puede castigar traicionndolo a la prxima. As, el juego iterado ofrece una opcin de castigo que est ausente en el modo clsico del juego. Una opcin es considerar este dilema como una simple "mquina de la verdad". El jugador puede tomar no dos, sino tres opciones: cooperar, no cooperar o, sencillamente, no jugar. La respuesta lgica en este caso es "no jugar", pues el prisionero carece de informacin suficiente para jugar correctamente: no sabe cul ser la opcin de su compaero. No hay tal dilema, pues no es posible el juego. Si juega, se trata de una "apuesta", ms que de una solucin lgica. Pensemos tambin que el prisionero en realidad est "jugando" con su carcelero, no con el otro prisionero. El carcelero le ofrece una opcin. Para l, la mayor ganancia sera condenar al prisionero a la pena mayor, pues se es su trabajo. Si logra condenar a los dos a la mxima pena, doble ganancia. El prisionero sabe eso, en el fondo. Slo "jugara" si supiera con toda certeza que el polica cumplira su palabra a pesar de su confesin. Pero tampoco lo sabe. En realidad, prisionero-carcelero y prisionero-prisionero estn jugando al mismo juego: encubrir o traicionar (en el caso del ejemplo de los prisioneros, no concuerda el verdad o mentira puesto que decir la verdad sera traicionar). Tu encubres Maximo beneficio comun El Gana, Tu pierdes Tu traicionas Tu Ganas, El Pierde Maximo Beneficio Comun
El encubre El traiciona
En este caso, decir la verdad equivale a cooperar, a callarse. Pero un jugador slo optar por la casilla "verdad" si sabe que el otro jugador tambin opta por la misma solucin. En la vida real, eso no lo sabemos: hay que "jugar", es decir, arriesgarse. Todo se basa en la "relacin de confianza" existente entre los dos jugadores. Pongamos, por ejemplo, que los dos prisioneros son hermanos, con una relacin de confianza muy estrecha. O que lo son uno de los prisioneros y el carcelero. Entonces s sabran (casi con toda seguridad, pero nunca completa) cul sera la opcin de su compaero, y entonces siempre jugaran correctamente: cooperaran. La nica solucin lgica es, por tanto, decir la verdad. Y adems ser la que dar el mximo beneficio comn. Este planteamiento nos lleva a la correcta solucin del dilema, que es decir la verdad, cooperar. Pero en este caso el error estaba en el planteamiento correcto del dilema, que no es pensar en nuestro beneficio (ser egosta) sino en el del "otro" (ser generoso). En este caso, jugando a "verdad" siempre conseguiremos que el "otro" gane. Si el objetivo del juego es que siempre gane el rival, hay pues una nica solucin lgica, y que no depende de la jugada del rival. Dilema resuelto. Una solucin "incorrecta" sera en el caso que el hermano traicione al hermano. Aun as, el juego es correcto (pues todo juego tiene una y slo una solucin lgica). Lo que ha sucedido es que ha cambiado el nombre del juego: ahora lo podramos llamar "Descubre al mentiroso". Hemos ganado, pues descubrimos a un mentiroso. Tu Ganas Los 2 dijeron la Verdad Tu mentiste Tu Pierdes El Mintio Los 2 mintieron
El Gana El Pierde
El dilema del prisionero es pues siempre un juego dual; pero siempre tiene una solucin lgica. Si los dos juegan lgicamente, es decir, con honestidad, el juego es beneficioso para ambos. Si uno engaa y el otro no, el juego se llama "Descubre al Mentiroso", y ambos vuelven a ganar. Pero si pensamos en el Dilema como bsqueda egosta, y no generosa, la jugada "incorrecta" del dilema impide la iteracin, luego finaliza el juego. Por esa razn, el jugador "ilgico" siempre tendr dos objetivos: uno, engaar al honesto; y dos, convencerle a posteriori de que no fue engaado, mediante otro ardid, para poder seguir engandole. Un mentiroso siempre necesitar otra mentira para cubrir la primera. Este tipo de estrategias es muy comn en la vida cotidiana y se conoce como "manipulacin". Para algunos, quizs exagerando, la poltica (la mala poltica) es el arte de la manipulacin continua. Y que la estrategia funcione tiene tanto que ver con la "mentira" del tramposo como la "doble ingenuidad" del honesto. Fiarse de un mentiroso no es honestidad, sino estupidez. (De ah que la estrategia conocida como "vengativa no rencorosa", o Toma y daca (tit for tat) ver ms adelante sea la ms eficaz). Pero sabemos que el nico resultado correcto es bueno para todos los jugadores, y ste slo sucede cuando todos dicen la verdad. Si alguien miente, engaa o manipula, la solucin siempre ser incorrecta. O, dicho de otro modo, si la solucin es incorrecta, es que alguien nos enga o nos minti. El cientfico cognitivo Douglas Hofstadter (ver las referencias ms abajo) sugiri una vez que la gente encuentra muchas veces problemas como el dilema del prisionero ms fciles de entender cuando estn presentados como un simple juego o intercambio. Uno de los ejemplos que us fue el de dos personas que se encuentran e intercambian bolsas cerradas, con el entendimiento de que una de ellas contiene dinero y la otra contiene un objeto que est siendo comprado. Cada jugador puede escoger seguir el acuerdo poniendo en su bolsa lo que acord, o puede engaar ofreciendo una bolsa vaca. En este juego de intercambio el engao no es la mejor opcin, pues si los dos anteponen su egosmo al bien comn nunca sern capaces de realizar un intercambio, ya que las dos personas siempre darn la bolsa vaca.
Cooperar Desertar
En terminologa "ganancia-ganancia" la tabla sera similar a esta: Cooperar Ganar- Ganar Ganar- Perder Desertar Perdida- Ganancia Perder Perder
Cooperar Desertar
Otro criterio seria este: En el tratamiento del Dilema del Prisionero por lo general slo se considera una matriz con los resultados individuales o egostas pero no con los resultados conjuntos o de bien comn, esto es, la suma de los resultados individuales. Podemos crear una matriz de resultados extendida: Prisionero A No Confesar No Confesar Confesar Confesar Prisionero B No Confesar Confesar No Confesar Confesar Prisionero A 1 ao en Prision 5 aos en Prision 0 aos en Prision 3 aos en Prision Prisionero B 1 ao en Prision 0 aos en Prision 5 aos en Prision 3 aos en Prision Ambos 2 aos en Prision 5 aos en Prision 5 aos en Prision 6 aos en Prision
A partir de esta matriz de resultados podemos utilizar un criterio del resultado conjunto o del bien comn que produce resultados diferentes a los obtenidos por el criterio de los resultados individuales o egostas: La decisin que beneficia en forma conjunta a ambos participantes es No Confesar que resulta en un total de dos aos de crcel contra cinco o seis aos de crcel con las otras decisiones. Dos importantes corolarios de este criterio son los siguientes: La mejor decisin basada en el criterio individual o egosta es opuesta a la decisin basada en el criterio conjunto o del bien comn. La decisin conjunta o de bien comn implica un costo individual real o de oportunidad. Recordemos que el concepto de Costo de Oportunidad se refiere al beneficio que se deja de percibir que es diferente al desembolso de algo que se posea. En este caso, el costo individual de la decisin altruista o de bien comn es de un ao de crcel en lugar de salir libre de manera inmediata. Ntese que no se habla de la culpabilidad o inocencia reales de los presuntos criminales sino de la decisin de confesar o no hacerlo. El efecto del cambio de criterio, del resultado individual o egosta al resultado conjunto o del bien comn, produce un cambio de 180 en el anlisis del Dilema del Prisionero. El ms importante corolario de este dilema es que la nica forma de ganar es con un cambio de valores: del egosmo individual al altrusmo del bien comn. Este puede ser el juego de supervivencia del planeta: o la humanidad termina en la extincin o sobrevive gracias al respeto al otro. El instinto filial (amor padres-hijos) adquirido en el proceso evolutivo ha permitido la supervivencia de la especie humana, que de otra forma ya se hubiera extinguido debido a la incapacidad de los infantes humanos para sobrevivir sin la proteccin de sus padres o substitutos; tal incapacidad es mayor en los humanos que en ninguna otra especie animal. El problema es que no existe el tiempo para adquirir por evolucin biolgica un instinto social o de amor al otro. Parece que la nica salida es adelantarse al proceso evolutivo con la toma de conciencia y el cambio propositivo de valores de los seres humanos. La paradoja de todo lo anterior es que para lograr el beneficio individual es menester respetar el bien comn. El egosmo finalmente desemboca en la auto-destruccin de la humanidad. Los mensajes ticos producto de la sabidura humana, desde los albores del hombre, son vigentes.
En ciencia poltica, dentro del campo de las relaciones internacionales, el escenario del dilema del prisionero se usa a menudo para ilustrar el problema de dos estados involucrados en una carrera armamentstica. Ambos razonarn que tienen dos opciones: o incrementar el gasto militar, o llegar a un acuerdo para reducir su armamento. Ninguno de los dos estados puede estar seguro de que el otro acatar el acuerdo; de este modo, ambos se inclinarn hacia la expansin militar. La irona est en que ambos estados parecen actuar racionalmente, pero el resultado es completamente irracional. Otro interesante ejemplo tiene que ver con un concepto conocido de las carreras en ciclismo, por ejemplo el Tour de Francia. Considrense dos ciclistas a mitad de carrera, con el pelotn a gran distancia. Los dos ciclistas trabajan a menudo conjuntamente (cooperacin mutua) compartiendo la pesada carga de la posicin delantera, donde no se pueden refugiar del viento. Si ninguno de los ciclistas hace un esfuerzo para permanecer delante, el pelotn les alcanzar rpidamente (desercin mutua). Un ejemplo visto a menudo es que un slo ciclista haga todo el trabajo (coopere), manteniendo a ambos lejos del pelotn. Al final, esto llevar probablemente a una victoria del segundo ciclista (desertor) que ha tenido una carrera fcil en la estela del primer corredor. Un ejemplo adicional se puede observar en las intersecciones de dos vas por donde circulan autos y donde ninguna tiene una preferencia sobre la otra: si todos los conductores colaboran y hacen turnos para pasar, la pequea espera se justifica por el beneficio de no generar una congestin en el medio. Si alguien no colabora y el resto s, se beneficia el "no colaborador" generando un desorden en la secuencia de turnos que perjudica a los que estaban colaborando. Por ltimo, cuando nadie quiere colaborar y tratan de pasar primero, se genera una gran congestin donde todos pierden mucho tiempo. Por ltimo, la conclusin terica del dilema del prisionero es una razn por la cual, en muchos pases, se prohben los acuerdos judiciales. A menudo, se aplica precisamente el escenario del dilema del prisionero: est en el inters de ambos sospechosos el confesar y testificar contra el otro prisionero/sospechoso, incluso si ambos son inocentes del supuesto crimen. Se puede decir que, el peor caso se da cuando slo uno de ellos es culpable: no es probable que el inocente confiese, mientras que el culpable tender a confesar y testificar contra el inocente.