Summary
En este LP se aprende todo lo que hay sobre los juegos simultáneos. Estos juegos, que se utilizan cuando se considera un juego donde los jugadores se mueven o desempeñan sus estrategias al mismo tiempo, son de uso común en muchos campos. Desde estrategias militares a acuerdos de colusión, el análisis de estas situaciones como partidas simultáneas puede ayudarnos a descubrir la mejor manera de actuar.Equilibrio de Nash y estrategia dominante:
- Dilema del prisionero
- Equilibrio de Nash
- Estrategias dominantes
Estrategias mixtas:
Estrategias continuas:
El dilema del prisionero es probablemente el juego más utilizado en la teoría de juegos. Su uso ha trascendido la economía, ya que actualmente se utiliza en campos como administración de empresas, psicología, o biología. Apodado en 1950 por Albert W. Tucker, que lo desarrolló a partir de trabajos anteriores, describe una situación en la que dos prisioneros, sospechosos de robo, pasan a estar en custodia de la policía. Sin embargo, los policías no tienen suficientes pruebas para condenarlos de ese crimen, sólo para condenarlos por el cargo de posesión de bienes robados, que conlleva una pena mucho menor.
Si ninguno de ellos confiesa (cooperan entre sí), ambos serán sentenciados a la pena menor, un año de prisión cada uno. La policía los interrogará en salas de interrogatorio diferentes, lo que significa que los dos prisioneros no pueden comunicarse entre ellos (por lo tanto tendrán información imperfecta). La policía tratará de convencer a cada prisionero de que confiese el crimen, ofreciéndoles salir libres de inmediato, mientras que el otro prisionero será condenado a una pena de diez años. Si ambos prisioneros confiesan, cada preso será condenado a ocho años. A ambos prisioneros se les ofrece el mismo trato, ambos conocen las consecuencias de cada acción (información completa) y son completamente conscientes de que al otro prisionero se le ha ofrecido el mismo trato (por lo tanto la información es de conocimiento común).
Descripción:
Dado que los presos no pueden comunicarse y deberán (supuestamente) tomar su decisión al mismo tiempo, este se considera un juego simultáneo, y puede ser analizado utilizando la forma estratégica, como se muestra en la matriz de juego adyacente. Como se ha descrito antes, si los dos prisioneros confiesan el crimen se les condenará a una pena de ocho años cada uno. Si ninguno confiesa, se les condenará a un año cada uno. Si sólo uno confiesa, ese prisionero saldrá libre, mientras que el otro se condenará a diez años de cárcel. Estas pueden ser vistas como los pagos para cada conjunto de estrategias.
Eliminar todas las estrategias dominadas, con el fin de obtener la estrategia dominante, puede resolver este juego. Esto es, cada prisionero analizará su mejor estrategia dada las posibles estrategias del otro prisionero. El prisionero 1 (P1) tiene analizar lo que P2 se va a hacer, con el fin de elegir la mejor estrategia. Si P2 confiesa (P2C), P1 obtendrá un pago de -8 o 0, y si miente (P2M) obtendrá -10 o -1. Se puede ver fácilmente que P2 elegirá confesar, ya que le resulta más conveniente. Por lo tanto, P1 debe elegir la mejor estrategia dado que P2 elegirá a confesar: P1 puede confesar (P1C, con un pago de -8) o mentir (P1M, con un pago de -10). Lo racional para P1 es confesar. Procediendo a la inversa, se analizan las creencias que P2 tiene sobre las estrategias de P1, lo que nos lleva al mismo punto: lo racional para P2 es confesar. Por lo tanto, «confesar» es la estrategia dominante. P1C,P2C es el equilibrio de Nash en este juego (subrayado en rojo), ya que es el conjunto de estrategias que maximizan la utilidad de cada prisionero dada la estrategia del otro prisionero.
Los equilibrios Nash se pueden utilizar para predecir el resultado de juegos finitos, siempre que exista tal equilibrio. Sin embargo, nos encontramos con el problema que surge cuando se trata de un equilibrio de Nash que no es ni social ni ético, y donde la eficiencia puede ser subjetiva, que es el caso en el dilema del prisionero. En este juego, el equilibrio de Nash no cumple con los criterios para ser óptimo de Pareto (subrayado en verde).
Generalización del juego:
El dilema del prisionero no siempre se presenta como hemos visto en este caso. Los pagos para cada conjunto de estrategias pueden cambiar, dependiendo de cada persona. Sin embargo, hay algunas reglas que se pueden utilizar para construir un juego del dilema del prisionero «correcto».
En la matriz de juego adyacente hemos cambiado los pagos de cada jugador, con el fin de determinar las condiciones necesarias para diseñar el juego del dilema del prisionero. En el dilema del prisionero tradicional, tenemos: A> B> C> D (en términos absolutos). En nuestro ejemplo anterior, se cumple esta condición (A = 10, B = 8, C = 1 y D = 0). En todos los casos, A> B y C> D implica que confesar-confesar es un equilibrio de Nash.
Debe tenerse en cuenta que la simetría del juego no es la parte más importante del dilema del prisionero. Lo interesante de este juego es el hecho de que su equilibrio de Nash no es socialmente óptimo.
El dilema del prisionero repetido:
Con el fin de ver lo qué equilibrio se alcanza en un juego repetido de tipo dilema del prisionero, hay que analizar dos casos: cuando el juego se repite un número finito de veces, y cuando el juego se repite un número infinito de veces.
Cuando los presos saben el número de repeticiones, es interesante operar una inducción hacia atrás para resolver el juego. Hay que tener en cuenta las estrategias de cada jugador cuando se dan cuenta de que la próxima ronda va a ser la última. Se comportan como si se tratara de un juego de una única repetición, por lo tanto se aplica el equilibrio de Nash y el equilibrio será confesar-confesar, al igual que en el juego de una sola repetición. Consideremos ahora la penúltima ronda. Dado que cada jugador sabe que en la siguiente ronda (la última) ambos van a confesar, no hay ningún beneficio al mentir (cooperar entre sí) en esta ronda tampoco. La misma lógica se aplica para las rondas anteriores. Por lo tanto, confesar-confesar es el equilibrio de Nash para todas las rondas.
La situación con un número infinito de repeticiones es diferente. Puesto que no habrá última ronda, un razonamiento de inducción hacia atrás no funciona aquí. En cada ronda, los dos prisioneros calculan que habrá otra ronda y por lo tanto siempre hay beneficios derivados de la estrategia de cooperar (en la que ambos mienten). Sin embargo, los presos deben tener en cuenta las estrategias de castigo, en caso de que el otro jugador confiese en cualquier ronda.