El dilema del prisionero

Escrito por:

Publicación: calendar_month 6 de abril del 2026

En las matemáticas existe una rama especializada llamada la “teoría de juegos”. No se trata de programar juegos de computadora, sino más bien de analizar las decisiones racionales que pueden tomar actores involucrados en una contienda que involucra recompensas y castigos. Un ejemplo notable y al que se regresa una y otra vez, es el llamado “dilema de los prisioneros”.

En este dilema se trata de dos ladrones que han sido atrapados por la policía, siendo alojados en celdas separadas. Si los dos prisioneros cooperan no delatándose mutuamente pueden recibir solo un año de prisión cada uno (lo denotamos 1/1). Si un ladrón delata al otro, y aquel no delata al primero, el delator sale libre y el que se calló la boca recibe cuatro años de prisión (0/4). Finalmente, si los dos se delatan mutuamente, los dos reciben tres años de prisión cada uno (3/3).

La tabla de “pagos”, como se dice en la teoría de juegos, de acuerdo al comportamiento de los dos prisioneros, es la mostrada abajo.

Tabla de recompensa/castigo para dos prisioneros A y B

Mirando la tabla es obvio que lo mejor para ambos prisioneros es cooperar, ya que solo sumarían dos años de cárcel. Lo peor es delatarse mutuamente, lo que produce seis años de cárcel en total..

Ahora bien, cada prisionero se encuentra incomunicado en su celda. Desde su punto de vista hay dos posibilidades: si su compañero no lo delata, lo mejor para él es delatarlo. Así puede salir libre. Pero si su compañero lo delata, lo mejor para él es delatarlo también, para no recibir cuatro sino tres años de prisión. En ambos casos lo mejor es delatar.

Sin embargo, el segundo prisionero está pensando lo mismo, con las mismas consecuencias, de manera que ambos prisioneros se delatan y reciben en total 6 años de prisión en vez de 2 si hubieran cooperado.

Esto, que parece absurdo, es sin embargo un comportamiento completamente racional. Recordemos que cada prisionero solo vela por sus intereses y, sin posibilidad de ponerse de acuerdo, elige la mejor opción para él mismo, que resulta la peor opción para ambos ladrones.

Este pequeño dilema es parecido a muchas interacciones sociales, donde la búsqueda del interés individual puede arruinar al interés social. El problema es que en este tipo de juegos (interacciones) las personas que cooperan pueden ser explotadas por las personas que no cooperan y se aprovechan de su confianza. Pareciera que desgraciadamente la lógica no ofrece espacio para la empatía social y es difícil ver cómo pudo surgir la cooperación en la naturaleza.

Ahora bien, el juego se podría jugar múltiples veces, y se han realizado experimentos al respecto. Un panel de digamos 20 personas juega reiteradamente el mismo juego, con la matriz de pago mostrada arriba, y otra cosa sucede. Aun sin comunicarse, aquellas dos personas que en el pasado han cooperado, siguen cooperando y maximizan su utilidad en el largo plazo. Los traidores, que en cada interacción delatan, se hacen conocidos y a largo plazo todos les responde con traición, con lo que terminan minimizando su utilidad. Es decir, en un juego como el dilema de los prisioneros, si lo iteramos muchas veces, con personas que saben quién es cada quien, puede emerger la cooperación social.

Hace ya más de cuatro décadas Robert Axelrod, un profesor de ciencias políticas en Michigan, organizó un torneo automatizado alrededor del dilema del prisionero, utilizando 14 diferentes estrategias representadas cada una por un pequeño programa. Se jugó el torneo (en la computadora) y la estrategia que resultó ganadora resultó ser muy simple. Se le llamó Tit-for-Tat y consiste en cooperar la primera vez que encontramos al jugador Z. La siguiente vez que Tit-for-Tat encuentra a Z, hace lo mismo que Z hizo en la interacción anterior. Si Z cooperó, Tit-for-Tat coopera, si Z traicionó, Tit-for-Tat traiciona. Es decir, Tit-for-Tat comienza el juego generosamente, cooperando, pero se venga de cada traición que el jugador Z haya realizado. Es una estrategia comprensible y, por lo visto, muy efectiva, ya que en un segundo torneo logró vencer a 62 otras estrategias, algunas de ellas muy rebuscadas.

La conclusión de Axelrod fue que, a pesar de todo y en el marco de la evolución Darwiniana, donde cada organismo solo vela por sus intereses, existe un resquicio para la aparición y evolución de estrategias de cooperación en grupos sociales. En interacciones únicas (en las que nunca nos volvemos a ver), es fácil explotar a algunos actores. Pero en interacciones reiteradas, las personas que no cooperan son identificadas y excluidas de interacciones futuras para que no puedan explotar al conjunto social.