¿Cómo se calculan / estiman los valores de pago en las teorías del juego?

En teorías de juegos como Nash Equilibrium, ¿cómo se crean exactamente los valores de pago de cada jugador para cada una de sus estrategias potenciales? En las matrices 2x2 comunes que he visto en trabajos académicos, los diversos valores de pago parecen simplemente "aparecer" en las matrices sin una explicación de cómo se derivaron / calcularon / estimaron, si esos valores tienen (o necesitan) un nivel de confianza asociado con ellos, etc. ¿Es posible, por ejemplo, tener un rango de valores de pago en lugar de un solo número para una elección de jugador / estrategia dada?

game-theory

— charlie K3
fuente

Aunque pediría un poco más de aclaración a qué documentos se refiere para obtener una respuesta más específica, en general, la respuesta depende un poco del propósito del artículo / juego y los beneficios propuestos.

Artículos como Selten's Chain Store Paradox de 1978 utilizan pagos que son importantes en su magnitud relativa (no en su valor absoluto) como un medio para crear una desconexión percibida entre la Organización Industrial y la Teoría de Juegos. Del mismo modo, en el clásico juego del Dilema del prisionero, los valores reales de "fink / tattle" y "mum / don't" no son tan importantes como el hecho de que la estrategia dominante es que ambos jugadores denoten. Esa recompensa puede ser (0,0) o (-10, -10), siempre y cuando la recompensa sea la estrategia dominante, funciona para el juego.

Una de las razones más importantes por las que se dan valores "exactos" en lugar de intervalos de confianza se debe a cómo se calculan las estrategias. La indiferencia es la clave para definir estrategias mixtas, lo cual es una hazaña mucho más simple si se dan valores exactos.

Dicho esto, hay una variedad de juegos de información imperfecta y, quizás lo más importante para su pregunta, juegos con monitoreo imperfecto que hacen exactamente lo que sugiere: permitir que los pagos dependan de alguna variable aleatoria no observada por uno (o más) de los jugadores

Lamento si eso no fue muy directo o si realmente no respondió completamente a su pregunta, por favor avíseme si puedo mejorar la respuesta. Los intervalos de confianza pueden ser difíciles de usar porque dependen mucho de los resultados estadísticos y no del modelo teórico. Sin embargo, los rangos de valores son un fenómeno relativamente común en ciertos tipos de modelos de teoría de juegos (por ejemplo, ver teoría de subastas). Por lo general, se supone que los jugadores conocen las probabilidades relativas de diferentes pagos, pero incluso eso puede relajarse en ciertas circunstancias.

— AndrewC
fuente

Gracias por la aclaración. Investigaré más sobre teoría de subastas y juegos de monitoreo imperfectos. Sin embargo, ¿no es extraño que en el Dilema del prisionero tengas que elegir las recompensas de manera que provoquen un cierto resultado, es decir, hacer que la estrategia dominante sea el chiste? A este lego le parece que está falsificando los números para que la teoría funcione.

— Charlie K3