Encontrar precisión de la estimación de simulación de Monte Carlo

Antecedentes

Estoy diseñando una simulación de Monte Carlo que combina las salidas de series de modelos, y quiero estar seguro de que la simulación me permitirá hacer afirmaciones razonables sobre la probabilidad del resultado simulado y la precisión de esa estimación de probabilidad.

La simulación determinará la probabilidad de que un jurado proveniente de una comunidad específica condenará a un determinado acusado. Estos son los pasos de la simulación:

Utilizando los datos existentes, genere un modelo de probabilidad logística ( M ) haciendo retroceder el “voto de primera votación del jurado” en predictores demográficos.
Utilice los métodos de Monte Carlo para simular 1,000 versiones de M (es decir, 1000 versiones de los coeficientes para los parámetros del modelo).
Seleccione una de las 1,000 versiones del modelo ( M _i ).
Empanel 1,000 jurados seleccionando al azar 1,000 conjuntos de 12 “jurados” de una “comunidad” ( C ) de individuos con distribuciones características demográficas específicas.
Calcule de manera determinista la probabilidad de una primera votación de voto culpable para cada miembro del jurado utilizando M _i .
Convierta el voto probable de cada "miembro del jurado" en un voto determinado (en función de si es mayor o menor que el valor seleccionado al azar entre 0-1).
Determine el "voto final" de cada "jurado" utilizando un modelo (derivado de datos empíricos) de la probabilidad de que un jurado condenará, condicional a la proporción de miembros del jurado que votan por la condena en la primera votación.
Almacene la proporción de veredictos de culpabilidad para los 1000 jurados ( PG _i ).
Repetir los pasos 3-8 para cada uno de los 1.000 versiones simuladas de M .
Calcular el valor medio de PG y el informe de que a medida que la estimación puntual de la probabilidad de convicción en C .
Identifique los valores de percentil 2.5 y 97.5 para PG e informe eso como un intervalo de confianza de 0.95.

Actualmente estoy usando 1,000 miembros del jurado y 1,000 jurados en la teoría de que 1,000 extractos al azar de una distribución de probabilidad (características demográficas de C o versiones de M) completarán esa distribución.

Preguntas

¿Esto me permitirá determinar con precisión la precisión de mi estimación? Si es así, ¿cuántos jurados necesito para cada cálculo de PG _i para cubrir la distribución de probabilidad de C (así evito el sesgo de selección); ¿Puedo usar menos de 1,000?

¡Muchísimas gracias por toda ayuda!

— Maggie
fuente

Solo por curiosidad: ¿hay algo en este modelo que dependa de si el acusado es realmente culpable ?

— whuber

El modelo se basa en las respuestas de la encuesta a un patrón de hecho único, por lo que la culpa real no varía. Estoy prediciendo cómo saldrían diferentes jurados en un solo caso impugnado.

— Maggie

De acuerdo, bromeando, informan tres estimaciones: la media y los percentiles 2.5 y 97.5 de PG. ¿Para cuál (es) necesita una determinación "precisa" y qué tan precisa debe ser?

— whuber

Además, el paso (6) es misterioso. ¿Podría explicar qué se pretende hacer? ¿Existe un "valor seleccionado al azar" diferente para cada miembro del jurado (5), cada jurado (4), cada modelo (3) o alguna combinación de los mismos?

— whuber

(Ver comentario anterior) Creo que puedo reducir (a), el número de jurados. El error de muestreo es una función del número de muestras. Con 1,000 jurados por modelo, tengo un millón de muestras en total. El error de muestreo asociado con 10 ^ 6 muestras es ~ 0.1%. Si uso solo 35 jurados por modelo, tendría 3.5 * 10 ^ 4 muestras y ~ 0.5% de error de muestreo. Este error de muestreo es mucho más pequeño que mi error de medición de ~ 5.0%. Por lo tanto, debería poder usar 35 jurados por modelo y solo usar el error de medición para estimar mi intervalo de confianza.

— Maggie

Respuestas:

Hay un criterio general y "en el universo" para la bondad de Monte Carlo: la convergencia.

Apéguese a una M y verifique cómo se comporta el PG con el número de jurados: debe converger, por lo que le mostrará una cantidad de repeticiones para las que tendrá un número razonable (para su aplicación) de dígitos significativos. Repita este punto de referencia para algunas otras M para asegurarse de que no tuvo suerte con la selección de M, luego continúe con toda la simulación.

No estoy seguro de que alguien haya respondido completamente a las preguntas. Tiene dos partes: (1) ¿La estrategia de modelado descrita proporciona una solución defendible para el problema que quiere resolver, a saber, cuál es la probabilidad de que un jurado extraído al azar de una comunidad, C , con características demográficas específicas vote para encontrar un acusado culpable? Y (2) Si la estrategia de modelado es razonable, ¿cuántos "jurados" debe seleccionar, y cuántos "veredictos" debe simular para cada uno, para informar una estimación defendible del problema de condena y 0.95 CI? Ella quiere economizar en informática. Ver su último comentario

— dmk38

Me parece que el problema aquí es si el modelo es demasiado complejo para mirar sin usar la simulación de Monte Carlo.

Si el modelo es relativamente simple, entonces debería ser posible mirarlo a través de estadísticas convencionales y derivar una solución a la pregunta que se hace, sin volver a ejecutar el modelo varias veces. Esto es un poco una simplificación excesiva, pero si todo lo que hizo su modelo fue producir puntos basados en una distribución normal, entonces podría derivar fácilmente el tipo de respuestas que está buscando. Por supuesto, si el modelo es así de simple, es poco probable que necesite hacer una simulación de Monte Carlo para encontrar sus respuestas.

Si el problema es complejo y no es posible dividirlo en más elemental, el Monte-Carlo es el tipo de modelo adecuado para usar, pero no creo que haya ninguna forma de definir límites de confianza sin ejecutar el modelo. En última instancia, para obtener el tipo de límites de confianza descritos, el modelo tendría que ejecutarse varias veces, una distribución de probabilidad tendría que ajustarse a los resultados y desde allí podrían definirse los límites de confianza. Uno de los desafíos con la simulación Monte-Carlo es que los modelos dan respuestas buenas y regulares para distribuciones en el rango medio, pero las colas a menudo dan resultados mucho más variables, lo que en última instancia significa más corridas para definir la forma de las salidas al 2.5% y 97.5% percentiles.

— Ian Turner
fuente