Estudio de simulación: ¿cómo elegir el número de iteraciones?

Me gustaría generar datos con "Modelo 1" y ajustarlos con "Modelo 2". La idea subyacente es investigar las propiedades de robustez del "Modelo 2". Estoy particularmente interesado en la tasa de cobertura del intervalo de confianza del 95% (basado en la aproximación normal).

¿Cómo configuro el número de ejecuciones de iteración?
¿Es cierto que las réplicas más grandes de lo necesario pueden dar lugar a sesgos espurios? Si es así, ¿cómo es eso?

simulation monte-carlo

— usuario7064
fuente

¿Qué quiere decir con "tasa de cobertura del intervalo de confianza del 95%"? Si el intervalo de confianza es exacto o un buen intervalo aproximado, cubre el valor verdadero del parámetro aproximadamente el 95% del tiempo.

— Michael R. Chernick

Si está generando un intervalo de confianza basado en el Modelo 2 para los datos generados en el Modelo 1, esto parece indicar que los dos modelos están relacionados y contienen algunos de los mismos parámetros. ¿Puedes explicar un poco más? Además, cuando dices "falso" en tu segundo punto, ¿te refieres a incorrecto o simplemente sin importancia? Un mayor número de simulaciones no debería producir sesgo, pero podría revelar un sesgo que tiene poca importancia práctica que no vería con un número menor, similar a cómo puede detectar (es decir, obtener significación estadística) un efecto muy pequeño cuando Tener un tamaño de muestra muy grande.

— Macro

@Michael Chernick: la cobertura insuficiente, por ejemplo, puede lograrse si el error estándar es demasiado pequeño. He editado mi pregunta para especificar que utilizo intervalos de confianza basados en la aproximación normal.

— user7064

@Macro: "Modelo 1" genera datos normales con términos de error heterocedástico y "Modelo 2" es el modelo lineal estándar.

— user7064

Respuestas:

Según su comentario de seguimiento, parece que está tratando de estimar la probabilidad de cobertura de un intervalo de confianza cuando asume una varianza de error constante cuando la varianza de error real no es constante.

La forma en que pienso sobre esto es que, para cada ejecución, el intervalo de confianza cubre el valor verdadero o no. Definir una variable indicadora:

Y_{i} = {\begin{cases} 1 & i f t h e i n t e r v a l c o v e r s \\ 0 & i f i t d o e s n o t \end{cases}

$Y_i = \begin{cases} 1 & {\rm if \ the \ interval \ covers} \\ 0 & {\rm if \ it \ does \ not } \end{cases}$

Entonces, la probabilidad de cobertura que le interesa es que puede estimar por la proporción de muestra que creo que es lo que está proponiendo. $E(Y_i) = p$

¿Cómo configuro el número de ejecuciones de iteración?

$p(1-p)$ $p$ $p(1-p)/n$ $n$ $n$

p (1 - p) / n \leq 1 / 4 n

$p(1-p)/n \leq 1/4n$

$\delta$ $n \geq 1/4\delta$

En una configuración más general, si está tratando de investigar las propiedades de la distribución de muestreo de un estimador por simulación (por ejemplo, es la media y la varianza), entonces puede elegir su número de simulaciones en función de la precisión que desea lograr en un análogo moda a lo descrito aquí.

$n$ $np$ $n(1-p)$ $20$

¿Es cierto que las réplicas más grandes de lo necesario pueden dar lugar a sesgos espurios? Si es así, ¿cómo es eso?

$94.9999\%$

— Macro
fuente

A menudo uso el ancho de los intervalos de confianza como una forma rápida y sucia para determinar la cantidad de iteraciones necesarias.

$p$ $X$ $n$ $X\sim {\rm Bin}(n,p)$

$\hat{p}=X/n$ $p$ $\sqrt{p(1-p)/n}$ $n$ $\hat{p}$ $\hat{p}\pm 1.96\sqrt{\hat{p}(1-\hat{p})/n}$ $p$ $p\approx 0.95$ $2\cdot 1.96\sqrt{0.95\cdot 0.05/n}$

$0.1$ $n$

0.1 = 2 \cdot 1.96 \sqrt{0.95 \cdot 0.05 / n} .

$0.1=2\cdot 1.96\sqrt{0.95\cdot 0.05/n}.$

$n$

— MånsT
fuente

(+1) parece que enviamos una respuesta muy similar aproximadamente al mismo tiempo, pero creo que el lenguaje diferente utilizado puede ser útil para algunos.

— Macro

Sí, de hecho, todavía no sé qué respuesta aceptar. De todos modos, ¡+1 para ambos!

— user7064

@Macro: +1 a ti también. La variación y el ancho del intervalo son, por supuesto, más o menos equivalentes aquí. Las grandes mentes piensan igual, y la nuestra también. ;)

— MånsT

n = (2 \cdot 1.65 \sqrt{0.95 \cdot 0.05} / 0.01)^{2}

$n=(2\cdot 1.65 \sqrt{0.95\cdot 0.05}/0.01)^2$

$\dfrac{\text{Population Standard Deviation}}{\sqrt{n}}$ $d$ $95\%$ $d= 1.96 \times \dfrac{\text{Pop.Std.Dev}}{\sqrt{n}}$ $n=\dfrac{ (1.96 \times\text{Pop.Std.Dev})^2}{d^2}$

Hacer más simulaciones (suponiendo que todas las muestras son generadas por un proceso aleatorio) no perjudica la estimación en términos de precisión o sesgo.

$95\%$ $n$ $\dfrac{p(1-p)}{n}$

— Michael R. Chernick
fuente

Hola Michael. Creo que esta respuesta pierde el punto. El OP está tratando de investigar cómo cambian las propiedades de cobertura de un intervalo de confianza cuando se supone una variación constante, pero la variación real no es constante.

— Macro

@Macro: Tienes razón. Deliberadamente pongo la pregunta en un contexto más amplio para evitar respuestas específicas al problema de asumir una variación constante.

— user7064

@Macro Eso no fue parte de la pregunta que respondí. Al parecer, eso se aclaró más tarde. También parece que lo que interesaba era la precisión de un intervalo de confianza que utiliza la aproximación normal. Esto no parece abordarse en ninguna de las respuestas.

— Michael R. Chernick

@Michael, sí, lo sé, mi punto era más que tú (y yo) pedimos una aclaración, pero no esperaste la aclaración antes de publicar tu respuesta. Re: su segundo comentario, puede investigar las propiedades de cobertura de cualquier intervalo de esta manera, independientemente de si se basó en la aproximación normal o no. Si cree que hay algo distinto que agregar que se pierde en las respuestas existentes, edite su respuesta para que todos podamos aprender.

— Macro

@Macro Por supuesto que estoy de acuerdo contigo. Edité mi respuesta para beneficio del OP. Sospecho que no hay nada en el contenido que ya no sepas.

— Michael R. Chernick