Tengo casi las mismas preguntas como esta: ¿Cómo puedo modelar eficientemente la suma de variables aleatorias de Bernoulli?
Pero la configuración es bastante diferente:
, , ~ 20, ~ 0.1
Tenemos los datos para los resultados de las variables aleatorias de Bernoulli: ,
Si estimamos el con la estimación de máxima verosimilitud (y obtenemos ), resulta que es mucho más grande que esperado por los otros criterios:
Por lo tanto, y no pueden tratarse como independientes (tienen una pequeña dependencia).
Hay algunas restricciones como estas: y (conocido), lo que debería ayudar con la estimación de .
¿Cómo podríamos intentar modelar la suma de las variables aleatorias de Bernoulli en este caso?
¿Qué literatura podría ser útil para resolver la tarea?
ACTUALIZADO
Hay algunas ideas más:
(1) Es posible suponer que la dependencia desconocida entre comienza después de 1 o más éxitos en serie. Entonces, cuando , y .
(2) Para usar MLE necesitamos el modelo menos cuestionable. Aquí hay una variante:
si para cualquier k if y , y para cualquier k.
(3) Dado que solo nos interesa , podemos establecer (la probabilidad de éxitos para N- (k + 1) +1 sumandos desde la cola). Y use la parametrización
(4) Use MLE para el modelo basado en los parámetros y con para (y cualquier ) y algunas otras restricciones nativas .
¿Está todo bien con este plan?
ACTUALIZADO 2
Algunos ejemplos de distribución empírica (rojo) en comparación con la distribución de Poisson (azul) (las medias de poisson son 2.22 y 2.45, los tamaños de muestra son 332 y 259):
Para muestras (A1, A2) con las medias de Poisson 2.28 y 2.51 (los tamaños de muestra son 303 y 249):
Para samlpe A1 + A2 unido (el tamaño de la muestra es 552):
Parece que alguna corrección a Poisson debería ser el mejor modelo :).