¿Cambiar de modelar un proceso usando una distribución de Poisson para usar una distribución binomial negativa?

$\newcommand{\P}{\mathbb{P}}$ Tenemos un proceso aleatorio que puede-o-no-puede aparecer varias veces en un período determinado de tiempo $T$ . Tenemos una fuente de datos de un modelo preexistente de este proceso, que proporciona la probabilidad de que ocurran varios eventos en el período $0 \leq t < T$ . Este modelo existente es antiguo y necesitamos ejecutar verificaciones en vivo en los datos de alimentación para detectar errores de estimación. El modelo anterior que produce el suministro de datos (que proporciona la probabilidad de que ocurran $n$ eventos en el tiempo restante $t$ ) es aproximadamente distribuido por Poisson.

Entonces, para verificar anomalías / errores, dejamos que $t$ sea el tiempo restante y $X_t$ sea el número total de eventos que ocurrirán en el tiempo restante $t$ . El modelo anterior implica las estimaciones $\P(X_t \leq c)$ . Entonces, bajo nuestro supuesto $X_t\sim \operatorname{Poisson}(\lambda_{t})$ tenemos:

P (X_{t} \leq c) = e^{- λ} \sum_{k = 0}^{c} \frac{λ_{t}^{k}}{k!} .

$\P(X_t \leq c) = e^{-\lambda}\sum_{k=0}^c\frac{\lambda_t^k}{k!}\,.$ Para derivar nuestra tasa de eventos

λ_{t}

$\lambda_t$ de la salida del modelo antiguo (observaciones

y_{t}

$y_{t}$ ), utilizamos un enfoque de espacio de estado y

la relación de estado como:

y_{t} = λ_{t} + ε_{t} (ε_{t} \sim N (0, H_{t})) .

$y_t = \lambda_t + \varepsilon_t\quad (\varepsilon_t \sim N(0, H_t))\,.$ Filtramos las observaciones del modelo anterior, utilizando un modelo de espacio de estado [decaimiento de velocidad constante] para la evolución de

λ_{t}

$\lambda_t$ para obtener el estado filtrado

E (λ_{t} | Y_{t})

$E(\lambda_t|Y_t)$ y

una anomalía / error en la frecuencia estimada del evento desde el feed-data if

E (λ_{t} | Y_{t}) < y_{t}

$E(\lambda_t|Y_t) < y_t$ .

Este enfoque funciona fantásticamente bien para detectar errores en los recuentos de eventos estimados durante todo el período de tiempo $T$ , pero no tan bien si queremos hacer lo mismo para otro período $0 \leq t < \sigma$ donde $\sigma < \frac{2}{3} T$ . Para evitar esto, hemos decidido que ahora queremos cambiar para usar la distribución binomial negativa, de modo que supongamos ahora $X_t\sim NB(r, p)$ y tenemos:

P (X_{t} \leq c) = p^{r} \sum_{k = 0}^{c} (1 - p)^{k} (\binom{k + r - 1}{r - 1}),

$\P(X_{t} \leq c) = p^{r}\sum_{k = 0}^c (1 - p)^{k}\binom{k + r -1}{r - 1},$ donde el parámetro

λ

$\lambda$ ahora se reemplaza por

r

$r$ y

p

$p$ . Esto debería ser sencillo de implementar, pero tengo algunas dificultades con la interpretación y, por lo tanto, tengo algunas preguntas con las que me gustaría que me ayudara:

1. ¿Podemos simplemente establecer $p = \lambda$ en la distribución binomial negativa? ¿Si no, porque no?

2. Suponiendo que podemos establecer $p = f(\lambda)$ donde $f$ es alguna función, ¿cómo podemos establecer correctamente $r$ (¿necesitamos ajustar $r$ usando conjuntos de datos pasados)?

3. ¿ Depende $r$ del número de eventos que esperamos que ocurran durante un proceso dado?

Anexo a la extracción de estimaciones para $r$ (y $p$ ):

Soy consciente de que si de hecho este problema se revirtiera y tuviéramos el recuento de eventos para cada proceso, podríamos adoptar el estimador de máxima verosimilitud para y . Por supuesto, el estimador de máxima verosimilitud solo existe para muestras para las cuales la varianza muestral es mayor que la media muestral, pero si este fuera el caso, podríamos establecer la función de verosimilitud para observaciones independientes distribuidas idénticamente como: desde el cual podemos escribir la función log-verosimilitud como: $r$ $p$ $N$ $k_1, k_2, \ldots, k_{N}$

L (r, p) = \prod_{i = 1}^{N} P (k_{i}; r, p),

$L(r, p) = \prod_{i = 1}^{N}\P(k_i; r, p),$

l (r, p) = \sum_{i = 1}^{N} \ln (Γ (k_{i} + r)) - \sum_{i = 1}^{N} \ln (k_{i}!) - N \ln (Γ (r)) + \sum_{i = 1}^{N} k_{i} \ln (p) + N r \ln (1 - p) .

$l(r, p) = \sum_{i = 1}^{N} \ln(\Gamma(k_i + r)) - \sum_{i = 1}^{N} \ln(k_{i}!) - N\ln(\Gamma(r)) + \sum_{i = 1}^{N} k_i \ln(p) + N r\ln(1 - p).$ Para encontrar el máximo, tomamos las derivadas parciales con respecto a y y las establecemos iguales a cero: Establecer y establecer encontramos:

r

$r$

p

$p$

\begin{aligned} \partial_{r} l (r, p) & = \sum_{i = 1}^{N} ψ (k_{i} + r) - N ψ (r) + N \ln (1 - p), \\ \partial_{p} l (r, p) & = \sum_{i = 1}^{N} k_{i} \frac{1}{p} - N r \frac{1}{1 - p} . \end{aligned}

$\begin{align*} \partial_{r} l(r, p) &= \sum_{i = 1}^{N} \psi(k_i + r) - N\psi(r) + N\ln(1 - p), \\ \partial_{p} l(r, p) &= \sum_{i = 1}^{N} k_i\frac{1}{p} - N r \frac{1}{1 - p} \enspace . \end{align*}$

\partial_{r} l (r, p) = \partial_{p} l (r, p) = 0

$\partial_{r} l(r, p) = \partial_{p} l(r, p) = 0$

p = \sum_{i = 1}^{N} \frac{k_{i}}{(N r + \sum_{i = 1}^{N} k_{i})},

$p = \displaystyle\sum_{i = 1}^{N} \displaystyle\frac{k_i} {(N r + \sum_{i = 1}^{N} k_i)},$

\partial_{r} l (r, p) = \sum_{i = 1}^{N} ψ (k_{i} + r) - N ψ (r) + N \ln (\frac{r}{r + \sum_{i = 1}^{N} \frac{k_{i}}{N}}) = 0.

$\partial_{r} l(r, p) = \sum_{i = 1}^{N} \psi(k_i + r) - N \psi(r) + N\ln\left(\frac{r}{r + \sum_{i = 1}^{N} \frac{k_i}{N}}\right) = 0.$ Esta ecuación no puede resolverse para r en forma cerrada usando Newton o incluso EM. Sin embargo, este no es el caso en esta situación. Aunque podríamos usar los datos pasados para obtener una y estática, esto no es realmente un uso para nuestro proceso, necesitamos adaptar estos parámetros a tiempo, como hicimos con Poisson.

r

$r$

p

$p$

— Caballero de la Luna
fuente

¿Por qué no simplemente conectar sus datos a un modelo de regresión binomial negativa o de Poisson?

— StatsStudent

No siento que debería tener para ser utilizado. Teniendo en cuenta que Poisson es el caso limitante del binomio negativo, debería haber alguna forma de parametrizar este problema de la misma manera que lo hice para Poisson. Además, este proceso ocurre simultáneamente para miles de procesos de diferencia y ninguno tiene la misma "tasa de eventos", lo que significa que el análisis de regresión para estos parámetros tendría que hacerse en cada nueva observación para todos los procesos en vivo. Esto no es factible. Muchas gracias por tomarse el tiempo de leer mi pregunta y comentario, es muy apreciado ...

— MoonKnight

En términos de vincular Poisson a NB, si tiene con la variable de dispersión oculta para que y . Esto dará una distribución marginal de NB al integrar . Podrías usar esto para ayudar.

(X_{t} | λ_{t}, r_{t}, g_{t}) \sim P o i s (λ_{t} g_{t})

$(X_t|\lambda_t,r_t,g_t)\sim Pois (\lambda_tg_t)$

(g_{t} | r_{t}) \sim G a m m a (r_{t}, r_{t})

$(g_t|r_t)\sim Gamma (r_t,r_t)$

E (g_{t}) = 1

$E (g_t)=1$

v a r (g_{t}) = r_{t}^{- 1}

$var(g_t)=r_t^{-1}$

g_{t}

$g_t$

— probabilityislogic

Esa es una gran ayuda, pero ¿puede desarrollar esto un poco más y proporcionar algunos detalles explícitos? Muchas gracias por su tiempo ...

— MoonKnight

¿Qué pasa con el uso del binomio en lugar del binomio negativo? Eso puede ser más fácil de hacer. Anscombe FJ. La transformación de datos de Poisson, binomial y binomial negativo. Biometrika 1948; 35: 246-54.

— Carl

La distribución binomial negativa es muy similar al modelo de probabilidad binomial. es aplicable cuando los siguientes supuestos (condiciones) son válidos 1) Cualquier experimento se realiza en las mismas condiciones hasta que se alcanza un número fijo de éxitos, digamos C 2) El resultado de cada experimento se puede clasificar en una de las dos categorías , éxito o fracaso 3) La probabilidad P de éxito es la misma para cada experimento 40Cada experimento es independiente de todos los demás. La primera condición es el único factor clave de diferenciación entre binomial y binomial negativo.

— Vishwa Dharma
fuente

La distribución de Poisson puede ser una aproximación razonable del binomio bajo ciertas condiciones como 1) La probabilidad de éxito para cada ensayo es muy pequeña. P -> 0 2) np = m (digamos) está bien La regla más utilizada por los estadísticos es que el poisson es una buena aproximación del binomio cuando n es igual o mayor que 20 y p es igual o menor que 5 %

— Vishwa Dharma
fuente