Intervalos de predicción para el resultado de una regresión logística con respuesta binomial

Supongamos que tenemos un modelo de regresión logística:

\begin{aligned} P (y = 1 | x) & = p \\ \log (\frac{p}{1 - p}) & = β x \end{aligned}

$\begin{align} P(y=1\vert\mathbf{x}) &= p \\ \log\left(\frac{p}{1-p}\right) &= \boldsymbol{\beta}\mathbf{x} \end{align}$

Dada una muestra aleatoria de tamaño , podemos calcular intervalos de confianza para el e intervalos de predicción correspondientes para , dado un cierto valor del vector predictor. Todo esto es muy estándar y detallado, por ejemplo, aquí . $D=\{\mathbf{X},\mathbf{y}\}$ $N$ $\boldsymbol{\beta}$ $p$ $\mathbf{x}^*$

Supongamos, en cambio, que estoy interesado en un intervalo de predicción para $y$ , dado $\mathbf{x}^*$ . Por supuesto, no tiene ningún sentido calcular un intervalo de predicción para una sola realización de $y$ , porque $y$ solo puede tomar los valores 0 y 1, y ningún valor intermedio. Sin embargo , si consideramos $m$ realizaciones de $y$ para el mismo valor fijo de $\mathbf{x}^*$ , esto se vuelve similar (pero no idéntico) a la cuestión de calcular un intervalo de predicción para una variable aleatoria binomial . Esta es básicamente la misma situación descrita por Glen_b en los comentarios a esta respuesta.. ¿Esta pregunta tiene una respuesta, aparte de la trivial "usar bootstrap no paramétrico"?

logistic binomial prediction-interval

— DeltaIV
fuente

¿puedes calcular un intervalo de predicción para

l o g (p / (1 - p))

$log(p / (1-p))$ lugar quizás?

— Hugh Perkins

@HughPerkins Creo que el problema es cómo combinar la incertidumbre en p con la incertidumbre en el muestreo binomial también dada la incertidumbre en p . ¿Hay una solución de forma cerrada?

— EdM

@ Edm tienes mi punto. Me pregunto si hay una solución de forma cerrada o una aproximación analítica.

— DeltaIV

idea aleatoria [fuera del tema], se me ocurre que podría ser interesante tener una etiqueta como 'oportunidad de investigación abierta' para preguntas como esta que / si se responden negativamente

— Hugh Perkins

Una forma en que esto debería funcionar sin bootstrapping (que en la práctica puede ser lo más rápido que se implementa) sería:

Suponga que funciona una aproximación normal para las probabilidades de registro predichas ( ) más / menos su error estándar. Cualquier software de regresión logística proporcionará esto. $x \hat{\beta}$
Los percentiles de esta distribución se transforman en probabilidades a través del anti-logit.
Se puede encontrar una (mezcla de) distribución (es) beta (s) que se aproxima a la distribución predictiva del pozo de probabilidad.
La distribución predictiva para el resultado es entonces una (mezcla de) distribución beta-binomial (s con los mismos pesos de mezcla utilizados en el paso 3).

Alternativamente, uno puede "simplemente" integrar las probabilidades de registro de la predicción conjunta del resultado y las probabilidades de registro, pero creo que será un completo desastre sin una solución de forma cerrada.

— Björn
fuente

También podría simular directamente a partir de la normal asintótica multivariada para , y luego formar una mezcla de binomios sobre esos valores.

β - \hat{β}

$\beta-\hat{\beta}$

— Glen_b: reinstala a Mónica el

Me gusta la idea general, pero no estoy seguro de los detalles. Por ejemplo, "encuentre una (mezcla de) distribución (es) beta (s) que se aproxime a la distribución predictiva del pozo de probabilidad", ¿cómo lo hace en la práctica? ¿Podría agregar un ejemplo? Incluso una de baja dimensión sería suficiente.

— DeltaIV

Puedo escribir esto como algo en forma de respuesta si lo prefieres, no me importa de ninguna manera.

— Glen_b -Reinstate a Mónica el

@Glen_b Realmente lo agradecería.

— DeltaIV

@Glen_b, me interesaría ver esa respuesta.

— Richard Hardy