¿Cómo predices una categoría de respuesta dado un modelo de regresión logística ordinal?

Quiero predecir un problema de salud. Tengo 3 categorías de resultados que están ordenadas: 'normal', 'leve' y 'grave'. Deseo predecir esto a partir de dos variables predictoras, un resultado de prueba (una covariable de intervalo continuo) y antecedentes familiares con este problema (sí o no). En mi muestra, las probabilidades son 55% (normal), 35% (leve) y 10% (grave). En este sentido, siempre podría predecir 'normal' y tener razón el 55% del tiempo, aunque esto no me daría información sobre pacientes individuales. Me ajusto al siguiente modelo:

\begin{aligned} the cut point for \hat{(y \geq 1)} & = - 2.18 \\ the cut point for \hat{(y \geq 2)} & = - 4.27 \\ {\hat{β}}_{t e s t} & = 0.60 \\ {\hat{β}}_{f a m i l y h i s t o r y} & = 1.05 \end{aligned}

$\begin{align} \text{the cut point for }\widehat{(y \ge 1)} &= -2.18 \\ \text{the cut point for }\widehat{(y \ge 2)} &= -4.27 \\ \hat\beta_{\rm test} &= 0.60 \\ \hat\beta_{\rm family\ history} &= 1.05 \end{align}$

Suponga que no hay interacción y que todo está bien con el modelo. La concordancia, c, es 60.5%, que entiendo es la máxima precisión predictiva que ofrece el modelo.

\frac{\exp (- X β - c u t P o i n t)}{(1 + \exp (- X β - c u t P o i n t))}

$\frac{\exp(-X\beta - {\rm cutPoint})}{(1+\exp(-X\beta - {\rm cutPoint}))}$

cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

A saber: 1. 0 = 55.1%, 1 = 35.8%, 2 = 9.1%; y 2. 0 = 35.6%, 1 = 46.2%, 2 = 18.2%. Mi pregunta es, ¿cómo paso de la distribución de probabilidad a una categoría de respuesta pronosticada?

He intentado varias posibilidades utilizando los datos de muestra, donde se conoce el resultado. Si solo elijo max (probabilidades), la precisión es del 57%, una ligera mejora con respecto a la nula, pero por debajo de la concordancia. Además, en la muestra, este enfoque nunca elige 'severo', que es lo que realmente quiero saber. Intenté un enfoque bayesiano convirtiendo probabilidades nulas y modelo en probabilidades y luego seleccionando el máximo (razón de probabilidades). Esto escoge 'severo' ocasionalmente, pero produce una peor precisión del 49.5%. También probé una suma de las categorías ponderadas por las probabilidades y el redondeo. Esto, de nuevo, nunca elige 'severo', y tiene una baja precisión del 51.5%.

¿Cuál es la ecuación que toma la información anterior y produce una precisión óptima (60.5%)?

logistic ordered-logit

— gung - Restablece a Monica
fuente

Respuestas:

$Y$ rmslrmpredict.lrm

— Frank Harrell
fuente

Gracias por tu ayuda. Sospeché que la baja frecuencia de graves era parte del problema. Creo que mi Y sin procesar, 0 1 2, es un intervalo insuficientemente igual. Entiendo que mi objetivo está equivocado. Desafortunadamente, creo que quiero saber en qué categoría caerá un nuevo paciente / no entiendo completamente cuál debería ser mi objetivo . ¿Es posible proporcionar un poco más de información? (En realidad, sospecho que CV no es el foro para una lección completa; alternativamente, ¿sabe dónde podría aprender sobre este tema? He leído las secciones de la Intro & Hosmer & Lemeshow's Logistic de Agresti, pero fue en vano)

— gung - Restablece a Monica

El objetivo es impulsado por la decisión necesaria o por el tema. Si establece el objetivo final, podría comentarlo.

— Frank Harrell

Perdón por mi falta de claridad, parece haber sido un problema anterior también. En la actualidad, quiero poder predecir el resultado para nuevos casos. A la larga, quiero entender mejor ord log reg, por ejemplo, ¿cómo se obtienen los residuos si no tiene categorías predichas? Supongo que es posible una precisión ligeramente mejor, pero no sé cómo obtenerla. Estoy seguro de que no tiene tiempo para explicar todo, pero ni Agresti, ni H&L dicen nada sobre predicciones o residuos, etc. y no pude encontrar nada con google. Por lo tanto, pregunté en CV. Agradezco su continua asistencia.

— gung - Restablece a Monica

Por favor explique su necesidad de residuos. Estos no están en la parte intrínseca del modelo. En términos de cómo establecer predicciones, proporcionando la probabilidad predicha de que

Y \geq j

$Y\geq j$ para varios

j

$j$ es una buena manera y no requiere decisiones arbitrarias. Si observa el histograma de probabilidades pronosticadas, puede juzgar qué tan útil es el modelo, es decir, con qué frecuencia proporciona probabilidades más definitivas más cercanas a 0 o 1 que a 0.5.

— Frank Harrell el

-1

La concordancia se define comprobando la puntuación media, no la puntuación máxima.

Entonces, para sus ejemplos, las puntuaciones medias para 1 son 0 * 55.1% + 1 * 35.8% + 2 * 9.1% = 0.54, y 2 es (a través de cálculos similares) 0.826.

Es este valor el que debe comparar para obtener la concordancia o cualquier otra estadística de asociación.

Ref. Http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm

— KalEl
fuente

No, la concordancia se calcula utilizando la variable de resultado sin procesar

Y

$Y$ y el predictor lineal

X β

$X\beta$ o cualquiera de las probabilidades pronosticadas (ya que todas están relacionadas monotónicamente entre sí, es decir, simplemente se desplazaron en la intercepción antes de calcular la expiración). Somers

D_{x y}

$D_{xy}$ El coeficiente de correlación de rango utiliza esta medida de concordancia.

— Frank Harrell

PD Tenga en cuenta que la documentación de SAS, que es una reescritura de mi documentación original para el precursor SAS PROC LOGISTque escribí hace muchos años, ahora es incorrecta, y su fórmula para la media es incorrecta a menos que

Y

$Y$ consiste en enteros consecutivos.

— Frank Harrell el