Ayúdame a entender el odds ratio ajustado en regresión logística

Me ha costado mucho tratar de comprender el uso de la regresión logística en un artículo. El documento disponible aquí utiliza la regresión logística para predecir la probabilidad de complicaciones durante la cirugía de cataratas.

Lo que me confunde es que el documento presenta un modelo que asigna una razón de probabilidad de 1 a la línea de base que se describe a continuación:

Un paciente cuyo perfil de riesgo estaba en el grupo de referencia para todos los indicadores de riesgo (es decir, OR ajustado = 1.00 para todos en la Tabla 1) puede considerarse que tiene un "perfil de riesgo de referencia", y el modelo de regresión logística indica una "probabilidad predicha de referencia" para PCR o VL o ambos = 0.736%.

Por lo tanto, la probabilidad de 0.00736 se presenta con una razón de probabilidades de 1. Basado en la transformación de probabilidades a razones de probabilidades: , esto no puede ser igual a 1: . $o=\frac{p}{1-p}$ $0.00741=\frac{0.00736}{1-0.00736}$

Se vuelve aún más confuso. Las razones de probabilidades compuestas que representan múltiples covariables que tienen valores diferentes a la línea de base se usan para calcular el riesgo predicho.

... el OR compuesto de la Tabla 1 sería 1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5, y del gráfico de la Figura 1, vemos que este OR corresponde con una probabilidad predicha de PCR o VL o ambas alrededor del 20%

La única forma de llegar a los valores que el documento está dando como ejemplos es multiplicar la probabilidad de referencia con probabilidades compuestas como esta: . $0.2025=\frac{(34.50\ \times\ 0.00736)}{1\ +\ (34.50\ \times\ 0.00736)}$

Entonces, ¿qué está pasando aquí? ¿Cuál es la lógica para asignar odds ratio 1 a una probabilidad de referencia que no sea 0.5? La fórmula de actualización que se me ocurrió anteriormente presenta las probabilidades correctas para los ejemplos en el documento, pero esta no es la multiplicación directa de la razón de probabilidades que esperaría. ¿Entonces que es?

logistic odds-ratio

— mahonya
fuente

Es posible que tenga una simple confusión sobre la terminología: es una probabilidad , no una razón de probabilidades. Un odds ratio es la división de una de esas expresiones por otra.

p / (1 - p)

$p/(1-p)$

— whuber

Las probabilidades son una forma de expresar oportunidades. Las razones de probabilidades son solo eso: una cuota dividida por otra. Eso significa que una razón de probabilidades es lo que multiplica una probabilidad para producir otra. Veamos cómo funcionan en esta situación común.

Conversión entre probabilidades y probabilidad

$Y$ $1$ $\Pr(Y=1)$ $0$ $\Pr(Y=0)$

Posibilidades (Y) = \frac{Pr (Y = 1)}{Pr (Y = 0 0)} = \frac{Pr (Y = 1)}{1 - Pr (Y = 1)} .

$\text{Odds}(Y) = \frac{\Pr(Y=1)}{\Pr(Y=0)} = \frac{\Pr(Y=1)}{1 - \Pr(Y=1)}.$

La expresión equivalente a la derecha muestra que es suficiente modelar para encontrar las probabilidades. Por el contrario, tenga en cuenta que podemos resolver $\Pr(Y=1)$

Pr (Y = 1) = \frac{Posibilidades (Y)}{1 + Posibilidades (Y)} = 1 - \frac{1}{1 + Posibilidades (Y)} .

$\Pr(Y=1) = \frac{\text{Odds}(Y)}{1 + \text{Odds}(Y)} = 1 - \frac{1}{1 + \text{Odds}(Y)}.$

Regresión logística

La regresión logística modela el logaritmo de las probabilidades de como una función lineal de variables explicativas. En general, escribiendo estas variables como , e incluyendo un posible término constante en la función lineal, podemos nombrar los coeficientes (que se estimarán a partir de los datos) como y . Formalmente esto produce el modelo $Y$ $x_1, \ldots, x_p$ $\beta_1,\ldots, \beta_p$ $\beta_0$

Iniciar sesión (Posibilidades (Y)) = β_{0 0} + β_{1} X_{1} + \dots + β_{pag} X_{pag} .

$\log\left(\text{Odds}(Y)\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p.$

Las probabilidades mismas pueden recuperarse deshaciendo el logaritmo:

Posibilidades (Y) = Exp (β_{0 0} + β_{1} X_{1} + \dots + β_{pag} X_{pag}) .

$\text{Odds}(Y) = \exp(\beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p).$

Usando variables categóricas

Las variables categóricas, como el grupo de edad, el sexo, la presencia de glaucoma, etc. , se incorporan mediante "codificación ficticia". Para mostrar que no importa cómo se codifica la variable, proporcionaré un ejemplo simple de un grupo pequeño; su generalización a múltiples grupos debería ser obvia. En este estudio, una variable es "tamaño de la pupila", con tres categorías, "Grande", "Mediano" y "Pequeño". (El estudio los trata como puramente categóricos, aparentemente sin prestar atención a su orden inherente). Intuitivamente, cada categoría tiene sus propias probabilidades, digamos para "Grande", para "Medio" y para "Pequeño" . Esto significa que, todas las demás cosas iguales, $\alpha_L$ $\alpha_M$ $\alpha_S$

Posibilidades (Y) = Exp (α_{L} + β_{0 0} + β_{1} X_{1} + \dots + β_{pag} X_{pag})

$\text{Odds}(Y) = \exp(\color{Blue}{\alpha_L + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p)$

para cualquiera en la categoría "Grande",

Posibilidades (Y) = Exp (α_{METRO} + β_{0 0} + β_{1} X_{1} + \dots + β_{pag} X_{pag})

$\text{Odds}(Y) = \exp(\color{Blue}{\alpha_M + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p)$

para cualquiera en la categoría "Medio", y

Posibilidades (Y) = Exp (α_{S} + β_{0 0} + β_{1} X_{1} + \dots + β_{pag} X_{pag})

$\text{Odds}(Y) = \exp(\color{Blue}{\alpha_S + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p)$

para aquellos en la categoría "Pequeño".

Crear coeficientes identificables

He coloreado los dos primeros coeficientes para resaltarlos, porque quiero que note que permiten que ocurra un cambio simple: podríamos elegir cualquier número y, al sumarlo a y restarlo de cada uno de , y , no cambiaríamos ninguna probabilidad pronosticada. Esto se debe a las equivalencias obvias de la forma. $\gamma$ $\beta_0$ $\alpha_L$ $\alpha_M$ $\alpha_S$

α_{L} + β_{0 0} = (α_{L} - γ) + (γ + β_{0 0}),

$\alpha_L + \beta_0 = (\alpha_L - \gamma) + (\gamma + \beta_0 ),$

etc. Aunque esto no presenta problemas para el modelo, todavía predice exactamente las mismas cosas, muestra que los parámetros no son en sí mismos interpretables. Lo que permanece igual cuando hacemos esta maniobra de suma y resta son las diferencias entre los coeficientes. Convencionalmente, para abordar esta falta de identificabilidad, las personas (y, por defecto, el software) eligen una de las categorías en cada variable como "base" o "referencia" y simplemente estipulan que su coeficiente será cero. Esto elimina la ambigüedad.

El artículo enumera primero las categorías de referencia; "Grande" en este caso. Por lo tanto, se resta de cada uno de y , y se agrega a para compensar. $\alpha_L$ $\alpha_L, \alpha_M,$ $\alpha_S$ $\beta_0$

Las probabilidades de registro para un individuo hipotético que cae en todas las categorías base, por lo tanto, es igual a más un grupo de términos asociados con todas las demás "covariables", las variables no categóricas: $\beta_0$

Probabilidades (categoría base) = Exp (β_{0 0} + β_{1} X_{1} + \dots + β_{pag} X_{pag}) .

$\text{Odds(Base category)} = \exp(\beta_0 + \beta_1X_1 + \cdots + \beta_p X_p).$

No hay términos asociados con las variables categóricas se presentan aquí. (He cambiado ligeramente la notación en este punto: las betas ahora son los coeficientes solo de las covariables , mientras que el modelo completo incluye los para las diversas categorías). $\beta_i$ $\alpha_j$

Comparación de probabilidades

Comparemos las probabilidades. Supongamos que un individuo hipotético es un

paciente masculino de 80 a 89 años con catarata blanca, sin vista fundamental y una pequeña pupila operada por un registrador especializado, ...

Asociados con este paciente (llamémoslo Charlie) se encuentran los coeficientes estimados para cada categoría: para su grupo de edad, para ser hombre, y así sucesivamente. Dondequiera que su atributo sea la base de su categoría, el coeficiente es cero por convención , como hemos visto. Debido a que este es un modelo lineal, los coeficientes se suman. Por lo tanto, para las probabilidades de registro base dadas anteriormente, las probabilidades de registro para este paciente se obtienen sumando $\alpha_\text{80-89}$ $\alpha_\text{male}$

α_{80-89} + α_{masculino} + α_{sin glaucoma} + \dots + α_{registrador especialista} .

$\alpha_\text{80-89}+\alpha_\text{male}+\alpha_\text{no Glaucoma}+ \cdots + \alpha_\text{specialist registrar}.$

Esta es precisamente la cantidad por la cual las probabilidades de registro de este paciente varían de la base. Para convertir de las probabilidades de registro, deshaga el logaritmo y recuerde que esto convierte la suma en multiplicación. Por lo tanto, las probabilidades básicas deben multiplicarse por

Exp (α_{80-89}) Exp (α_{masculino}) Exp (α_{sin glaucoma}) \dots Exp (α_{registrador especialista}) .

$\exp(\alpha_\text{80-89})\exp(\alpha_\text{male})\exp(\alpha_\text{no Glaucoma}) \cdots \exp(\alpha_\text{specialist registrar}).$

Estos son los números dados en la tabla bajo "OR ajustado" (odds ratio ajustado). (Se llama "ajustado" porque las covariables se incluyeron en el modelo. No juegan ningún papel en ninguno de nuestros cálculos, como verá. Se llama "relación" porque es precisamente la cantidad por cuyas probabilidades básicas se deben multiplicar para producir las probabilidades pronosticadas del paciente: consulte el primer párrafo de esta publicación.) En orden en la tabla, son , , , y así sucesivamente. Según el artículo, su producto funciona a . Por lo tanto $x_1, \ldots, x_p$ $\exp(\alpha_\text{80-89})=1.58$ $\exp(\alpha_\text{male})=1.28$ $\exp(\alpha_\text{no Glaucoma})=1.00$ $34.5$

Cuotas (Charlie) = 34,5 \times Probabilidades (Base) .

$\text{Odds(Charlie)} = 34.5\times \text{Odds(Base)}.$

(Observe que todas las categorías base tienen razones de probabilidad de , porque incluir en el producto lo deja sin cambios. Así es como puede detectar las categorías base en la tabla). $1.00=\exp(0)$ $1$

Reexpresar los resultados como probabilidades

Finalmente, convirtamos este resultado en probabilidades. Nos dijeron que la probabilidad prevista de referencia es . Por lo tanto, utilizando las fórmulas que relacionan las probabilidades y las probabilidades derivadas al principio, podemos calcular $0.736\%=0.00736$

Probabilidades (Base) = \frac{0.00736}{1 - 0.00736} = 0.00741.

$\text{Odds(Base)} = \frac{0.00736}{1 - 0.00736} = 0.00741.$

En consecuencia, las probabilidades de Charlie son

Cuotas (Charlie) = 34,5 \times 0.00741 = 0.256.

$\text{Odds(Charlie)} = 34.5\times 0.00741 = 0.256.$

Finalmente, convertir esto de nuevo a probabilidades da

Pr (Y (Charlie) = 1) = 1 - \frac{1}{1 + 0.256} = 0.204.

$\Pr(Y(\text{Charlie})=1) = 1 - \frac{1}{1 + 0.256} = 0.204.$

— whuber
fuente

whuber: ponerse delante de mi computadora después de un día anterior muy agotador y encontrar esta respuesta extraordinaria de usted es simplemente genial. Me has ayudado mucho en una situación muy difícil. Muchas gracias. (de alguna manera @ whuber no aparecerá ...)

— mahonya