Las probabilidades son una forma de expresar oportunidades. Las razones de probabilidades son solo eso: una cuota dividida por otra. Eso significa que una razón de probabilidades es lo que multiplica una probabilidad para producir otra. Veamos cómo funcionan en esta situación común.
Conversión entre probabilidades y probabilidad
Y10 Pr ( Y = 0 )Pr ( Y= 1 )0 0Pr ( Y= 0 )
Probabilidades ( Y) = Pr ( Y= 1 )Pr ( Y= 0 )= Pr ( Y= 1 )1 - Pr ( Y= 1 ).
La expresión equivalente a la derecha muestra que es suficiente modelar para encontrar las probabilidades. Por el contrario, tenga en cuenta que podemos resolverPr ( Y= 1 )
Pr ( Y= 1 ) = Probabilidades ( Y)1 + Probabilidades ( Y)= 1 - 11 + Probabilidades ( Y).
Regresión logística
La regresión logística modela el logaritmo de las probabilidades de como una función lineal de variables explicativas. En general, escribiendo estas variables como , e incluyendo un posible término constante en la función lineal, podemos nombrar los coeficientes (que se estimarán a partir de los datos) como y . Formalmente esto produce el modelox 1 , ... , x p β 1 , ... , β p β 0YX1, ... , xpagβ1, ... , βpagβ0 0
Iniciar sesión( Probabilidades ( Y) ) = β0 0+ β1X1+ ⋯ + βpagXpag.
Las probabilidades mismas pueden recuperarse deshaciendo el logaritmo:
Probabilidades ( Y) = exp( β0 0+ β1X1+ ⋯ + βpagXpag) .
Usando variables categóricas
Las variables categóricas, como el grupo de edad, el sexo, la presencia de glaucoma, etc. , se incorporan mediante "codificación ficticia". Para mostrar que no importa cómo se codifica la variable, proporcionaré un ejemplo simple de un grupo pequeño; su generalización a múltiples grupos debería ser obvia. En este estudio, una variable es "tamaño de la pupila", con tres categorías, "Grande", "Mediano" y "Pequeño". (El estudio los trata como puramente categóricos, aparentemente sin prestar atención a su orden inherente). Intuitivamente, cada categoría tiene sus propias probabilidades, digamos para "Grande", para "Medio" y para "Pequeño" . Esto significa que, todas las demás cosas iguales,α M α SαLαMETROαS
Probabilidades ( Y) = exp( αL+ β0 0+ β1X1+ ⋯ + βpagXpag)
para cualquiera en la categoría "Grande",
Probabilidades ( Y) = exp( αMETRO+ β0 0+ β1X1+ ⋯ + βpagXpag)
para cualquiera en la categoría "Medio", y
Probabilidades ( Y) = exp( αS+ β0 0+ β1X1+ ⋯ + βpagXpag)
para aquellos en la categoría "Pequeño".
Crear coeficientes identificables
He coloreado los dos primeros coeficientes para resaltarlos, porque quiero que note que permiten que ocurra un cambio simple: podríamos elegir cualquier número y, al sumarlo a y restarlo de cada uno de , y , no cambiaríamos ninguna probabilidad pronosticada. Esto se debe a las equivalencias obvias de la forma.β 0 α L α M α Sγβ0 0αLαMETROαS
αL+ β0 0= ( αL- γ) + ( γ+β0 0) ,
etc. Aunque esto no presenta problemas para el modelo, todavía predice exactamente las mismas cosas, muestra que los parámetros no son en sí mismos interpretables. Lo que permanece igual cuando hacemos esta maniobra de suma y resta son las diferencias entre los coeficientes. Convencionalmente, para abordar esta falta de identificabilidad, las personas (y, por defecto, el software) eligen una de las categorías en cada variable como "base" o "referencia" y simplemente estipulan que su coeficiente será cero. Esto elimina la ambigüedad.
El artículo enumera primero las categorías de referencia; "Grande" en este caso. Por lo tanto, se resta de cada uno de y , y se agrega a para compensar.α L , α M , α S β 0αLαL, αMETRO,αSβ0 0
Las probabilidades de registro para un individuo hipotético que cae en todas las categorías base, por lo tanto, es igual a más un grupo de términos asociados con todas las demás "covariables", las variables no categóricas:β0 0
Probabilidades (categoría base) = exp( β0 0+ β1X1+ ⋯ + βpagXpag) .
No hay términos asociados con las variables categóricas se presentan aquí. (He cambiado ligeramente la notación en este punto: las betas ahora son los coeficientes solo de las covariables , mientras que el modelo completo incluye los para las diversas categorías).α jβyoαj
Comparación de probabilidades
Comparemos las probabilidades. Supongamos que un individuo hipotético es un
paciente masculino de 80 a 89 años con catarata blanca, sin vista fundamental y una pequeña pupila operada por un registrador especializado, ...
Asociados con este paciente (llamémoslo Charlie) se encuentran los coeficientes estimados para cada categoría: para su grupo de edad, para ser hombre, y así sucesivamente. Dondequiera que su atributo sea la base de su categoría, el coeficiente es cero por convención , como hemos visto. Debido a que este es un modelo lineal, los coeficientes se suman. Por lo tanto, para las probabilidades de registro base dadas anteriormente, las probabilidades de registro para este paciente se obtienen sumandoα machoα80-89αmasculino
α80-89+ αmasculino+ αsin glaucoma+ ⋯ + αregistrador especialista.
Esta es precisamente la cantidad por la cual las probabilidades de registro de este paciente varían de la base. Para convertir de las probabilidades de registro, deshaga el logaritmo y recuerde que esto convierte la suma en multiplicación. Por lo tanto, las probabilidades básicas deben multiplicarse por
Exp( α80-89) exp( αmasculino) exp( αsin glaucoma) ⋯ exp( αregistrador especialista) .
Estos son los números dados en la tabla bajo "OR ajustado" (odds ratio ajustado). (Se llama "ajustado" porque las covariables se incluyeron en el modelo. No juegan ningún papel en ninguno de nuestros cálculos, como verá. Se llama "relación" porque es precisamente la cantidad por cuyas probabilidades básicas se deben multiplicar para producir las probabilidades pronosticadas del paciente: consulte el primer párrafo de esta publicación.) En orden en la tabla, son , , , y así sucesivamente. Según el artículo, su producto funciona a . Por lo tantoX1, ... , xpagExp( α80-89) = 1.58Exp( αmasculino) = 1.28Exp( αsin glaucoma) = 1.0034,5
Cuotas (Charlie) = 34.5 × Cuotas (Base) .
(Observe que todas las categorías base tienen razones de probabilidad de , porque incluir en el producto lo deja sin cambios. Así es como puede detectar las categorías base en la tabla). 1.00 = exp( 0 )1
Reexpresar los resultados como probabilidades
Finalmente, convirtamos este resultado en probabilidades. Nos dijeron que la probabilidad prevista de referencia es . Por lo tanto, utilizando las fórmulas que relacionan las probabilidades y las probabilidades derivadas al principio, podemos calcular0.736 % = 0.00736
Probabilidades (Base) = 0.007361 - 0.00736= 0,00741.
En consecuencia, las probabilidades de Charlie son
Probabilidades (Charlie) = 34.5 × 0.00741 = 0.256 .
Finalmente, convertir esto de nuevo a probabilidades da
Pr ( Y( Charlie ) = 1 ) = 1 - 11 + 0.256= 0.204.