Traducir el comando glm de R en notación matemática


8

Tengo el siguiente modelo lineal generalizado. El objeto glmDVse modela como una proporción de éxitos sobre las pruebas totales. Los objetos x_ison variables continuas.

¿Cómo se ve esto en notación matemática?

winp.glm = glm(glmDV ~ x1 + x2 + x3 + x4 + x5 + x6 + x7, 
               data=myData, family=binomial("logit"))

1
Tenga en cuenta que, si su respuesta es una proporción en lugar de un conjunto de 0s & 1s (lo que deduzco es lo que tiene en función de su descripción), debe usar un weightsargumento w / ? Glm , donde los pesos son el número de ensayos totales para cada observación
gung - Restablece a Monica

Respuestas:


11

Para una regresión logística binaria, el caso de uso habitual para el GLM binomial con un enlace logit, está modelando la probabilidad de que su variable dependiente sea un "éxito" (o "sí"), convencionalmente codificado como . La forma en que está haciendo esto es modelando las probabilidades de registro. Entonces, en lugar de modelar la media de la respuesta como en OLS, está modelando el cambio en las probabilidades de registro:1

Pr(y=1)=θ=logit-1(β0 0+β1X1+β2X2+...+β7 7X7 7)

Donde y .logit(X)=Iniciar sesión(X1-X)logit-1(X)=Exp(X)1+Exp(X)

Una explicación más completa y muy accesible de esto se puede encontrar en Agresti, Introducción al análisis de datos categóricos.

Pero a su pregunta particular, usted declara que está modelando la proporción de éxitos. Esto no es realmente lo que un GLM binomial está acostumbrado a hacer. Sin embargo, lo que realmente buscas es lo que hace un GLM binomial, y aún es posible en R. Solo requiere un ligero ajuste a lo que estás haciendo. En el caso de que tenga un número finito de pruebas que pueden tener éxitos, aún puede usar el mismo modelo, que tiene densidad Debido a que sus valores están fijados por diseño experimental, son sus éxitos observados, está realizando inferencia en el parámetronortey{0 ...norte}

Pr(y)(nortey)θy(1-θ)norte-y
norteyθ de la misma manera que el caso de respuesta binaria más típico (arriba), en el que se fija en 1, toma el valor 1 con probabilidad , y es una función de sus parámetros. Para el caso del enlace logit, entonces , principalmente porque esta transformada existe en toda la línea real, en lugar del intervalo unitario . (En Agresti se describen otras propiedades deseables del enlace logit, incluida la validez de los coeficientes incluso en entornos donde se usan muestras no aleatorias como diseños de control de casos; este no es el caso, por ejemplo, de las funciones de enlace probit).norteyθθ
logit(θ)=β0 0+β1X1+...+βyoXyo
θ

En términos de R, simplemente cree un objeto (que usted glmDVllama) que es una matriz de 2 columnas, la primera columna el número de éxitos y el segundo el número total de fallas . ¡El resto de la declaración sigue siendo la misma!ynorte-y


Esta validación cruzada fue muy útil. Revisaré a Agresti en la biblioteca. Gracias por tu ayuda.
user2205916

@Sycorax o @ user2205916, específicamente, ¿cómo se pasa la "matriz de 2 columnas" que contiene números de éxitos y fracasos a R, y cómo R hace uso de esto? Estoy familiarizado con el uso glmy, que yo sepa, solo acepta una variable de respuesta de 1 columna, no dos columnas. Corríjame si estoy equivocado y, si es posible, cite documentación relevante. ¡Gracias!
clarpaul

@clarpaul stat.ethz.ch/R-manual/R-patched/library/stats/html/glm.html Primer párrafo de "Detalles" en la glmdocumentación. Una buena manera de aprender cómo funcionan las funciones R es buscar en Google el nombre de la función; esto generalmente muestra la documentación relevante. También puede escribir ?glmen una consola R
Sycorax dice Reinstate Monica

@ Sycorax, gracias por buscar eso para mí. Lo puse en práctica ayer, ¡y pareció funcionar!
clarpaul
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.