Lo que has hecho es la regresión logística . Esto se puede hacer básicamente en cualquier software estadístico, y el resultado será similar (al menos en contenido, aunque la presentación puede diferir). Hay una guía de regresión logística con R en el excelente sitio web de ayuda de estadísticas de UCLA. Si no está familiarizado con esto, mi respuesta aquí: diferencia entre los modelos logit y probit puede ayudarlo a comprender de qué se trata LR (aunque está escrito en un contexto diferente).
Parece que tienes dos modelos presentados, principalmente me enfocaré en el mejor. Además, parece que ha habido un error al copiar y pegar el modelo o la salida, por lo que cambiaré leaves.presence
con Area
la salida para que sea coherente con el modelo. Aquí está el modelo al que me refiero (observe que agregué (link="logit")
, lo que está implícito en family=binomial
; vea ? Glm y ? Family ):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
Veamos esta salida (observe que cambié el nombre de la variable en la segunda línea debajo Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Así como hay residuos en la regresión lineal (MCO), puede haber residuos en la regresión logística y otros modelos lineales generalizados. Sin embargo, son más complicados cuando la variable de respuesta no es continua. Los GLiM pueden tener cinco tipos diferentes de residuos, pero lo que viene en la lista estándar son los residuos de desviación. (La desviación y los residuos de desviación son más avanzados, así que seré breve aquí; si esta discusión es algo difícil de seguir, no me preocuparía demasiado, puede omitirla):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Para cada punto de datos utilizado en su modelo, se calcula la desviación asociada con ese punto. Una vez hecho esto para cada punto, tiene un conjunto de tales residuos, y el resultado anterior es simplemente una descripción no paramétrica de su distribución.
A continuación, vemos la información sobre las covariables, que es lo que la gente suele interesar principalmente:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Para un modelo de regresión logística simple como este, solo hay una covariable ( Area
aquí) y la intercepción (también a veces llamada 'constante'). Si tuviera una regresión logística múltiple, habría covariables adicionales enumeradas debajo de estas, pero la interpretación de la salida sería la misma. Debajo Estimate
de la segunda fila está el coeficiente asociado con la variable listada a la izquierda. Es la cantidad estimada por la cual las probabilidades de registro leaves.presence
aumentarían si Area
fuera una unidad más alta. Las probabilidades de registro de leaves.presence
cuándo Area
es0 0está justo arriba en la primera fila. (Si no está lo suficientemente familiarizado con las probabilidades de registro, puede ayudarlo leer mi respuesta aquí: interpretación de predicciones simples a razones de probabilidades en la regresión logística .) En la siguiente columna, vemos el error estándar asociado con estas estimaciones. Es decir, son una estimación de cuánto, en promedio, estas estimaciones rebotarían si el estudio se volviera a ejecutar de forma idéntica, pero con nuevos datos, una y otra vez. (Si no está muy familiarizado con la idea de un error estándar, puede serle útil leer mi respuesta aquí: cómo interpretar los errores estándar de coeficientes en la regresión lineal ). Si dividiéramos la estimación por el error estándar, obtendríamos un cociente que se supone que normalmente se distribuye con muestras suficientemente grandes. Este valor se enumera en debajo z value
. A continuación Pr(>|z|)
se enumeran los valores p de dos colas que corresponden a esos valores z en una distribución normal estándar. Por último, están las estrellas de importancia tradicionales (y tenga en cuenta la clave debajo de la tabla de coeficientes).
La Dispersion
línea se imprime de forma predeterminada con GLiM, pero no agrega mucha información aquí (es más importante con los modelos de conteo, por ejemplo). Podemos ignorar esto.
Por último, obtenemos información sobre el modelo y su bondad de ajuste:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
La línea sobre a missingness
menudo falta, um. Se manifiesta aquí, ya que tenía 314 observaciones para las cuales ya sea leaves.presence
, Area
o ambos habían desaparecido. Esas observaciones parciales no se utilizaron para ajustar el modelo.
El Residual deviance
es una medida de la falta de ajuste de su modelo tomado como un todo, mientras que la Null deviance
es una medida de este tipo para un modelo reducido que sólo incluye la intersección. Observe que los grados de libertad asociados con estos dos difieren solo en uno. Como su modelo tiene solo una covariable, solo se ha estimado un parámetro adicional (el Estimate
for Area
) y, por lo tanto, solo se ha consumido un grado adicional de libertad. Estos dos valores se pueden usar para realizar una prueba del modelo como un todo, lo que sería análogo al globalF-test que viene con un modelo de regresión lineal múltiple. Como solo tiene una covariable, esta prueba no sería interesante en este caso.
El AIC es otra medida de bondad de ajuste que tiene en cuenta la capacidad del modelo para ajustar los datos. Esto es muy útil cuando se comparan dos modelos en los que uno puede ajustarse mejor, pero quizás solo en virtud de ser más flexible y, por lo tanto, más capaz de ajustar cualquier información. Como solo tiene un modelo, esto no es informativo.
La referencia a Fisher scoring iterations
tiene que ver con cómo se estimó el modelo. Un modelo lineal puede ajustarse resolviendo ecuaciones de forma cerrada. Desafortunadamente, eso no se puede hacer con la mayoría de los GLiM, incluida la regresión logística. En cambio, se utiliza un enfoque iterativo (el algoritmo de Newton-Raphson por defecto). En términos generales, el modelo se ajusta basándose en una suposición sobre cuáles podrían ser las estimaciones. Luego, el algoritmo mira a su alrededor para ver si el ajuste se mejoraría mediante el uso de diferentes estimaciones. Si es así, se mueve en esa dirección (digamos, usando un valor más alto para la estimación) y luego se ajusta nuevamente al modelo. El algoritmo se detiene cuando no percibe que moverse de nuevo produciría muchas mejoras adicionales. Esta línea le indica cuántas iteraciones hubo antes de que el proceso se detuviera y mostrara los resultados.
Con respecto al segundo modelo y salida que enumera, esta es solo una forma diferente de mostrar los resultados. Específicamente, estos
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
son el mismo tipo de estimaciones discutidas anteriormente (aunque de un modelo diferente y presentado con menos información complementaria).