Desde su pregunta anterior aprendió que GLM se describe en términos de distribución de probabilidad, lineal predictor y la función de enlace g y se describe comoηg
ηE(Y|X)=Xβ=μ=g−1(η)
donde es una función de enlace logit y se supone que Y sigue una distribución de BernoulligY
Yi∼B(μi)
cada sigue distribución de Bernoulli con el mismo de la propia media μ i que está condicionada a X . Estamos no Suponiendo que cada Y i viene de la misma distribución, con la misma media (esto sería la intersección-único modelo Y i = g - 1 ( μ ) ), pero que todos ellos tienen diferentes medios. Suponemos que los Y i son independientes , es decir, no tenemos que preocuparnos por cosas como la autocorrelación entre los valores Y i posteriores , etc.Yi μiXYiYi=g−1(μ)YiYi
La suposición de iid está relacionada con errores en la regresión lineal (es decir, GLM gaussiana), donde el modelo es
yi=β0+β1xi+εi=μi+εi
donde , por lo que tenemos ruido iid alrededor de . Es por esto que está interesado en residuales diagnóstico y prestar atención a los residuos vs. equipada trama . Ahora, en el caso de la regresión logística de GLM, no es tan simple ya que no existe un término de ruido aditivo como con el modelo gaussiano (ver aquí , aquí y aquí ). Todavía queremos que los residuos sean "aleatorios" alrededor de cero y no queremos ver ninguna tendencia en ellos porque sugerirían que hay algunos efectos que no se tienen en cuenta en el modelo, pero no asumimos que lo sean. normal y / oεi∼N(0,σ2)μiIID . Ver también la importancia del supuesto iid en el hilo de aprendizaje estadístico .
Como nota al margen, tenga en cuenta que incluso podemos dejar de suponer que cada proviene del mismo tipo de distribución. Hay (no-GLM) modelos que asumen que diferente Y i 's puede tener diferentes distribuciones con diferentes parámetros, es decir, que sus datos proviene de una mezcla de diferentes distribuciones . En tal caso, también supondríamos que los valores Y i son independientes , ya que los valores dependientes, que provienen de diferentes distribuciones con diferentes parámetros (es decir, datos típicos del mundo real) es algo que en la mayoría de los casos sería demasiado complicado de modelar (a menudo imposible) .YiYiYi