¿Por qué los GLM predicen la media y no la moda?

¿Por qué un GLM predice la media y no el modo de una señal? ¿Esto no contradice la base misma detrás del GLM, es decir, la máxima probabilidad? Las ecuaciones para resolver los parámetros del modelo en un GLM se basan en la maximización de la probabilidad según lo descrito por la distribución de probabilidad de la señal modelada. Esta distribución de probabilidad es máxima para el modo, no para la media (la distribución normal es una excepción: tanto el modo como la media son iguales). Por lo tanto, un GLM debe predecir el modo , ¡no la media de una señal! (Para algunos antecedentes de esta pregunta, ver aquí ).

— nukimov
fuente

Estoy un poco demasiado oxidado para dar esto como respuesta, pero creo que la idea es que hay una distribución de medios condicionales probables, y el GLM proporciona el modo de esa distribución. (Entonces es la estimación modal de la media.)

— Shea Parkes

He editado su título para reflejar el modelo StackExchange: las preguntas son preguntas, no artículos de opinión. (Usted debe tratar de evitar que el cuerpo de su pregunta suena como una especie de queja.)

— Glen_b -Reinstate Monica

Tenga en cuenta que la probabilidad es una función de los parámetros, mientras que el modelo intenta describir la distribución de los datos. No hay inconsistencia. De hecho, considere una regresión logística para datos binarios, donde las proporciones ajustadas oscilan entre 0.2 y 0.475. El modo de la distribución de Bernoulli es en cada caso 0, ¿entonces está diciendo que el modelo debe consistir completamente en 0? Eso es mucho menos útil que un modelo para la media.

— Glen_b -Reinstate Monica

Solo una nota al margen: el modo de su respuesta puede ser extremadamente poco informativo. En el ejemplo más extremo, el modo de una distribución de Bernoulli siempre será 0 o 1.

— Cliff AB

Lo que se maximiza con la máxima probabilidad no es la densidad de la distribución de los datos, sino la probabilidad del parámetro.

— Glen_b -Reinstate Monica

Respuestas:

El objetivo del ajuste de máxima verosimilitud es determinar los parámetros de alguna distribución que mejor se ajuste a los datos y, en general, cómo dichos parámetros pueden variar con las covariables. En el caso de GLMs, queremos determinar los parámetros $\theta$ de alguna distribución familiar exponencial, y cómo son función de algunas covariables $X$ .

Para cualquier distribución de probabilidad en la familia exponencial sobredispersada, la media $\mu$ se garantiza que está relacionado con el parámetro de la familia exponencial canónica $\mathbf{\theta}$ a través de la función de enlace canónico, $\theta = g(\mu)$ . Incluso podemos determinar una fórmula general para $g$ y típicamente $g$ Es invertible también. Si simplemente establecemos $\mu = g^{-1}(\theta)$ y $\theta = X\beta$ , obtenemos automáticamente un modelo de cómo $\mu$ y $\theta$ cambia con $X$ , sin importar con qué distribución estamos tratando, y ese modelo puede ajustarse fácil y confiablemente a los datos mediante la optimización convexa . La respuesta de Matt muestra cómo funciona para la distribución de Bernoulli, pero la verdadera magia es que funciona para todas las distribuciones de la familia.

El modo no disfruta de estas propiedades. De hecho, como señala Cliff AB, es posible que el modo ni siquiera tenga una relación biyectiva con el parámetro de distribución, por lo que la inferencia del modo es de una potencia muy limitada. Tome la distribución de Bernoulli, por ejemplo. Su modo es 0 o 1, y conocer el modo solo te dice si $p$ , la probabilidad de 1 es mayor o menor que 1/2. En contraste, la media te dice exactamente qué $p$ es.

Ahora, para aclarar cierta confusión en la pregunta: la probabilidad máxima no se trata de encontrar el modo de una distribución, porque la probabilidad no es la misma función que la distribución. La probabilidad implica la distribución de su modelo en su fórmula, pero ahí es donde terminan las similitudes. La función de probabilidad $L(\theta)$ toma un valor de parámetro $\theta$ como entrada, y le dice cuán "probable" es todo su conjunto de datos , dada la distribución del modelo $\theta$ . La distribución del modelo. $f_\theta(y)$ depende de $\theta$ , pero como función, toma un valor $y$ como entrada y le dice con qué frecuencia una muestra aleatoria de esa distribución será igual $y$ . El máximo de $L(\theta)$ y el modo de $f_\theta(y)$ No son lo mismo.

Tal vez sea útil ver la fórmula de probabilidad. En el caso de datos IID $y_1,y_2,\ldots,y_n$ , tenemos

L (θ) = \prod_{i = 1}^{n} f_{θ} (y_{i})

$L(\theta) = \prod_{i=1}^n f_\theta(y_i)$ Los valores de

y_{i}

$y_i$ son todos fijos: son los valores de sus datos. La máxima probabilidad es encontrar el

θ

$\theta$ que maximiza

L (θ)

$L(\theta)$ . Encontrar el modo de distribución sería encontrar el

y

$y$ que maximiza

f_{θ} (y)

$f_\theta(y)$ , que no es lo que queremos:

y

$y$ se fija en la probabilidad, no una variable.

Por lo tanto, encontrar el máximo de la función de probabilidad no es, en general, lo mismo que encontrar el modo de distribución del modelo. (Es el modo de otra distribución, si le preguntas a un Bayesiano objetivo, ¡pero esa es una historia muy diferente!)

— Pablo
fuente

Hay dos cosas para discutir aquí:

Los hechos que un glm intenta predecir $y$ como la media de una distribución condicional, y estima sus parámetros $\beta$ por máxima probabilidad son consistentes.
Estimar los parámetros por máxima probabilidad no es determinar el modo de ninguna distribución. Al menos no en la formulación clásica de una película.

Tomemos la película no trivial más simple como ejemplo de trabajo, el modelo logístico. En regresión logística tenemos una respuesta $y$ que es 0, 1 valorado. Postulamos que $y$ se distribuye bernoulli condicional en nuestros datos

y ∣ X \sim B e r n o u l l i (p (X))

$y \mid X \sim Bernoulli(p(X))$

E intentamos estimar la media de esta distribución condicional (que en este caso es solo $p$ ) al vincularlo a una función lineal de $X$

\log (\frac{p}{1 - p}) = X β

$\log\left(\frac{p}{1-p}\right) = X \beta$

Haciendo una pausa y reflexionando, vemos en este caso que es natural querer saber $p$ , que es una media de una distribución condicional.

En la configuración de glm, $p$ no se estima directamente, es $\beta$ que el procedimiento de estimación apunta. Para llegar a $\beta$ Usamos la máxima probabilidad. La probabilidad de observar un punto de datos $y$ de la distribución condicional de bernoulli, dado el valor de $X$ observado, y un conjunto específico de parámetros $\beta$ ,es

P (y ∣ X, β) = p^{y} (1 - p)^{1 - y}

$P \left( y \mid X, \beta \right) = p^y (1-p)^{1-y}$

dónde $p$ es una función de $\beta$ y $X$ a través de la relación de vinculación.

Tenga en cuenta que es $y$ que se muestra a partir de una distribución de probabilidad aquí, no beta.

Para aplicar la máxima verosimilitud, cambiamos esto a una función de $\beta$ considerando ambos $X$ y $y$ como fijo y observado:

L (β) = p^{y} (1 - p)^{1 - y}

$L(\beta) = p^y (1-p)^{1-y}$

Pero, $L$ No es una función de densidad , es una probabilidad. Al maximizar la probabilidad de que está no la estimación de la forma de una distribución porque simplemente no hay distribución, así, el modo-ize.

Puede producir una densidad de $L$ proporcionando una distribución previa de los parámetros $\beta$ y usando la regla de Bayes, pero en la formulación clásica de glm, esto no se hace.

— Matthew Drury
fuente

Gracias por todos los comentarios y respuestas. Aunque en ninguno de ellos es 100% la respuesta a mi pregunta, todos me ayudaron a ver a través de la aparente contradicción. Por lo tanto, decidí formular la respuesta yo mismo, creo que este es un resumen de todas las ideas involucradas en los comentarios y respuestas:

Maximización de probabilidad a través de los datos PDF $f(y; \theta, \phi)$ en GLMs no está relacionado con el modo de $f$ (pero a su media) debido a 2 razones:

Cuando maximizas $f(y; \theta, \phi)$ tu no consideras $f$ como una función de $y$ , pero en función de $\boldsymbol\beta$ (los parámetros del modelo lineal). Más específicamente, cuando diferencias $f$ para obtener un sistema de ecuaciones que conduzca a determinar $\boldsymbol\beta$ , no lo haces con respecto a $y$ ; lo haces con respecto a $\boldsymbol\beta$ . Por lo tanto, el proceso de maximización le brinda $\boldsymbol\beta$ que maximiza $f$ . Un óptimo $\boldsymbol\beta$ , y no un óptimo $y$ (que, de hecho, sería el modo), es el resultado del proceso de maximización.
Además, en el proceso de maximización, la media, $\boldsymbol\mu$ , es una función de $\boldsymbol\beta$ . Por lo tanto, a través del proceso de maximización también obtenemos el óptimo $\boldsymbol\mu$ .

— nukimov
fuente