Regresión lineal: ¿alguna distribución no normal que proporcione identidad de OLS y MLE?


13

Esta pregunta está inspirada en la larga discusión en los comentarios aquí: ¿Cómo usa la regresión lineal la distribución normal?

En el modelo de regresión lineal habitual, para simplificar aquí escrito con un solo predictor:

Yi=β0+β1xi+ϵi
donde xi son constantes conocidas y ϵi son términos de error independientes de media cero. Si además asumimos distribuciones normales para los errores, entonces los estimadores de mínimos cuadrados usuales y los estimadores de máxima verosimilitud de β0,β1 son idénticos.

Entonces, mi pregunta fácil: ¿existe alguna otra distribución para los términos de error de manera que el mle sea idéntico al estimador de mínimos cuadrados ordinario? La una implicación es fácil de mostrar, la otra no.


1
(+1) Tendría que ser una distribución centrada alrededor de cero, y parecería que ayudaría si fuera simétrica. Algunos candidatos que vienen a mi mente, como la distribución t- o Laplace, no parecen funcionar, ya que el MLE, incluso en el único caso constante, no está disponible en forma cerrada o dada por la mediana, respectivamente.
Christoph Hanck

ver también stats.stackexchange.com/questions/99014/… , parece que hay mucho para encontrar
Christoph Hanck

Estoy seguro de que la respuesta es no. Sin embargo, puede ser difícil escribir una prueba rigurosa.
Gordon Smyth

Respuestas:


11

En la estimación de máxima verosimilitud, calculamos

β^ML:lnf(ϵi)β=0f(ϵi)f(ϵi)xi=0

la última relación teniendo en cuenta la estructura de linealidad de la ecuación de regresión.

En comparación, el estimador OLS satisface

ϵixi=0

Para obtener expresiones algebraicas idénticas para los coeficientes de pendiente, necesitamos tener una densidad para el término de error tal que

f(ϵi)f(ϵi)=±cϵif(ϵi)=±cϵif(ϵi)

Estas son ecuaciones diferenciales de la forma que tienen solucionesy=±xy

1ydy=±xdxlny=±12x2

y=f(ϵ)=exp{±12cϵ2}

Cualquier función que tenga este núcleo y se integre a la unidad sobre un dominio apropiado, hará que el MLE y el OLS sean idénticos para los coeficientes de pendiente. A saber estamos buscando

g(x)=Aexp{±12cx2}:abg(x)dx=1

¿Existe tal que no sea la densidad normal (o la media normal o la derivada de la función de error)? g

Ciertamente. Pero una cosa más que hay que tener en cuenta es lo siguiente: si se usa el signo más en el exponente y un soporte simétrico alrededor de cero, por ejemplo, se obtendrá una densidad que tiene un mínimo único en el medio y dos máximos locales en Los límites del soporte.


Gran respuesta (+1), pero si uno usa un signo más en la función, ¿es incluso una densidad? Parecería entonces que la función tiene una integral infinita y, por lo tanto, no se puede normalizar a una función de densidad. Si ese es el caso, solo nos queda la distribución normal.
Vuelva a instalar Monica

1
@Ben Gracias. Parece que está asumiendo implícitamente que el rango de la variable aleatoria será más / menos infinito. Pero podemos definir un rv para que se extienda en un intervalo acotado, en cuyo caso podemos usar muy bien el signo más. Es por eso que en mis expresiones utilicé como límites de integración . (a,b)
Alecos Papadopoulos

Eso es cierto, estaba asumiendo eso.
Restablecer Monica

5

argβ0,β1mini=1n(yiβ0β1xi)2
f(y|x,β0,β1)
argβ0,β1mini=1nlog{f(yi|xi,β0,β1)}=argβ0,β1mini=1n(yiβ0β1xi)2
f(y|x,β0,β1)=f0(y|x)exp{ω(yiβ0β1xi)2}
are acceptable since the factor f0(y|x) does not depend on the parameter (β0,β1). There is therefore an infinity of such distributions.

Another setting where both estimators coincide is when the data comes from a spherically symmetric distribution, namely when the (vector) data y has conditional density

h(||yXβ||)
with h() a decreasing function. (In this case the OLS is still available although the assumption of the independence of the ϵi's only holds in the Normal case.)

1
This does not look correct to me. If you use a different spherically symmetric distribution, wouldn't that lead to minimisation of a different function of the norm than the square (thus not being least-squares estimation)?
Reinstate Monica

1

I didn't know about this question until @Xi'an just updated with an answer. There is a more generic solution. Exponential family distributions with some parameters fixed yield to Bregman divergences. For such distributions mean is the minimizer. OLS minimizer is also the mean. Therefore for all such distributions they should coincide when the linear functional is linked to the mean parameter.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.75.6958&rep=rep1&type=pdf

enter image description here

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.