A medida que se aleja lo suficiente de la normalidad, todos los estimadores lineales pueden ser arbitrariamente malos .
Saber que puede obtener lo mejor de un lote malo (es decir, la mejor estimación imparcial lineal) no es mucho consuelo.
Si puede especificar un modelo de distribución adecuado ( ay, ahí está el problema ), maximizar la probabilidad tiene un atractivo intuitivo directo, ya que "maximiza la posibilidad" de ver la muestra que realmente vio (con un refinamiento adecuado de lo que es decir, para el caso continuo) y una serie de propiedades muy claras que son teórica y prácticamente útiles (por ejemplo, relación con el límite inferior de Cramer-Rao, equivalencia bajo transformación, relación con las pruebas de relación de probabilidad, etc.). Esto motiva la estimación M por ejemplo.
Incluso cuando no puede especificar un modelo, es posible construir un modelo para el cual el LD sea resistente a la contaminación por errores graves en la distribución condicional de la respuesta, donde retiene una eficiencia bastante buena en el gaussiano pero evita lo potencialmente desastroso impacto de valores atípicos arbitrariamente grandes.
[Esa no es la única consideración con la regresión, ya que también existe la necesidad de robustez en el efecto de valores atípicos influyentes, por ejemplo, pero es un buen paso inicial]
Como demostración del problema incluso con el mejor estimador lineal, considere esta comparación de estimadores de pendiente para regresión. En este caso hay 100 observaciones en cada muestra, x es 0/1, la pendiente verdadera es12y los errores son Cauchy estándar. La simulación toma 1000 conjuntos de datos simulados y calcula la estimación de pendiente de mínimos cuadrados ("LS"), así como un par de estimadores no lineales que podrían usarse en esta situación (ninguno es completamente eficiente en el Cauchy pero ambos son razonables) ) - uno es un estimador L1 de la línea ("L1") y el segundo calcula una estimación L simple de la ubicación en los dos valores de x y se ajusta a una línea que los une ("LE").
La parte superior del diagrama es un diagrama de caja de esas miles de estimaciones de pendiente para cada simulación. La parte inferior es el uno por ciento central (más o menos, está marcado con un cuadro naranja-gris tenue en el gráfico superior) de esa imagen "ampliada" para que podamos ver más detalles. Como vemos, las pendientes de mínimos cuadrados oscilan entre -771 y 1224 y los cuartiles inferior y superior son -1.24 y 2.46. El error en la pendiente LS fue superior a 10 más del 10% del tiempo. Los dos estimadores no lineales funcionan mucho mejor: funcionan de manera bastante similar entre sí, ninguno de los 1000 estimados de pendiente en ninguno de los casos está a más de 0.84 de la pendiente verdadera y el error absoluto medio en la pendiente está en el estadio de 0.14 por cada (vs 1.86 para el estimador de mínimos cuadrados). La pendiente LS tiene un RMSE de 223 y 232 veces el de los estimadores L1 y LE en este caso (que '
Hay docenas de otros estimadores razonables que podrían haber sido utilizados aquí; esto fue simplemente un cálculo rápido para ilustrar que incluso los estimadores lineales mejores / más eficientes pueden no ser útiles. Un estimador ML de la pendiente funcionaría mejor (en el sentido de MSE) que los dos estimadores robustos utilizados aquí, pero en la práctica querría algo con cierta robustez para los puntos influyentes.