En la notación que usaré, p será el número de variables de diseño (incluido el término constante), n el número de observaciones con n≥2p+1(si no se cumpliera esta última condición, el paquete no habría devuelto un ajuste sino un error, por lo que supongo que se cumple). Denotaré porβ^FLTSel vector de coeficientes estimados por FLTS ( ltsReg
) yβ^MMlos coeficientes estimados por MM ( lmrob
). También escribiré:
r2i(β^)=(yi−x⊤iβ^)2
(¡estos son los residuos al cuadrado, no los estandarizados!)
La rlm
función se ajusta a una estimación de regresión 'M' y, como la propuesta de @Frank Harrell hecha en los comentarios a su pregunta, no es robusta para los valores atípicos en el espacio de diseño. La regresión ordinal tiene un punto de ruptura (la proporción de sus datos que necesita ser reemplazada por valores atípicos para llevar los coeficientes ajustados a valores arbitrarios) de esencialmente1/n lo que significa que un solo valor atípico (independientemente de n!) es suficiente para que el ajuste no tenga sentido. Para estimaciones de regresión M (por ejemplo, regresión de Huber M), el punto de ruptura es esencialmente1/(p+1). Esto es algo más alto, pero en la práctica todavía es incómodamente cercano a 0 (porque a menudopserá grande) La única conclusión que se puede extraer de rlm
encontrar un ajuste diferente a los otros dos métodos es que ha sido influenciado por valores atípicos de diseño y que debe haber más dep+1 de estos en su conjunto de datos.
En contraste, los otros dos algoritmos son mucho más robustos: su punto de ruptura está justo debajo 1/2 y lo más importante, no se encoge como pse hace grande Al ajustar un modelo lineal utilizando un método robusto, supone que al menosh=⌊(n+p+1)/2⌋+1Las observaciones en sus datos no están contaminadas. La tarea de estos dos algoritmos es encontrar esas observaciones y ajustarlas lo mejor posible. Más precisamente, si denotamos:
HFLTSHMM={i:r2i(β^FLTS)≤qh/n(r2i(β^FLTS))}={i:r2i(β^MM)≤qh/n(r2i(β^MM))}
(dónde qh/n(r2i(β^MM)) es el h/n cuantil del vector r2i(β^MM))
entonces β^MM (β^FLTS) intenta ajustar las observaciones con índices en HMM (HFLTS)
El hecho de que hay grandes diferencias entre β^FLTS y β^MMindica que los dos algoritmos no identifican el mismo conjunto de observaciones que los valores atípicos. Esto significa que al menos uno de ellos es influido por los valores atípicos. En este caso, utilizando el (ajustado)R2o cualquiera de las estadísticas de cualquiera de los dos ajustes para decidir cuál usar, aunque intuitiva, es una idea terrible : los ajustes contaminados generalmente tienen residuos más pequeños que los limpios (pero dado que el conocimiento de esto es la razón por la que uno usa estadísticas sólidas en primer lugar , Supongo que el OP es muy consciente de este hecho y que no necesito ampliar esto).
Los dos ajustes robustos dan resultados contradictorios y la pregunta es ¿cuál es la correcta? Una forma de resolver esto es considerar el conjunto:
H+=HMM∩HFLTS
porque h≥[n/2], #{H+}≥p. Además, si alguno deHMM o HFLTS está libre de valores atípicos, también lo es H+. La solución que propongo explota este hecho. Calcular:
D(H+,β^FLTS,β^MM)=∑i∈H+(r2i(β^FLTS)−r2i(β^MM))
Por ejemplo, si D(H+,β^FLTS,β^MM)<0, entonces,
β^FLTS se ajusta mejor a las buenas observaciones que β^MM y entonces confiaría β^FLTSmás. Y viceversa.