Elección entre diferentes regresiones robustas en R

Estoy escribiendo un programa para evaluar propiedades inmobiliarias y realmente no entiendo las diferencias entre algunos modelos de regresión robustos, por eso no sé cuál elegir.

Probé lmrob, ltsRegy rlm. para el mismo conjunto de datos, los tres métodos me dieron valores diferentes para los coeficientes.

Pensé que lo mejor es utilizar ltsRegporque, summary(ltsReg())proporciona información acerca de R-squaredy p-valuesy esto me ayudará a decidir si al aceptar o despedir el modelo.

¿Crees que ltsReges una buena opción?

EDITAR: Acabo de leer en las Estadísticas de bondad de ajuste que el R cuadrado ajustado es generalmente el mejor indicador de ajuste de calidad

r regression p-value r-squared

— Pablo
fuente

Ambos valores p y

R^{2}

$R^2$ puede ser engañoso, por lo que elegir un paquete basado en el hecho de que los emite no es realmente un buen criterio para tal elección ...

— Tim

entonces, ¿cómo puedo decidir si el modelo es válido sin trazarlo?

— Paul

Considere también la regresión ordinal porque puede ser más robusta e interpretable, y más poderosa.

— Frank Harrell

@ usuario603: lo confirmo. Para la evaluación de un inmueble, creo varios modelos, que contienen diferentes características (por ejemplo: 1. precio ~ livingArea + floorNumber + age + ...).

— Paul

¡Alguien quiere cerrar esta pregunta! No creo que sea correcto, incluso si en la superficie se trata de elegir funciones R, realmente se trata de cómo y por qué elegir métodos de regresión robustos, es decir, onópicos.

— kjetil b halvorsen

En la notación que usaré, $p$ será el número de variables de diseño (incluido el término constante), $n$ el número de observaciones con $n\geq2p+1$ (si no se cumpliera esta última condición, el paquete no habría devuelto un ajuste sino un error, por lo que supongo que se cumple). Denotaré por $\hat{\boldsymbol\beta}_{FLTS}$ el vector de coeficientes estimados por FLTS ( ltsReg) y $\hat{\boldsymbol\beta}_{MM}$ los coeficientes estimados por MM ( lmrob). También escribiré:

r_{i}^{2} (\hat{β}) = (y_{i} - x_{i}^{⊤} \hat{β})^{2}

$r^2_i(\hat{\boldsymbol\beta})=(y_i-\boldsymbol x_i^\top\hat{\boldsymbol\beta})^2$

(¡estos son los residuos al cuadrado, no los estandarizados!)

La rlmfunción se ajusta a una estimación de regresión 'M' y, como la propuesta de @Frank Harrell hecha en los comentarios a su pregunta, no es robusta para los valores atípicos en el espacio de diseño. La regresión ordinal tiene un punto de ruptura (la proporción de sus datos que necesita ser reemplazada por valores atípicos para llevar los coeficientes ajustados a valores arbitrarios) de esencialmente $1/n$ lo que significa que un solo valor atípico (independientemente de $n$ !) es suficiente para que el ajuste no tenga sentido. Para estimaciones de regresión M (por ejemplo, regresión de Huber M), el punto de ruptura es esencialmente $1/(p+1)$ . Esto es algo más alto, pero en la práctica todavía es incómodamente cercano a 0 (porque a menudo $p$ será grande) La única conclusión que se puede extraer de rlmencontrar un ajuste diferente a los otros dos métodos es que ha sido influenciado por valores atípicos de diseño y que debe haber más de $p+1$ de estos en su conjunto de datos.

En contraste, los otros dos algoritmos son mucho más robustos: su punto de ruptura está justo debajo $1/2$ y lo más importante, no se encoge como $p$ se hace grande Al ajustar un modelo lineal utilizando un método robusto, supone que al menos $h=\lfloor(n+p+1)/2\rfloor+1$ Las observaciones en sus datos no están contaminadas. La tarea de estos dos algoritmos es encontrar esas observaciones y ajustarlas lo mejor posible. Más precisamente, si denotamos:

\begin{aligned} H_{F L T S} & = {i : r_{i}^{2} ({\hat{β}}_{F L T S}) \leq q_{h / n} (r_{i}^{2} ({\hat{β}}_{F L T S}))} \\ H_{M M} & = {i : r_{i}^{2} ({\hat{β}}_{M M}) \leq q_{h / n} (r_{i}^{2} ({\hat{β}}_{M M}))} \end{aligned}

$\begin{align} H_{FLTS} &= \{i:r^2_i(\hat{\boldsymbol\beta}_{FLTS})\leq q_{h/n}(r^2_i(\hat{\boldsymbol\beta}_{FLTS}))\} \\ H_{MM} &= \{i:r^2_i(\hat{\boldsymbol\beta}_{MM})\leq q_{h/n}(r^2_i(\hat{\boldsymbol\beta}_{MM}))\} \end{align}$

(dónde $q_{h/n}(r^2_i(\hat{\boldsymbol\beta}_{MM}))$ es el $h/n$ cuantil del vector $r^2_i(\hat{\boldsymbol\beta}_{MM})$ )

entonces $\hat{\boldsymbol\beta}_{MM}$ ( $\hat{\boldsymbol\beta}_{FLTS}$ ) intenta ajustar las observaciones con índices en $H_{MM}$ ( $H_{FLTS}$ )

El hecho de que hay grandes diferencias entre $\hat{\boldsymbol\beta}_{FLTS}$ y $\hat{\boldsymbol\beta}_{MM}$ indica que los dos algoritmos no identifican el mismo conjunto de observaciones que los valores atípicos. Esto significa que al menos uno de ellos es influido por los valores atípicos. En este caso, utilizando el (ajustado) $R^2$ o cualquiera de las estadísticas de cualquiera de los dos ajustes para decidir cuál usar, aunque intuitiva, es una idea terrible : los ajustes contaminados generalmente tienen residuos más pequeños que los limpios (pero dado que el conocimiento de esto es la razón por la que uno usa estadísticas sólidas en primer lugar , Supongo que el OP es muy consciente de este hecho y que no necesito ampliar esto).

Los dos ajustes robustos dan resultados contradictorios y la pregunta es ¿cuál es la correcta? Una forma de resolver esto es considerar el conjunto:

H^{+} = H_{M M} \cap H_{F L T S}

$H^+=H_{MM}\cap H_{FLTS}$

porque $h\geq[n/2]$ , $\#\{H^+\}\geq p$ . Además, si alguno de $H_{MM}$ o $H_{FLTS}$ está libre de valores atípicos, también lo es $H^+$ . La solución que propongo explota este hecho. Calcular:

D (H^{+}, {\hat{β}}_{F L T S}, {\hat{β}}_{M M}) = \sum_{i \in H^{+}} (r_{i}^{2} ({\hat{β}}_{F L T S}) - r_{i}^{2} ({\hat{β}}_{M M}))

$D(H^+,\hat{\boldsymbol\beta}_{FLTS},\hat{\boldsymbol\beta}_{MM})=\sum_{i\in H^+}\left(r^2_i(\hat{\boldsymbol\beta}_{FLTS})-r^2_i(\hat{\boldsymbol\beta}_{MM})\right)$

Por ejemplo, si $D(H^+,\hat{\boldsymbol\beta}_{FLTS},\hat{\boldsymbol\beta}_{MM})<0$ , entonces, $\hat{\boldsymbol\beta}_{FLTS}$ se ajusta mejor a las buenas observaciones que $\hat{\boldsymbol\beta}_{MM}$ y entonces confiaría $\hat{\boldsymbol\beta}_{FLTS}$ más. Y viceversa.

— usuario603
fuente

+1. Supongo que estas usando

[]

$[\ \ ]$ significa redondear hacia abajo a entero o función de piso

⌊ ⌋

$\lfloor\ \ \rfloor$ . Encuentro la última notación más explícita. Es fácil suponer que los lectores nuevos en esa notación para el redondeo de enteros suponen que los corchetes son solo corchetes.

— Nick Cox