Comparación de residuos entre regresiones OLS y no OLS

Suponga que desea estimar un modelo lineal: ( observaciones de la respuesta y predictores ) $n$ $p+1$

mi (y_{yo}) = β_{0 0} + \sum_{j = 1}^{pags} β_{j} X_{yo j}

$\mathbb{E}(y_i) = \beta_0 + \sum_{j=1}^p \beta_j x_{ij}$

Una forma de hacerlo es a través de la solución OLS, es decir, elegir los coeficientes para que la suma de los errores cuadrados sea mínima:

(β_{0 0}, β_{1}, \dots, β_{pags})^{T} = \underset{β_{0 0}, β_{1}, \dots, β_{pags}}{\arg min} \sum_{yo = 1}^{norte} {(y_{yo} - β_{0 0} - \sum_{j = 1}^{pags} β_{j} X_{yo j})}^{2}

$(\beta_0,\beta_1,\cdots,\beta_p)^T = \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2$

Alternativamente, podría usar otra función de pérdida, como la suma de las desviaciones absolutas, de modo que:

(β_{0 0}, β_{1}, \dots, β_{pags})^{T} = \underset{β_{0 0}, β_{1}, \dots, β_{pags}}{\arg min} \sum_{yo = 1}^{norte} El | y_{yo} - β_{0 0} - \sum_{j = 1}^{pags} β_{j} X_{yo j} El |

$(\beta_0,\beta_1,\cdots,\beta_p)^T = \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left| y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right|$

Suponga que ha encontrado los parámetros para los dos modelos y desea elegir el modelo con el valor más pequeño de la función de pérdida. ¿Cómo puede comparar los valores mínimos alcanzados por las funciones de pérdida en general? (es decir, no solo este caso específico; también podríamos probar otras funciones de pérdida basadas en $L_p$ ) Parece haber una diferencia en la escala de las funciones: una trata con cuadrados mientras que la otra no.

regression loss-functions

— Comp_Warrior
fuente

Bueno, los supuestos de Markov nos permiten mostrar que la primera ecuación es AZUL, o el mejor estimador imparcial lineal. En este caso, "Mejor" se determina teniendo los errores estándar más pequeños de todos los estimadores posibles. ¿No es esa una estadística adecuada?

— gregmacfarlane

tenga en cuenta que y así

‖ x ‖_{2} \leq ‖ x ‖_{1} \leq \sqrt{n} ‖ x ‖_{2}

$\|x\|_2 \leq \|x\|_1 \leq \sqrt{n}\|x\|_2$

\underset{β_{0 0}, β_{1}, \dots, β_{pags}}{\arg min} \sqrt{\sum_{yo = 1}^{norte} {(y_{yo} - β_{0 0} - \sum_{j = 1}^{pags} β_{j} X_{yo j})}^{2}} \leq \underset{β_{0 0}, β_{1}, \dots, β_{pags}}{\arg min} \sum_{yo = 1}^{norte} El | y_{yo} - β_{0 0} - \sum_{j = 1}^{pags} β_{j} X_{yo j} El | \leq \sqrt{(} norte) \underset{β_{0 0}, β_{1}, \dots, β_{pags}}{\arg min} \sqrt{\sum_{yo = 1}^{norte} {(y_{yo} - β_{0 0} - \sum_{j = 1}^{pags} β_{j} X_{yo j})}^{2}}

$\underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sqrt{\sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2} \leq \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left| y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right| \leq \sqrt(n) \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sqrt{\sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2}$

— Manuel

@gmacfarlane Quiero definir "mejor" aquí en términos del valor mínimo de la función de pérdida, en lugar del error estándar en las estimaciones de los parámetros. (solo por curiosidad)

— Comp_Warrior

Creo que no puede comparar los ajustes que provienen de 2 funciones de pérdida diferentes, porque son respuestas a diferentes preguntas. Una vez que decida que una función de pérdida dada es la adecuada para su situación, el ajuste se deriva de esa decisión. No puede doblarlo para validar la elección de la función de pérdida sin que esto se vuelva circular. Si tiene algún otro criterio por el que se puede comprender que ambas funciones de pérdida están abarcadas, puede usarlo, pero debe haberlo definido de antemano.

— gung - Restablece a Monica

Tenga en cuenta que si el modelo para la expectativa era correcto y los tamaños de muestra eran lo suficientemente grandes como para que ambas estimaciones estuvieran efectivamente en el valor de la población, entonces la pregunta se convertiría efectivamente en "¿Cómo comparo una desviación media con una desviación estándar"? Bajo cualquier supuesto de distribución dado, podría comparar su tamaño esperado, pero, por supuesto, en pequeñas muestras, las estimaciones mismas difieren.

— Glen_b -Reinstale a Mónica el

(Convertir mi comentario en una respuesta)

Creo que no puede comparar los ajustes que provienen de diferentes funciones de pérdida, porque son respuestas a diferentes preguntas. Una vez que decida que una función de pérdida dada es la adecuada para su situación, el ajuste se deriva de esa decisión. No puede doblarlo para validar la elección de la función de pérdida sin que esto se vuelva circular. Si tiene algún otro criterio por el que se puede comprender que ambas funciones de pérdida están abarcadas, puede usarlo, pero debe haberlo definido de antemano.

— gung - Restablece a Monica
fuente