Sesgo hacia números naturales en el caso de mínimos cuadrados

14

¿Por qué buscamos minimizar en x^2lugar de minimizar |x|^1.95o |x|^2.05? ¿Hay razones por las cuales el número debe ser exactamente dos o es simplemente una convención que tiene la ventaja de simplificar las matemáticas?

standard-deviation least-squares

— cristiano
fuente

5

Esta pregunta es bastante antigua, pero en realidad tengo una respuesta que no aparece aquí, y una que da una razón convincente por la cual (bajo algunos supuestos razonables) el error al cuadrado es correcto, mientras que cualquier otro poder es incorrecto.

Digamos que tenemos algunos datos y desea encontrar la función lineal (o lo que sea) que mejor predice los datos, en el sentido de que la densidad de probabilidad para observar estos datos debe ser máxima con respecto a (esto se llama el $D = \langle(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),...,(\mathbf{x}_n,y_n)\rangle$ $f$ $p_f(D)$ $f$ estimación de máxima verosimilitud ) Si suponemos que los datos están dados por $f$ más un término de error normalmente distribuido con desviación estándar , entonces $\sigma$ Esto es equivalente a

p_{f} (D) = \prod_{i = 1}^{n} \frac{1}{σ \sqrt{2 π}} e^{- \frac{(y_{i} - f (x_{i}))^{2}}{2 σ^{2}}} .

$p_f(D) = \prod_{i=1}^{n} \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(y_i - f(\mathbf{x}_i))^2}{2\sigma^2}}.$

Entonces, maximizar

se logra minimizando

, es decir, la suma de los términos de error al cuadrado.

\frac{1}{σ^{n} (2 π)^{n / 2}} e^{- \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (y_{i} - f (x_{i}))^{2}} .

$\frac{1}{\sigma^n(2\pi)^{n/2}}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^{n} (y_i - f(\mathbf{x}_i))^2}.$

p_{f} (D)

$p_f(D)$

\sum_{i = 1}^{n} (y_{i} - f (x_{i}))^{2}

$\sum_{i=1}^{n} (y_i - f(\mathbf{x}_i))^2$

Eso parece circular, ¿por qué debería asumir un término de error distribuido normalmente?

— Joe

@Joe No siempre deberías, pero si lo único que sabes sobre el término de error es que tiene una media de 0 y un valor absoluto esperado finito, entonces esa es la suposición de máxima entropía, por lo que puede reemplazar lo desconocido función de error que realmente tienes. Si tiene información adicional sobre la distribución de errores, entonces supongo que podría usarla y encontrar un estimador de máxima probabilidad más preciso.

"si lo único que sabe sobre el término de error es que tiene una media de 0 y un valor absoluto esperado finito, entonces esa es la suposición de entropía máxima" - cada derivación de distribuciones de entropía máxima que he visto deriva la distribución de Laplace como el distribución máxima de un valor absoluto esperado finito (conocido), mientras que el gaussiano es el máximo para un valor absoluto cuadrado esperado finito (conocido), vea como ejemplo stats.stackexchange.com/questions/82410/… ¿tiene citas que no están de acuerdo? ?

— Joe

Sabes que no. Asumiré que tienes razón. (Aunque no puedo entender cómo editar mi comentario por alguna razón)

14

No hay ninguna razón por la que no pueda intentar minimizar otras normas que no sean x ^ 2, por ejemplo, se han escrito libros completos sobre regresión cuantil, que es más o menos minimizar | x | si estás trabajando con la mediana. En general, es más difícil de hacer y, según el modelo de error, es posible que no proporcione buenos estimadores (dependiendo de si eso significa estimadores de baja varianza o de sesgo imparcial o bajo en el contexto).

En cuanto a por qué preferimos los momentos enteros en lugar de los momentos valorados con números reales, la razón principal es probable que, si bien las potencias enteras de los números reales siempre dan como resultado números reales, las potencias no enteras de los números reales negativos crean números complejos, lo que requiere el uso de Un valor absoluto. En otras palabras, mientras que el tercer momento de una variable aleatoria de valor real es real, el momento 3.2 no es necesariamente real, y por lo tanto causa problemas de interpretación.

Aparte de eso...

Las expresiones analíticas para los momentos enteros de las variables aleatorias suelen ser mucho más fáciles de encontrar que los momentos de valor real, ya sea generando funciones o algún otro método. Los métodos para minimizarlos son, por lo tanto, más fáciles de escribir.
El uso de momentos enteros conduce a expresiones que son más manejables que los momentos de valor real.
No puedo pensar en una razón convincente de que (por ejemplo) el momento 1.95 del valor absoluto de X proporcionaría mejores propiedades de ajuste que (por ejemplo) el segundo momento de X, aunque podría ser interesante investigar
Específico a la norma L2 (o error al cuadrado), se puede escribir a través de productos de puntos, lo que puede conducir a grandes mejoras en la velocidad de cálculo. También es el único espacio Lp que es un espacio Hilbert, que es una buena característica para tener.

— Rico
fuente

8

Intentamos minimizar la variación que queda dentro de los descriptores. ¿Por qué varianza? Lee esta pregunta ; Esto también viene junto con la suposición (en su mayoría silenciosa) de que los errores se distribuyen normalmente.

Extensión:
dos argumentos adicionales:

Para las variaciones, tenemos esta agradable "ley" de que la suma de las variaciones es igual a la variación de la suma, para muestras no correlacionadas. Si suponemos que el error no está correlacionado con el caso, minimizar el residual de los cuadrados funcionará directamente para maximizar la varianza explicada, lo que quizás sea una medida de calidad no tan buena pero aún popular.
Si suponemos la normalidad de un error, el estimador de error de mínimos cuadrados es uno de máxima probabilidad.

— Comunidad
fuente

1

La respuesta en ese otro hilo no explica realmente por qué 2 es un valor mejor que otros valores que están muy cerca de 2 pero que no son números naturales.

— Christian

Creo que si; aun así intentaré extender la respuesta.

Entonces, si los errores no se distribuyen normalmente, pero, por ejemplo, de acuerdo con otra distribución estable de Lévy, ¿vale la pena usar un exponente diferente de 2?

— Raskolnikov

Recuerde, la distribución normal es la más "cautelosa" para la varianza conocida (porque tiene una entropía máxima entre todas las densidades con varianza fija). Deja más que decir por los datos. O dicho de otra manera, para conjuntos de datos "grandes" con la misma variación, "usted" tiene que "intentar" increíblemente difícil obtener una distribución que sea diferente de lo normal.

— probabilidadislogic

8

En los mínimos cuadrados ordinarios, la solución a (A'A) ^ (- 1) x = A'b minimiza la pérdida de error al cuadrado, y es la solución de máxima verosimilitud.

Entonces, en gran parte porque las matemáticas fueron fáciles en este caso histórico.

Pero en general, las personas minimizan muchas funciones de pérdida diferentes , como exponencial, logística, cauchy, laplace, huber, etc. Estas funciones de pérdida más exóticas generalmente requieren muchos recursos computacionales y no tienen soluciones de forma cerrada (en general), por lo que ahora solo comienzan a ser más populares.

— Joe
fuente

1

+1 por presentar la idea de pérdida. (¿Pero no son "exponenciales", etc., distribuciones , no funciones de pérdida?) Históricamente, la pérdida lineal fue el primer enfoque desarrollado formalmente, en 1750, y había una solución geométrica directa disponible para ello. Creo que Laplace estableció la relación entre esto y la distribución doble exponencial en una publicación de 1809 (para la cual el MLE minimizará el error absoluto, no el error al cuadrado). Por lo tanto, la pérdida al cuadrado no se distingue de manera única por el criterio de tener un MLE y ser matemáticamente fácil.

— whuber

Ambas son distribuciones y funciones de pérdida en diferentes contextos.

— Joe

Presioné enter demasiado rápido en la respuesta anterior: la pérdida exponencial está ampliamente asociada con el aumento (ver Friedman Hastie and Tibshirani Statistical View of Boosting), donde es una pérdida en lugar de una distribución, la regresión logística corresponde a la pérdida de registro, laplace es una distribución pero corresponde a la pérdida de valor absoluto, por lo que en su mayor parte estaba siendo extremadamente descuidado, gracias por señalarlo. Pero aunque la pérdida L1 tiene una solución geométrica, no es una forma analíticamente cerrada, por lo que difícilmente llamaría fácil su solución.

— Joe

1

Tengo entendido que debido a que estamos tratando de minimizar los errores, necesitamos encontrar una manera de no meternos en una situación en la que la suma de la diferencia negativa en los errores sea igual a la suma de la diferencia positiva en los errores, pero no hemos Encontré un buen ajuste. Hacemos esto al cuadrar la suma de la diferencia en los errores, lo que significa que la diferencia negativa y positiva en los errores se vuelve positiva ( $-1\times-1 = 1$ ) Si nosotros criamos $x$ al poder de cualquier otra cosa que no sea un entero positivo, no abordaríamos este problema porque los errores no tendrían el mismo signo, o si nos elevamos al poder de algo que no es un entero, entraríamos en los reinos de los complejos números.

— Ian Turner
fuente