14

Digamos que tenemos los puntos de datos de entrada (predictor) y de salida (respuesta) A, B, C, D, E y queremos ajustar una línea a través de los puntos. Este es un problema simple para ilustrar la pregunta, pero también puede extenderse a dimensiones más altas.

Planteamiento del problema

El mejor ajuste o hipótesis actual está representado por la línea negra de arriba. La flecha azul ( ) representa la distancia vertical entre el punto de datos y el mejor ajuste actual, dibujando una línea vertical desde el punto hasta que se cruza con la línea. $\color{blue}\rightarrow$

La flecha verde ( ) se dibuja de manera tal que es perpendicular a la hipótesis actual en el punto de intersección y, por lo tanto, representa la menor distancia entre el punto de datos y la hipótesis actual. Para los puntos A y B, una línea dibujada de modo que sea vertical a la mejor suposición actual y es similar a una línea que es vertical al eje x. Para estos dos puntos, las líneas azul y verde se superponen, pero no para los puntos C, D y E. $\color{green}\rightarrow$

El principio de mínimos cuadrados define la función de costo para la regresión lineal al dibujar una línea vertical a través de los puntos de datos (A, B, C, D o E) a la hipótesis estimada ( ), en cualquier ciclo de entrenamiento dado, y está representada por $\color{blue}\rightarrow$

$Cost Function = \sum_{i=1}^N(y_i-h_\theta(x_i))^2$

Aquí representa los puntos de datos, y representa el mejor ajuste. $(x_i, y_i)$ $h_\theta(x_i)$

La distancia mínima entre un punto (A, B, C, D o E) está representada por una línea perpendicular dibujada desde ese punto hasta la mejor aproximación actual (flechas verdes).

El objetivo de la función de mínimos cuadrados es definir una función objetivo que, cuando se minimiza, daría lugar a la menor distancia entre la hipótesis y todos los puntos combinados, pero no necesariamente minimizará la distancia entre la hipótesis y un solo punto de entrada.

Pregunta

¿Por qué no definimos la función de costo para la regresión lineal como la distancia mínima entre el punto de datos de entrada y la hipótesis (definida por una línea perpendicular a la hipótesis) que pasa a través del punto de datos de entrada, como se da por ( )? $\color{green}\rightarrow$

— alpha_989
fuente

55

La regresión lineal simple supone que no hay error en los valores de las coordenadas x de las observaciones (por ejemplo, porque son manipulaciones experimentales). Si hay errores en el eje x, uno puede explicarlos minimizando una función de costo similar a la que usted propone; esto requiere establecer la relación entre la varianza de los errores en los ejes x e y. Si la relación

, esto equivale a minimizar la distancia perpendicular entre los puntos y la línea (regresión ortogonal). Si la relación

se llama regresión de Deeming

= 1

$=1$

\neq 1

$\neq1$

— matteo

Ver esta publicación en PCA: cerebralmastication.com/2010/09/…

— James

13

Cuando tiene ruido tanto en la variable dependiente (errores verticales) como en la variable independiente (errores horizontales), la función objetivo de mínimos cuadrados se puede modificar para incorporar estos errores horizontales. El problema de cómo ponderar estos dos tipos de errores. Esta ponderación generalmente depende de la proporción de las variaciones de los dos errores:

Si la varianza del error vertical es extremadamente grande en relación con la varianza del error horizontal, OLS es correcto.
Si la varianza del error horizontal es extremadamente grande en relación con la varianza del error vertical, son apropiados los mínimos cuadrados inversos (en los que retrocede en se usa el inverso del coeficiente estimado para como la estimación de ). $x$ $y$ $y$ $\beta$
Si la razón de la varianza del error vertical a la varianza del error horizontal es igual a la razón de las varianzas de las variables dependientes e independientes, tenemos el caso de la regresión "diagonal", en la cual una estimación consistente resulta ser la media geométrica de los estimadores MCO y mínimos cuadrados inversos.
Si la relación de estas variaciones de error es uno, entonces tenemos el caso de la regresión "ortogonal", en la cual la suma de los errores al cuadrado medidos a lo largo de una línea perpendicular a la línea de estimación se minimiza. Esto es lo que tenías en mente.

En la práctica, el gran inconveniente de este procedimiento es que la relación de las variaciones de error generalmente no se conoce y no se puede estimar, por lo que el camino hacia adelante no está claro.

— Dimitriy V. Masterov
fuente

Traté de editar para cambiar "dependiente" a "independiente" en la primera oración, pero las ediciones deben tener 6 caracteres. ¿Quizás actualizar la respuesta para corregir el error tipográfico?

— Ryan Stout

@RyanStout Gracias, y listo. Creo que insertar espacios te ayudará a evitarlo.

— Dimitriy V. Masterov

Ahora estoy un poco confundido: ¿no son los errores verticales los errores en la variable dependiente (y) y los errores horizontales en la variable independiente (x)?

— Ryan Stout

@RyanStout Lo arruiné de nuevo

— Dimitriy V. Masterov

9

Una razón es que es relativamente fácil de calcular y optimizar, mientras que el costo propuesto

\sum_{yo = 1}^{norte} (y_{yo} - h_{θ} (X_{yo}))^{2}

$\sum_{i=1}^N(y_i-h_\theta(x_i))^2$

\sum_{yo = 1}^{norte} min_{X, y} [(y_{yo} - h_{θ} (X))^{2} + (X_{yo} - X)^{2}]

$\sum_{i=1}^N \min_{x,y}\big[(y_i-h_\theta(x))^2+(x_i-x)^2\big]$

h_{θ} (x)

$h_\theta(x)$

— Moro
fuente

Ese es un buen punto. Estaba pensando cómo calcular la función de costos en general.

— alpha_989

No estoy necesariamente seguro de cómo evaluar la distancia entre el punto y un plano / superficie no lineal, pero para evaluar la distancia entre un punto y una superficie / plano lineal, es posible que no necesitemos una minimización anidada: mathinsight.org/distance_point_plane

— alpha_989

En segundo lugar, cuando usamos la regresión, nuestro objetivo es evaluar los pesos para encontrar el mejor ajuste. Por lo que entiendo, durante el cálculo real, rara vez evaluamos la función de costo, pero ¿alguna derivada de la función de costo?

— alpha_989

1

@whuber. Veo. Una vez que establezcamos esos significados para esos dos términos, estoy de acuerdo en que los problemas que se resuelven son diferentes (existe o no existe la posibilidad de que haya un error en x). No creo que obtendrá un amplio acuerdo de personas conocedoras sobre el significado de esos términos, pero eso es un punto secundario.

— estocástico

1

@Stochastic Estoy de acuerdo en que puede haber dudas sobre el concepto de "ajuste de curvas", pero el concepto de regresión que estoy invocando aparece en los escritos de las mejores autoridades.

— whuber

2

La versión simplificada es que se supone que X no tiene ningún error. Entonces, si observa el punto E en su diagrama, por ejemplo, se supone que su coordenada X es precisa. Por lo general, este es el caso cuando podemos controlar X, en otras palabras, cuando podemos establecerlo en un valor específico. En ese caso, el único error que puede existir es en la dirección Y, y es por eso que la función de error / costo solo incluye la dirección Y.

Cuando ese no es el caso, cuando no controlamos X y X pueden tener errores, las personas incorporan la dirección X en la función de error en algo llamado regresión tipo II o modelo II, y sus variantes. Puede ser complicado hacer esto si X e Y tienen escalas diferentes, por lo que debe pensar en normalizaciones y demás.

— CHP
fuente

1

A riesgo de ser prosaico, la razón de la función de error es que la interpretación estándar es que se da la x y se está tratando de describir mejor (o predecir) el componente y. Entonces no hay error en la 'x'. Por ejemplo, puede intentar comprender (o predecir) el precio de cierre de una acción mañana en función del precio de cierre de hoy. De manera similar, uno podría tratar de comprender la temperatura promedio mañana en términos de la temperatura promedio de hoy. Obviamente, estos ejemplos son simples, pero esa es la idea. Por cierto, algo que la mayoría de la gente no se da cuenta, pero creo que está claro en sus ejemplos, es que si uno retrocede y contra x, la línea de regresión no tiene que tener ningún parecido particular con la regresión de x contra y. La regresión ortogonal es el término para una regresión donde uno trata de encontrar la línea que minimiza la distancia de puntos desde una línea. Por ejemplo, si uno intentara comprender la relación entre el precio de las acciones de IBM y el precio de las acciones de AAPL, ese sería el método apropiado.

— meh
fuente

1

Tiene razón en que, al ajustar una línea a través de puntos, la distancia ortogonal es la función de pérdida más natural que se puede aplicar a líneas arbitrarias (tenga en cuenta que la distancia y no tiene sentido para las líneas perpendiculares al eje x). Este problema se conoce con varios nombres, por ejemplo, "regresión ortogonal" o (el término más utilizado, AFAIK) "Análisis de componentes principales" (PCA). Para una discusión de este problema en dimensiones arbitrarias, vea

Späth: "Mínimos cuadrados ortogonales ajustados con múltiples lineales". Numerische Mathematik 48, pp. 441–445, 1986

Como @aginensky ya señaló, la idea detrás de la regresión lineal no es ajustar una línea a través de puntos, sino predecir los valores de y para valores de x dados. Es por eso que solo se usa la distancia en y, que es la precisión de la predicción.

Reformulando el problema de ajustar una curva $\vec{x}(t)$ a través de puntos $\vec{p}_i$ , $i=1\ldots N$ como un problema de predicción complica las cosas, porque el predictor $t$ es desconocido e incluso hasta cierto punto arbitrario. Para curvas distintas a las líneas rectas, este sigue siendo un problema sujeto a investigación activa. En el siguiente artículo se describe un enfoque posible (incompleto), que está incompleto porque no proporciona una solución para encontrar una suposición inicial para la curva, sino solo cómo mejorar iterativamente dicha suposición inicial:

Wang, Pottmann, Liu: "Ajuste de curvas B-spline a nubes de puntos mediante minimización de distancia al cuadrado basada en curvatura". Transacciones de ACM en gráficos 25.2, pp. 214-238, 2006

— cdalitz
fuente

¿Por qué la regresión lineal utiliza una función de costo basada en la distancia vertical entre la hipótesis y el punto de datos de entrada?

**Pregunta**

Pregunta