La razón por la cual los gráficos se utilizan universalmente para introducir una regresión simple, una respuesta predicha por un solo predictor, es que ayudan a la comprensión.
Sin embargo, creo que puedo dar algo del sabor que podría ayudar a comprender lo que está sucediendo. En esto, me enfocaré principalmente en tratar de transmitir algo de la comprensión que brindan, lo que puede ayudar con algunos de los otros aspectos que normalmente encontrarás al leer sobre regresión. Entonces, esta respuesta se ocupará principalmente de un aspecto particular de tu publicación.
Imagine que está sentado frente a una gran mesa rectangular, como un simple escritorio de oficina, uno con un brazo completo de largo (quizás 1.8 metros), tal vez la mitad de ese ancho.
Estás sentado frente a la mesa en la posición habitual, en medio de un lado largo. En esta mesa, se ha clavado una gran cantidad de clavos (con cabezas bastante lisas) en la superficie superior de modo que cada uno sobresalga un poco (lo suficiente como para sentir dónde están, y lo suficiente como para atarles un cordón o unir una banda elástica) )
Estas uñas están a diferentes distancias de su borde del escritorio, de tal manera que hacia un extremo (digamos el extremo izquierdo) generalmente están más cerca de su borde del escritorio y luego a medida que se mueve hacia el otro extremo, las cabezas de las uñas tienden a estar más lejos de tu borde.
Además, imagine que sería útil tener una idea de cuán lejos, en promedio, están las uñas de su borde en cualquier posición a lo largo de su borde.
Elija un lugar a lo largo del borde del escritorio y coloque la mano allí, luego extienda la mano hacia adelante directamente a través de la mesa, arrastrando suavemente la mano directamente hacia usted y luego otra vez, moviendo la mano hacia adelante y hacia atrás sobre las cabezas de las uñas. Te encuentras con varias docenas de golpes de estas uñas, las que están dentro de esa anchura estrecha de tu mano (a medida que se aleja directamente de tu borde, a una distancia constante del extremo izquierdo del escritorio), una sección o tira, de aproximadamente diez centímetros de ancho .
La idea es calcular una distancia promedio a un clavo desde el borde del escritorio en esa pequeña sección. Intuitivamente es solo la mitad de los golpes que golpeamos, pero si medimos cada distancia a un clavo en esa sección de escritorio de ancho de mano, podríamos calcular esos promedios fácilmente.
Por ejemplo, podríamos hacer uso de un cuadrado en T cuya cabeza se desliza a lo largo del borde del escritorio y cuyo eje corre hacia el otro lado del escritorio, pero justo encima del escritorio para que no golpeemos los clavos cuando se desliza hacia la izquierda o hacia la derecha: cuando pasamos un clavo determinado, podemos obtener su distancia a lo largo del eje del cuadrado en T.
Entonces, en una progresión de lugares a lo largo de nuestro borde, repetimos este ejercicio de encontrar todas las uñas en una franja de ancho de mano corriendo hacia y lejos de nosotros y encontrar su distancia promedio de distancia. Quizás dividimos el escritorio en tiras de ancho de mano a lo largo de nuestro borde (para que cada clavo se encuentre exactamente en una tira).
Ahora imagine que hay, digamos, 21 de esas tiras, la primera en el borde izquierdo y la última en el borde derecho. Los medios se alejan de nuestro escritorio a medida que avanzamos a través de las tiras.
Estos medios forman un estimador de regresión no paramétrico simple de la expectativa de y (nuestra distancia) dada x (distancia a lo largo de nuestro borde desde el extremo izquierdo), es decir, E (y | x). Específicamente, este es un estimador de regresión no paramétrico agrupado, también llamado un regresograma
Si esas medias de tiras aumentaron regularmente, es decir, la media generalmente aumentaba aproximadamente la misma cantidad por tira a medida que nos movíamos a través de las tiras, entonces podríamos estimar mejor nuestra función de regresión suponiendo que el valor esperado de y era lineal función de x, es decir, que el valor esperado de y dado x era una constante más un múltiplo de x. Aquí, la constante representa dónde tienden a estar las uñas cuando en x es cero (a menudo podríamos colocar esto en el extremo izquierdo pero no tiene que estar), y el múltiplo particular de x es qué tan rápido en promedio es la media cambia a medida que nos movemos un centímetro (digamos) a la derecha.
Pero, ¿cómo encontrar una función tan lineal?
Imagine que enrollamos una banda de goma sobre cada cabeza de clavo, y unimos cada una a un palo largo y delgado que se encuentra justo encima del escritorio, encima de las uñas, de modo que quede en algún lugar cerca del "centro" de cada tira que teníamos para.
Adjuntamos las bandas de tal manera que solo se estiran en la dirección hacia y lejos de nosotros (no a la izquierda ni a la derecha), se dejan a sí mismas para que tomen y hagan que su dirección de estiramiento en ángulo recto con el palo, pero aquí lo evitamos, de modo que su dirección de estiramiento permanezca solo en las direcciones hacia o lejos de nuestro borde del escritorio. Ahora dejamos que el palo se asiente a medida que las bandas lo empujan hacia cada uña, con las uñas más distantes (con bandas de goma más estiradas) tirando correspondientemente más fuerte que las uñas cerca del palo.
Entonces, el resultado combinado de todas las bandas que tiran del palo sería (idealmente, al menos) tirar del palo para minimizar la suma de las longitudes al cuadrado de las bandas de goma estiradas; en esa dirección directamente a través de la mesa, la distancia desde nuestro borde de la mesa hasta el palo en cualquier posición x dada sería nuestra estimación del valor esperado de y dada x.
Esto es esencialmente una estimación de regresión lineal.
Ahora, imagine que en lugar de las uñas, tenemos muchas frutas (como manzanas pequeñas quizás) que cuelgan de un árbol grande y deseamos encontrar la distancia promedio de las frutas sobre el suelo, ya que varía según la posición en el suelo. Imagine que en este caso las alturas sobre el suelo se hacen más grandes a medida que avanzamos y un poco más grandes a medida que avanzamos hacia la derecha, nuevamente de manera regular, por lo que cada paso hacia adelante generalmente cambia la altura media en aproximadamente la misma cantidad, y cada paso hacia el La derecha también cambiará la media en una cantidad aproximadamente constante (pero esta cantidad de cambio en la media de avance gradual es diferente a la cantidad de cambio de avance).
Si minimizamos la suma de las distancias verticales cuadradas de las frutas a una hoja delgada y plana (tal vez una hoja delgada de plástico muy rígido) para descubrir cómo cambia la altura media a medida que avanzamos o avanzamos hacia la derecha, eso sería Una regresión lineal con dos predictores: una regresión múltiple.
Estos son los únicos dos casos que las tramas pueden ayudar a comprender (pueden mostrar rápidamente lo que acabo de describir en detalle, pero espero que sepan que tienen una base para conceptualizar las mismas ideas). Más allá de esos dos casos más simples, solo nos quedan las matemáticas.
Ahora tome el ejemplo del precio de su casa; puede representar el área de cada casa por una distancia a lo largo de su borde del escritorio: represente el tamaño de la casa más grande como una posición cerca del borde derecho, el tamaño de cada otra casa estará en una posición más a la izquierda donde cierta cantidad de centímetros representará Número de metros cuadrados. Ahora la distancia representa el precio de venta. Represente la casa más cara como una distancia particular cerca del borde más alejado del escritorio (como siempre, el borde más alejado de su silla), y cada centímetro desplazado representará un número de Rials.
Por el momento, imagine que elegimos la representación para que el borde izquierdo del escritorio corresponda a un área de la casa de cero y el borde cercano a un precio de la casa de 0. Luego colocamos un clavo para cada casa.
Probablemente no tengamos clavos cerca del extremo izquierdo de nuestro borde (pueden estar principalmente hacia la derecha y lejos de nosotros) porque esta no es necesariamente una buena elección de escala, pero su elección de un modelo sin intercepción hace que esto Una mejor manera de discutirlo.
Ahora, en su modelo, obliga al palo a pasar a través de un bucle de cuerda en la esquina izquierda del borde cercano del escritorio, lo que obliga al modelo ajustado a tener un precio cero para el área cero, lo que puede parecer natural, pero imagine si hay algunos componentes del precio bastante constantes que afectaron cada venta. Entonces tendría sentido tener la intersección diferente de cero.
En cualquier caso, con la adición de ese bucle, el mismo ejercicio de banda elástica que antes encontrará nuestra estimación de mínimos cuadrados de la línea.