¿Cuáles son algunos de los conceptos erróneos más comunes sobre la regresión lineal?

70

Tengo curiosidad, para aquellos de ustedes que tienen una amplia experiencia colaborando con otros investigadores, ¿cuáles son algunas de las ideas falsas más comunes sobre la regresión lineal que encuentran?

Creo que puede ser un ejercicio útil para pensar en conceptos erróneos comunes con anticipación para

Anticipe los errores de las personas y sea capaz de articular con éxito por qué algunos conceptos erróneos son incorrectos.

¡Date cuenta si estoy albergando algunas ideas falsas!

Un par de básicos que puedo pensar:

Las variables independientes / dependientes deben distribuirse normalmente

Las variables deben ser estandarizadas para una interpretación precisa

¿Cualquier otro?

Todas las respuestas son bienvenidas.

regression multiple-regression

— ST21
fuente

55

Esto probablemente debería ser CW, ya que invita a una lista de posibilidades y será difícil decir que objetivamente es la 'respuesta correcta'.

— gung - Restablece a Monica

Mucha gente que conozco todavía insiste en realizar linealizaciones en sus datos y dejarlos así, incluso cuando el entorno informático que utilizan tiene un buen soporte para la regresión no lineal. (Las linealizaciones son, por supuesto, útiles como puntos de partida para los ajustes no lineales, pero estas personas ni siquiera se dan cuenta de eso.)

— JM no es un estadístico el

1

@gung: ¿Community Wiki sigue siendo una cosa? En su mayoría en desuso en toda la red , CW nunca se trató de proporcionar preguntas marginales, ampliamente formuladas, en una lista grande, para salir de la cárcel, o robar a las personas la reputación que de otro modo podrían haberse ganado si la pregunta hubiera sido sobre el tema en primer lugar. La única forma en que incluso puede formular una pregunta es si le pide a un moderador que lo haga.

— Robert Harvey

1

Si Dios hubiera hecho el mundo lineal, no habría una regresión no lineal.

— Mark L. Stone

1

@RobertHarvey: Sí, todavía es algo muy importante en CrossValidated (en mi opinión, desafortunadamente). Hemos tenido algunas acaloradas discusiones sobre Meta ( por ejemplo, esta ), pero el statu quo actual es que el estado de CW se aplica en todas las preguntas basadas en la opinión o en la lista grande que se consideran en el tema lo suficiente como para permanecer abiertas.

— ameba dice Reinstate Monica

38

Falsa premisa: A significa que no hay una relación fuerte entre DV y IV. $\hat{\beta} \approx 0$
Las relaciones funcionales no lineales abundan y, sin embargo, los datos producidos por muchas de estas relaciones a menudo producirían pendientes casi nulas si se supone que la relación debe ser lineal, o incluso aproximadamente lineal.

De manera similar, en otra premisa falsa, los investigadores a menudo suponen, posiblemente porque muchos libros de texto introductorios de regresión enseñan, que uno "prueba la no linealidad" al construir una serie de regresiones del DV sobre expansiones polinómicas del IV (por ejemplo, , seguido de , seguido por $Y \sim \beta_{0} + \beta_{X}X + \varepsilon$ $Y \sim \beta_{0} + \beta_{X}X + \beta_{X^{2}}X^{2} + \varepsilon$ $Y \sim \beta_{0} + \beta_{X}X + \beta_{X^{2}}X^{2} + \beta_{X^{3}}X^{3} + \varepsilon$ , etc.) Así como la línea recta no puede representar una relación funcional no lineal entre DV y IV, una parábola no puede representar literalmente un número infinito de relaciones no lineales (por ejemplo, sinusoides, cicloides, funciones escalonadas, efectos de saturación, curvas s, etc. ad infinitum). ) En su lugar, se puede adoptar un enfoque de regresión que no asume ninguna forma funcional particular (por ejemplo, suavizadores de línea de ejecución, GAM, etc.).

Una tercera premisa falsa es que aumentar el número de parámetros estimados necesariamente resulta en una pérdida de poder estadístico. Esto puede ser falso cuando la relación verdadera no es lineal y requiere múltiples parámetros para estimar (por ejemplo, una función de "barra rota" requiere no solo los términos de intercepción y pendiente de una línea recta, sino que requiere un punto en el que la pendiente cambia y cuánto cambios de pendiente por estimaciones también): los residuos de un modelo mal especificado (por ejemplo, una línea recta) pueden crecer bastante (en relación con una relación funcional correctamente especificada), lo que resulta en una probabilidad de rechazo más baja e intervalos de confianza e intervalos de predicción más amplios (además de que las estimaciones están sesgadas) .

— Alexis
fuente

44

(+1) Quibbles: (1) No creo que incluso los textos introductorios impliquen que todas las curvas son funciones polinomiales, sino que pueden ser aproximadas suficientemente bien en un rango dado por funciones polinomiales. Por lo tanto, caen en la clase de "enfoques de regresión que no asumen ninguna forma funcional particular", gobernada por un "hiperparámetro" que especifica la ondulación: el lapso para loess, el no. nudos para regresión sobre una base de spline, el grado de regresión sobre una base polinómica. (No estoy ondeando una bandera para polinomios, es bien sabido que tienden a agitarse en los extremos más de lo que quisiéramos ...

— Scortchi, reinstalar a Monica

2

... simplemente dándoles lo que les corresponde. (2) Una sinusoide bien podría encajar como tal, dentro del marco del modelo lineal; un efecto de saturación usando un modelo no lineal (una hipérbola rectangular, por ejemplo); &C. Por supuesto, no dijo lo contrario, pero quizás valga la pena señalar que si sabe que hay un ciclo o una asíntota, será útil aplicar esas restricciones en su modelo.

— Scortchi - Restablece a Monica

2

@Scortchi no podría estar más de acuerdo! (De hecho, dado un número infinito de polinomios, cualquier función puede estar perfectamente representada). Tenía como objetivo conciso. :)

— Alexis

2

@Alexis Intente aproximar la función base 13 de Conway por polinomios. :)

— Solomonoff's Secret

1

O ...

χ_{Q}

$\chi_{\mathbb{Q}}$

— S. Kolassa - Restablece a Monica el

22

Es muy común suponer que sólo los datos están sujetos a error de medición (o al menos, que este es el único error que consideraremos). Pero esto ignora la posibilidad, y las consecuencias, de error en las mediciones . Esto podría ser particularmente agudo en estudios observacionales donde las variables no están bajo control experimental. $y$ $x$ $x$

La dilución de regresión o la atenuación de regresión es el fenómeno reconocido por Spearman (1904) por el cual la pendiente de regresión estimada en la regresión lineal simple está sesgada hacia cero por la presencia de un error de medición en la variable independiente. Suponga que la pendiente verdadera es positiva: el efecto de fluctuar lascoordenadaslos puntos(tal vez se visualice más fácilmente como "manchando" los puntos horizontalmente) es hacer que la línea de regresión sea menos empinada. Intuitivamente, los puntos con unagrandeahora tienen más probabilidades de serlo debido a un error de medición positivo, mientras que elvalores más probable que refleje el valor verdadero (sin errores) de, y por lo tanto sea más bajo de lo que sería la línea verdadera. para lo observado $x$ $x$ $y$ $x$ $x$ .

En modelos más complejos, el error de medición en las variables puede producir efectos más complicados en las estimaciones de los parámetros. Hay errores en los modelos de variables que tienen en cuenta dicho error. Spearman sugirió que se ha desarrollado un factor de corrección para atenuar los coeficientes de correlación bivariados y otros factores de corrección para situaciones más sofisticadas. Sin embargo, tales correcciones pueden ser difíciles, particularmente en el caso multivariante y en presencia de factores de confusión, y puede ser controvertido si la corrección es una mejora genuina, véase, por ejemplo, Smith y Phillips (1996). $x$

Así que supongo que se trata de dos conceptos erróneos por el precio de uno: por un lado, es un error pensar que la forma en que escribimos significa "todo el error está en la " e ignoramos Posibilidad física real de errores de medición en las variables independientes. Por otro lado, puede ser desaconsejable aplicar "correcciones" a ciegas para el error de medición en todas las situaciones como una respuesta instintiva (aunque puede ser una buena idea tomar medidas para reducir el error de medición en primer lugar) . $y = X\beta + \varepsilon$ $y$

(Probablemente también debería vincularme a algunos otros modelos comunes de error en variables, en un orden cada vez más general: regresión ortogonal , regresión de Deming y mínimos cuadrados totales ).

Referencias

Smith, GD y Phillips, AN (1996). " Inflación en epidemiología: 'la prueba y medición de la asociación entre dos cosas' revisitada ". British Medical Journal , 312 (7047), 1659-1661.
Spearman, C. (1904). "La prueba y la medida de la asociación entre dos cosas". American Journal of Psychology 15 : 72-101.

— Silverfish
fuente

En esa nota: esta es una razón para el uso de la técnica que se llama "mínimos cuadrados totales" o "regresión ortogonal" (dependiendo de la referencia que esté leyendo); es significativamente más complicado que los mínimos cuadrados simples, pero vale la pena hacerlo si todos sus puntos están contaminados con errores.

— JM no es un estadístico

@JM Gracias, sí, de hecho, originalmente tenía la intención de poner un enlace a TLS, ¡pero me distrajo el artículo de Smith y Phillips!

— Silverfish

2

+1 Gran adición a este tema. A menudo he considerado modelos EIV en mi trabajo. Sin embargo, aparte de su complejidad o dependencia del conocimiento de las "razones de error", hay una cuestión más conceptual a considerar: muchas regresiones, especialmente en el aprendizaje supervisado o la predicción, quieren relacionar los predictores observados con los resultados observados . Modelos de EIV, por el contrario, intentan identificar la relación subyacente entre la media predictor y significar la respuesta ... una pregunta ligeramente diferente.

2

Entonces, lo que uno llamaría "dilución" de la regresión "verdadera" (en un contexto científico) se llamaría "ausencia de utilidad predictiva" o algo así en un contexto de predicción.

21

Existen algunos malentendidos estándar que se aplican en este contexto, así como en otros contextos estadísticos: por ejemplo, el significado de los valores , inferir incorrectamente la causalidad, etc. $p$

Un par de malentendidos que creo que son específicos de la regresión múltiple son:

Pensando que la variable con el coeficiente estimado más grande y / o el valor más bajo es "más importante". $p$
Pensar que agregar más variables al modelo te lleva "más cerca de la verdad". Por ejemplo, la pendiente de una regresión simple de en puede no ser la verdadera relación directa entre e , pero si agrego las variables , ese coeficiente será una mejor representación de la relación verdadera, y si agrego , será aún mejor que eso. $Y$ $X$ $X$ $Y$ $Z_1, \ldots, Z_5$ $Z_6, \ldots, Z_{20}$

— gung - Restablece a Monica
fuente

12

Buen material. Esta respuesta podría ser aún más útil si explicara por qué los dos están equivocados y qué debería hacer en su lugar.

— DW

14

Diría que la primera que enumere es probablemente la más común, y quizás la más ampliamente enseñada de esa manera, de las cosas que claramente se consideran incorrectas, pero aquí hay algunas otras que son menos claras en algunas situaciones ( si realmente se aplican) pero pueden afectar aún más análisis, y tal vez más en serio. Estos a menudo simplemente nunca se mencionan cuando se introduce el tema de la regresión.

Tratar como muestras aleatorias de la población de interés conjuntos de observaciones que posiblemente no pueden ser cercanas a las representativas (y mucho menos muestreadas al azar). [En cambio, algunos estudios podrían verse como algo más cercano a las muestras de conveniencia]
Con los datos de observación, simplemente ignorando las consecuencias de omitir los impulsores importantes del proceso que ciertamente sesgarían las estimaciones de los coeficientes de las variables incluidas (en muchos casos, incluso para cambiar probablemente su signo), sin intentar considerar formas de tratar con ellos (ya sea por ignorancia del problema o simplemente sin darse cuenta de que se puede hacer algo). [Algunas áreas de investigación tienen este problema más que otras, ya sea por los tipos de datos que se recopilan o porque las personas en algunas áreas de aplicación tienen más probabilidades de haber recibido información sobre el tema.]
Regresión espuria (principalmente con datos recopilados a lo largo del tiempo). [Incluso cuando las personas son conscientes de que esto sucede, existe otra idea errónea común de que simplemente diferenciarse del supuesto estacionario es suficiente para evitar por completo el problema].

Por supuesto, hay muchos otros que podría mencionarse (por ejemplo, tratar como datos independientes que casi con toda seguridad estarán correlacionados en serie o incluso integrados puede ser casi tan común).

Puede notar que los estudios de observación de los datos recopilados a lo largo del tiempo pueden verse afectados por todos estos a la vez ... sin embargo, ese tipo de estudio es muy común en muchas áreas de investigación donde la regresión es una herramienta estándar. La forma en que pueden llegar a la publicación sin que un solo revisor o editor sepa sobre al menos uno de ellos y al menos requiera cierto nivel de exención de responsabilidad en las conclusiones me sigue preocupando.

Las estadísticas están plagadas de problemas de resultados irreproducibles cuando se trata de experimentos controlados con bastante cuidado (cuando se combinan con análisis quizás no tan cuidadosamente controlados), por lo que, tan pronto como uno se sale de esos límites, ¿cuánto peor debe ser la situación de reproducibilidad?

— Glen_b
fuente

66

En estrecha relación con algunos de sus puntos puede ser la idea de que "sólo los datos están sujetos a error de medición" (o, al menos, "este es el único error que vamos a considerar"). No estoy seguro si eso merece calzar zapatos aquí, pero ciertamente es muy común ignorar la posibilidad, y las consecuencias, de un error aleatorio en las variables .

y

$y$

x

$x$

— Silverfish

2

@Silverfish Estoy totalmente de acuerdo contigo.

— Mark L. Stone

@Silverfish es CW, por lo que debería sentirse libre para editar en una adición adecuada como esa.

— Glen_b

@Silverfish hay una razón por la que no lo agregué cuando lo mencionaste ... Creo que probablemente valga una nueva respuesta

— Glen_b

12

Probablemente no llamaría a estos conceptos erróneos, pero tal vez puntos comunes de confusión / complejos y, en algunos casos, problemas de los que los investigadores pueden no estar al tanto.

Multicolinealidad (incluido el caso de más variables que puntos de datos)
Heterocedasticidad
Si los valores de las variables independientes están sujetos al ruido
Cómo la escala (o no escala) afecta la interpretación de los coeficientes
Cómo tratar datos de múltiples sujetos
Cómo lidiar con las correlaciones en serie (por ejemplo, series de tiempo)

En el lado erróneo de las cosas:

Lo que significa linealidad (por ejemplo, es wrt no lineal , pero wrt lineal son los pesos). $y = ax^2 + bx + c$ $x$
Esa 'regresión' significa mínimos cuadrados ordinarios o regresión lineal
Que los pesos bajos / altos implican necesariamente relaciones débiles / fuertes con la variable dependiente
Esa dependencia entre las variables dependientes e independientes necesariamente se puede reducir a dependencias por pares.
Esa alta bondad de ajuste en el conjunto de entrenamiento implica un buen modelo (es decir, descuidar el sobreajuste)

— usuario20160
fuente

7

En mi experiencia, los estudiantes frecuentemente adoptan la opinión de que los errores al cuadrado (o la regresión OLS) son algo inherentemente apropiado, preciso y en general bueno de usar, o incluso no tienen alternativa. Con frecuencia he visto publicidad de OLS junto con comentarios de que "da mayor peso a observaciones más extremas / desviadas", y la mayoría de las veces al menos está implícito que esta es una propiedad deseable. Esta noción puede modificarse más tarde, cuando se introduce el tratamiento de valores atípicos y enfoques robustos, pero en ese punto el daño ya está hecho. Podría decirse que el uso generalizado de errores al cuadrado históricamente tiene más que ver con su conveniencia matemática que con alguna ley natural de los costos de errores del mundo real.

En general, se podría hacer mayor hincapié en el entendimiento de que la elección de la función de error es algo arbitraria. Idealmente, cualquier elección de penalización dentro de un algoritmo debe guiarse por la correspondiente función de costo del mundo real asociada con un error potencial (es decir, utilizando un marco de toma de decisiones). ¿Por qué no establecer este principio primero y luego ver qué tan bien podemos hacerlo?

— Benedict MJG
fuente

2

La elección también depende de la aplicación. OLS es útil para ajustes algebraicos en el eje y, pero no tanto para aplicaciones geométricas, donde los mínimos cuadrados totales (o alguna otra función de costo basada en la distancia ortogonal) tienen más sentido.

— Willie Wheeler

4

Otro concepto erróneo común es que el término de error (o perturbación en el lenguaje econométrico) y los residuos son la misma cosa.

El término de error es una variable aleatoria en el modelo verdadero o proceso de generación de datos , y a menudo se supone que sigue una cierta distribución, mientras que los residuales son las desviaciones de los datos observados del modelo ajustado. Como tal, los residuos pueden considerarse estimaciones de los errores.

— Robert Long
fuente

Apuesto a que la gente estaría interesada en explicar por qué esto es importante, o en qué tipo de casos.

— rolando2

4

El error más común que encuentro es que la regresión lineal supone la normalidad de los errores. No lo hace. La normalidad es útil en relación con algunos aspectos de la regresión lineal, por ejemplo, propiedades de muestras pequeñas, como los límites de confianza de los coeficientes. Incluso para estas cosas hay valores asintóticos disponibles para distribuciones no normales.

El segundo más común es un grupo de confusión con respecto a la endogeneidad, por ejemplo, no tener cuidado con los circuitos de retroalimentación. Si hay un ciclo de retroalimentación de Y a X, es un problema.

— Aksakal
fuente

4

Un error que cometí es asumir una simetría de X e Y en la OLS. Por ejemplo, si asumo una relación lineal con a y b dada por mi software usando OLS, entonces creo que asumir X como una función de Y dará a OLS los coeficientes: que está mal.

Y = a X + b

$Y = a \, X + b$

X = \frac{1}{a} Y - \frac{b}{a}

$X = \frac{1}{a} \, Y - \frac{b}{a}$

Tal vez esto también esté relacionado con la diferencia entre OLS y el componente principal mínimo cuadrado o primer total.

— Jf Parmentier
fuente

3

El que he visto a menudo es una idea errónea sobre la aplicabilidad de la regresión lineal en ciertos casos de uso, en la práctica.

Por ejemplo, supongamos que la variable que nos interesa es el conteo de algo (ejemplo: visitantes en el sitio web) o la proporción de algo (ejemplo: tasas de conversión). En tales casos, la variable puede modelarse mejor utilizando funciones de enlace como Poisson (recuentos), Beta (proporciones), etc. Por lo tanto, usar un modelo generalizado con una función de enlace más apropiada es más adecuado. Pero solo porque la variable no es categórica, he visto personas que comienzan con una regresión lineal simple (función de enlace = identidad). Incluso si ignoramos las implicaciones de precisión, los supuestos de modelado son un problema aquí.

— hssay
fuente

2

Aquí hay uno que creo es frecuentemente ignorado por los investigadores:

Interacción variable: los investigadores a menudo miran betas aisladas de predictores individuales, y a menudo ni siquiera especifican términos de interacción. Pero en el mundo real las cosas interactúan. Sin la especificación adecuada de todos los términos de interacción posibles, no sabe cómo sus "predictores" se unen para formar un resultado. Y si desea ser diligente y especificar todas las interacciones, la cantidad de predictores explotará. A partir de mis cálculos, puede investigar solo 4 variables y sus interacciones con 100 sujetos. Si agrega una variable más, puede sobreajustar muy fácilmente.

— usuario4534898
fuente

0

Otro error común es que las estimaciones (valores ajustados) no son invariables a las transformaciones, por ejemplo

f ({\hat{y}}_{i}) \neq \hat{f (y_{i})}

$f(\hat{y}_i) \neq \widehat{f(y_i)}$

{\hat{y}}_{i} = {\vec{x}}_{i}^{T} \hat{β}

$\hat{y}_i = \vec{x}_i ^T \hat{\beta}$

$f(\cdot)$

$log(\cdot)$

Esto aparece todo el tiempo cuando realiza una transformación logarítmica de sus datos, ajusta una regresión lineal, luego expone el valor ajustado y la gente lo lee como la regresión. Esta no es la media, esta es la mediana (si las cosas están realmente distribuidas normalmente de forma logarítmica).

— Lucas Roberts
fuente