Sé que en la regresión lineal la variable de respuesta debe ser continua, pero ¿por qué es así? Parece que no puedo encontrar nada en línea que explique por qué no puedo usar datos discretos para la variable de respuesta.
Sé que en la regresión lineal la variable de respuesta debe ser continua, pero ¿por qué es así? Parece que no puedo encontrar nada en línea que explique por qué no puedo usar datos discretos para la variable de respuesta.
Respuestas:
No hay nada que lo detenga con la regresión lineal en cualquiera de las dos columnas de números que desee. Hay momentos en que incluso podría ser una opción bastante sensata.
Sin embargo, las propiedades de lo que obtienes no serán necesariamente útiles (por ejemplo, no serán necesariamente todo lo que quieras que sean).
En general, con la regresión, intenta ajustar alguna relación entre la media condicional de Y y el predictor, es decir, ajustar las relaciones de alguna forma ; modelado podría decirse que el comportamiento de la esperanza condicional es lo que 'regresión' es . [La regresión lineal es cuando tomas una forma particular para g ]
Por ejemplo, considere casos extremos de discreción, una variable de respuesta cuya distribución es 0 o 1 y que toma el valor 1 con probabilidad de que cambie a medida que cambia algún predictor ( ). Es decir E ( Y | x ) = P ( Y = 1 | X = x ) .
Si ajusta ese tipo de relación con un modelo de regresión lineal, además de un intervalo estrecho, predecirá valores para que son imposibles, ya sea por debajo de 0 o por encima de 1 :
De hecho, también es posible ver que a medida que la expectativa se acerca a los límites, los valores deben tomar cada vez más frecuentemente el valor en ese límite, por lo que su varianza se hace más pequeña que si la expectativa estuviera cerca del medio: la varianza debe disminuir a 0 Entonces, una regresión ordinaria hace que los pesos sean incorrectos, al infravalorar los datos en la región donde la expectativa condicional está cerca de 0 o 1. Ocurren efectos similares si tiene una variable limitada entre ayb, por ejemplo (como cada observación es un recuento discreto fuera de un recuento total posible conocido para esa observación)
Además, normalmente esperamos que la media condicional asintotique hacia los límites superior e inferior, lo que significa que la relación normalmente sería curva, no recta, por lo que nuestra regresión lineal probablemente también se equivoque dentro del rango de los datos.
Problemas similares ocurren con datos que solo están delimitados en un lado (por ejemplo, conteos que no tienen un límite superior) cuando estás cerca de ese límite.
Es posible (si es raro) tener datos discretos que no están limitados en ninguno de los extremos; Si la variable toma muchos valores diferentes, la discreción puede tener relativamente poca consecuencia siempre que la descripción del modelo de la media y la varianza sean razonables.
Aquí hay un ejemplo de que sería completamente razonable usar regresión lineal en:
A pesar de que en cualquier tira delgada de valores x solo se observan unos pocos valores y diferentes (tal vez alrededor de 10 para intervalos de ancho 1), la expectativa puede ser bien estimada, e incluso errores estándar y p- los valores y los intervalos de confianza serán todos más o menos razonables en este caso particular. Los intervalos de predicción tenderán a funcionar un poco menos bien (porque la no normalidad tenderá a tener un impacto más directo en ese caso)
-
Si desea realizar pruebas de hipótesis o calcular la confianza o los intervalos de predicción, los procedimientos habituales suponen la normalidad. En algunas circunstancias, eso puede importar. Sin embargo, es posible inferir sin hacer esa suposición particular.
No puedo comentar, así que responderé: en la regresión lineal ordinaria, la variable de respuesta no necesita ser continua, su suposición no es:
pero es:
La regresión lineal ordinaria deriva de la minimización de los residuos al cuadrado, que es un método que se considera apropiado para variables continuas y discretas (véase el teorema de Gauss-Markof). Por supuesto, generalmente se usan intervalos de confianza o predicción y las pruebas de hipótesis se basan en el supuesto de distribución normal, como Glen_b señaló correctamente, pero las estimaciones de los parámetros de OLS no lo hacen.
Por otro lado, en el modelo lineal generalizado , la variable de respuesta puede ser discreta / categórica (regresión logística). O contar (regresión de Poisson).
Editar a la dirección mark999 y volver a asignar los comentarios
La regresión lineal es un término general que las personas pueden usar de manera diferente. No hay nada que nos impida usarlo en una variable discreta O la variable independiente y la variable dependiente no son lineales.
Si no asumimos nada y ejecutamos una regresión lineal, aún podemos obtener resultados. Y si los resultados satisfacen nuestras necesidades, entonces todo el proceso está bien. Sin embargo, como dijo Glan_b
Si desea realizar pruebas de hipótesis o calcular la confianza o los intervalos de predicción, los procedimientos habituales suponen la normalidad.
Tengo esta respuesta porque supongo que OP está pidiendo la regresión lineal del libro de estadística clásica donde generalmente tenemos esta suposición cuando enseñamos regresión lineal.
Desde una perspectiva teórica, las respuestas anteriores son correctas. Sin embargo, en términos prácticos, todo depende del dominio de sus datos y del poder predictivo de su modelo.
Un ejemplo de la vida real es el antiguo modelo de bancarrota MDS. Este fue uno de los primeros puntajes de riesgo utilizados por los prestamistas de crédito al consumo para predecir la probabilidad de que un prestatario se declarara en bancarrota. Este modelo utilizó datos detallados del informe de crédito del prestatario y un indicador binario 0/1 para indicar la bancarrota durante el período de predicción. Luego, introdujo esos datos en ... sí ... lo adivinó.
Una regresión lineal simple y antigua
Una vez tuve la oportunidad de hablar con una de las personas que construyeron este modelo. Le pregunté sobre la violación de los supuestos. Explicó que a pesar de que violaba por completo los supuestos sobre los residuos, etc., no le importaba.
Resulta que ...
Este modelo de regresión lineal 0/1 (cuando se estandarizó / ajustó a un puntaje fácil de leer y se combinó con un punto de corte apropiado) se validó limpiamente contra muestras de datos retenidos y funcionó muy bien como un discriminador bueno / malo para la bancarrota.
El modelo se usó durante años como un segundo puntaje de crédito para protegerse de la bancarrota junto con el puntaje de riesgo de FICO (que fue diseñado para predecir una morosidad crediticia de más de 60 días).