Tengo la ingenua idea de que la regresión lineal es adecuada solo cuando se sospecha que existen relaciones funcionales lineales entre las variables explicativas y la variable de respuesta. Pero no muchas aplicaciones del mundo real parecen cumplir con este criterio.
Esta no es una comprensión correcta de lo que es "lineal" en "regresión lineal".
No se supone que la relación entre y las es de forma lineal (aunque es probable que todos los ejemplos elementales lo engañen).xyX
El "lineal" se refiere a que el modelo es lineal en los parámetros, y las relaciones no lineales entre y algo ciertamente se pueden modelar de esa manera.xyX
Hay un ejemplo con un solo predictor aquí , pero los modelos curvilíneas son más a menudo equipado de regresión múltiple, en donde pueden ocurrir varias funciones de un predictor (variable x, variable independiente) en la regresión, y esto permite que una gran cantidad de flexibilidad. Esto incluye la regresión polinómica, por ejemplo. Vea algunas discusiones y ejemplos aquí .
Sin embargo, si tenemos en cuenta el hecho de que los predictores pueden transformarse para ajustarse a las relaciones curvas, la linealidad en los parámetros también corresponde a la linealidad en esos predictores transformados.
Además, muchos problemas son cercanos a los lineales (al menos sobre el rango de valores considerados), o son tan ruidosos que no se puede discernir una curvatura leve, y una variedad de modelos simples para una relación creciente o decreciente podría funcionar: y en ese caso, una elección lineal puede ser adecuada y la más simple de ajustar y comprender.
En qué facetas de un proyecto estaría pensando un estadístico experimentado si estuviera en mi lugar, buscando una pregunta + datos que sean adecuados para la regresión lineal.
El único momento en el que podría buscar un problema para aplicar la regresión sería cuando estoy tratando de encontrar un buen ejemplo para la enseñanza. Cuando realmente estoy en la posición de hacer un trabajo estadístico (en lugar de explicarlo o enseñarlo), elijo la metodología que se adapte a la pregunta de interés (y las características de los datos), en lugar de elegir los datos que se adapten al método.
Imagine un carpintero, por ejemplo. El carpintero no toma un porta-radios y dice "¿en qué puedo usar esto ?". Más bien, el carpintero tiene un problema que resolver, y al considerar las características del problema ("¿qué estoy tratando de hacer?" Y "¿qué tipo de madera estoy usando?", Etc.) pueden ser herramientas particulares Más relevante que otros. A veces, las herramientas disponibles pueden limitar o guiar las opciones (si no tiene un porta-radios, puede que tenga que arreglárselas con otra cosa ... o simplemente debe comprar un porta-radios).
Sin embargo, vamos a suponer que usted tiene un estadístico bolsillo ayudar a usted a cabo y que está tratando de encontrar un problema adecuado para la regresión lineal. Entonces podrían sugerirle que considere varios supuestos de regresión y cuándo importan. Mencionaré algunas cosas.
Si simplemente está interesado en ajustar una relación entre yy algunos x univariados (posiblemente transformados), la mayoría de los supuestos no necesariamente le importan (el teorema de Gauss-Markov puede ser de alguna relevancia). Estaría buscando un caso en el que piense que es aproximadamente lineal en para algún conocido - (es decir, supone que conocemos la forma funcional de relación que queremos) . Al escribir , necesitamos que sea al menos aproximadamente cierto.g ( x ) g x ∗ = xmi( yEl | sol( x ) )sol( x )solX∗= xmi( yEl | X∗) = a + b x ∗
Si puede usar la regresión múltiple, incluso eso no es especialmente un problema importante, ya que uno puede usar (por ejemplo) splines de regresión cúbica para ajustarse a relaciones bastante generales.
Te sugiero que te mantengas alejado de los datos con el tiempo a menos que entiendas los problemas con la regresión espuria; atenerse a problemas de sección transversal.
Si está tratando con una sola , espero que quiera una continua en lugar de categórica .xXX
No querrá tener un error de medición en la menos que esté interesado en el condicionamiento de las expectativas en el valor medido .X
Si le interesan las pruebas de hipótesis, los intervalos de confianza o los intervalos de predicción, entonces pueden ser importantes más de los supuestos de regresión habituales (pero hay alternativas que no hacen esos supuestos, y en algunos casos, al menos algunos de los supuestos pueden no serlo). ser particularmente importante de todos modos).
Por lo tanto, una cosa que al menos tratar de tener en cuenta es cuáles son esas suposiciones que se hacen al derivar los procedimientos inferenciales que está utilizando y cuán importantes pueden ser en su problema particular (como un ejemplo, al realizar las pruebas de hipótesis habituales, la normalidad es una suposición, pero en grandes muestras esa suposición puede no ser importante; por otro lado, la suposición de la varianza constante puede ser un problema mayor).
Hay una serie de publicaciones que discuten los supuestos de regresión, y algunas publicaciones que discuten cuándo deben hacerse, y cuánto pueden importar, e incluso en qué orden considerarlas.