Estoy luchando por comprender el concepto de sesgo en el contexto del análisis de regresión lineal.
¿Cuál es la definición matemática de sesgo?
¿Qué es exactamente sesgado y por qué / cómo?
¿Ejemplo ilustrativo?
Estoy luchando por comprender el concepto de sesgo en el contexto del análisis de regresión lineal.
¿Cuál es la definición matemática de sesgo?
¿Qué es exactamente sesgado y por qué / cómo?
¿Ejemplo ilustrativo?
Respuestas:
El sesgo es la diferencia entre el valor esperado de un estimador y el valor verdadero que se estima. Por ejemplo, la media muestral para una muestra aleatoria simple (SRS) es un estimador imparcial de la media poblacional porque si toma todos los SRS posibles encuentre sus medias y tome la media de esas medias, obtendrá la media poblacional (para finito poblaciones esto es solo álgebra para mostrar esto). Pero si usamos un mecanismo de muestreo que de alguna manera está relacionado con el valor, entonces la media puede ser sesgada, piense en una muestra de marcación de dígitos aleatorios que haga una pregunta sobre el ingreso.
También hay algunos estimadores que están sesgados naturalmente. La media recortada estará sesgada para una población / distribución sesgada. La varianza estándar es imparcial para los SRS si la media de la población se usa con el denominador o la media de la muestra se usa con el denominador .
Aquí hay un ejemplo simple usando R, generamos un montón de muestras de una normal con media 0 y desviación estándar 1, luego calculamos la media promedio, la varianza y la desviación estándar de las muestras. Observe qué tan cerca están los promedios promedio y de varianza de los valores verdaderos (el error de muestreo significa que no serán exactos), ahora compare la media sd, es un estimador sesgado (aunque no muy sesgado).
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
En la regresión podemos obtener estimadores sesgados de pendientes haciendo una regresión gradual. Es más probable que una variable se mantenga en una regresión gradual si la pendiente estimada está más lejos de 0 y es más probable que se caiga si está más cerca de 0, por lo que este es un muestreo sesgado y las pendientes en el modelo final tenderán a ser más desde 0 que la verdadera pendiente. Técnicas como el sesgo de regresión del lazo y la cresta se inclinan hacia 0 para contrarrestar el sesgo de selección lejos de 0.
Sesgo significa que el valor esperado del estimador no es igual al parámetro de población.
Intuitivamente en un análisis de regresión, esto significaría que la estimación de uno de los parámetros es demasiado alta o demasiado baja. Sin embargo, las estimaciones de regresión de mínimos cuadrados ordinarios son AZUL, que significa mejores estimadores lineales insesgados. En otras formas de regresión, las estimaciones de los parámetros pueden estar sesgadas. Esta puede ser una buena idea, porque a menudo existe una compensación entre sesgo y varianza. Por ejemplo, la regresión de crestas a veces se usa para reducir la varianza de las estimaciones cuando hay colinealidad.
Un ejemplo simple puede ilustrar esto mejor, aunque no en el contexto de regresión. Suponga que pesa 150 libras (verificado en una balanza que lo tiene en una canasta y un montón de pesas en la otra canasta). Ahora, tienes dos básculas de baño. Te pesas 5 veces en cada uno.
La escala 1 da pesos de 152, 151, 151.5, 150.5 y 152.
La escala 2 da pesos de 145, 155, 154, 146 y 150.
La escala 1 está sesgada, pero tiene una varianza menor; El promedio de los pesos no es su verdadero peso. La escala 2 es imparcial (el promedio es 150), pero tiene una varianza mucho mayor.
¿Qué escala es "mejor"? Depende de lo que quieras que haga la báscula.
En el análisis de regresión lineal, el sesgo se refiere al error que se introduce al aproximar un problema de la vida real, que puede ser complicado, por un modelo mucho más simple. En términos simples, asume un modelo lineal simple como y * = (a *) x + b * donde, como en la vida real, el problema comercial podría ser y = ax ^ 3 + bx ^ 2 + c.
Se puede decir que la prueba esperada MSE (error cuadrático medio) de un problema de regresión se puede descomponer como a continuación. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Sesgo (f * (x0))] ^ 2 + Var (e)
f * -> forma funcional asumida para el modelo de regresión lineal y0 -> valor de respuesta original registrado en los datos de prueba x0 -> valor predictor original registrado en los datos de prueba e -> error irreducible Entonces, el objetivo es seleccionar el mejor método para llegar a un modelo que logra baja varianza y bajo sesgo.
Nota: Una introducción al aprendizaje estadístico por Trevor Hastie y Robert Tibshirani tiene una buena idea sobre este tema