¿Es posible descomponer los residuos ajustados en sesgo y varianza, después de ajustar un modelo lineal?

9

Me gustaría clasificar los puntos de datos como que necesitan un modelo más complejo o que no necesitan un modelo más complejo. Mi pensamiento actual es ajustar todos los datos a un modelo lineal simple y observar el tamaño de los residuos para hacer esta clasificación. Luego leí un poco sobre las contribuciones al error y al sesgo, y me di cuenta de que si pudiera calcular el sesgo directamente, podría ser una mejor medida que trabajar con el error total (residual o residual estandarizado).

¿Es posible estimar el sesgo directamente con un modelo lineal? ¿Con o sin datos de prueba? ¿La validación cruzada ayudaría aquí?

Si no, ¿se puede usar un conjunto de bootstrapping promedio de modelos lineales (creo que se llama embolsado) para aproximar el sesgo?

— kmace
fuente

1

Tal vez estos son equivalentes (residual vs sesgo) porque la varianza en constante?

— kmace

1

¿Podrías aclarar a qué te refieres con la primera declaración de tu publicación? En ese sentido, desea clasificar los "puntos de datos" (¿observaciones individuales?) Como "que necesitan un modelo más complejo o que no necesitan un modelo más complejo". No me queda claro exactamente qué significa esto (aunque parezca una detección atípica u otro problema de bondad de ajuste), o cómo se relaciona con las preguntas posteriores sobre la estimación del sesgo.

— Ryan Simmons

Lo que quiero decir es que hay un subconjunto de mis muestras que tienen una función objetivo diferente

. Entonces, supongamos que para la mayoría de las muestras, la verdadera función objetivo es la siguiente:

y para una minoría de las muestras, la función objetivo es:

f (x)

$f(x)$

f_{1} (x) = 3 x_{1} + 2 x_{2}

$f_1(x) = 3x_1 + 2x_2$

f_{2} (x) = 3 x_{1} + 2 x_{2} + x_{1} x_{2}

$f_2(x) = 3x_1 + 2x_2 + x_1x_2$ . Si no permito los términos de interacción en mi modelo (mi conjunto de hipótesis no los contiene), entonces debería ajustar todos los datos y ver que las muestras que tienen un gran error probablemente tengan la función objetivo

f_{2}

$f_2$

— kmace

2

Como Ryan ya señaló, la pregunta no está muy clara. Su comentario apunta en la dirección de "bondad de ajuste". Pero es imposible cambiar esto. Parece que tienes un concepto previo en mente, que es engañoso. Puede calcular muchas cosas si combina un modelo y algunos datos y determina los parámetros del modelo. Pero dado que siempre comienza con un conjunto de datos estadísticamente limitado, no hay ninguna verdad que pueda descubrir cavando más o con más palas. Ningún método que aplique producirá la verdad, pero podría indicar cuán equivocado puede estar.

— querubín

12

Por lo general, no puede descomponer el error (residuos) en componentes de sesgo y varianza. La razón simple es que generalmente no conoce la verdadera función. Recordemos que y que $bias(\hat f(x)) = E[\hat f(x) - f(x)],$ $f(x)$ es la cosa desconocida desea estimar.

¿Qué pasa con bootstrapping? Es posible estimar el sesgo de un estimador de arranque, pero no se trata de modelos de embolsado, y no creo que hay una manera de utilizar el sistema de arranque para evaluar el sesgo en porque se basa todavía bootstrapping en alguna noción de la Verdad y no puede, a pesar de los orígenes de su nombre, crear algo de la nada. $\hat f(x),$

Para aclarar: la estimación bootstrap de sesgo en el estimador es $\hat \theta$

{\hat{si yo una s}}_{si} = {\hat{θ}}^{*} (\cdot) - \hat{θ},

$\widehat{bias}_B = \hat\theta^*(\cdot) - \hat \theta,$

con siendo la media de la estadística calculada sobremuestras de arranque. Este proceso emula el de muestreo de alguna población y el cálculo de su cantidad de interés. Esto sólo funciona si $\hat\theta^*(\cdot)$ $B$ $\hat\theta$ podría, en principio, ser calculado directamente de la población. La estimación de inicialización del sesgo evalúa si la estimación del complemento, es decir, simplemente haciendo el mismo cálculo en una muestra en lugar de en la población, está sesgada.

Si solo desea utilizar sus residuos para evaluar el ajuste del modelo, eso es completamente posible. Si usted, como dice en los comentarios, desea comparar los modelos anidados y , usted puede hacer ANOVA para verificar si el modelo más grande reduce significativamente la suma del error al cuadrado. $f_1(x) = 3x_1 + 2x_2$ $f_2(x) = 3x_1 + 2x_2 + x_1x_2$

— einar
fuente

8

Una situación en la que puede obtener una estimación de la descomposición es si tiene puntos replicados (es decir, tener más de una respuesta para varias combinaciones de predictores).

Esto se limita principalmente a situaciones en las que tiene control de las variables independientes (como en los experimentos) o donde todas son discretas (cuando no hay demasiadas combinaciones xy puede tomar una muestra lo suficientemente grande como para que las combinaciones de valores x obtener múltiples puntos).

Los puntos replicados le brindan una forma libre de modelo de estimar la media condicional. En tales situaciones, existe la posibilidad de descomposición de la suma residual de cuadrados en puro error y falta de ajuste , pero también tiene estimaciones directas (aunque necesariamente ruidosas) del sesgo en cada combinación de valores x para los que tiene múltiples respuestas.

— Glen_b -Reinstate a Monica
fuente

No creo que esto funcione. Considere el caso en el que omitió una variable explicativa importante de su modelo. Si esta variable explicativa es ortogonal a todas las otras variables explicativas, creo que su efecto (o falta de) no puede detectarse con esta o cualquier otra metodología sugerida en otras respuestas.

— Cagdas Ozgenc

2

@Cagdas No funciona en todas las circunstancias; detecta el sesgo de la forma del modelo mal especificada, no necesariamente faltan predictores

— Glen_b

1

En el reino de filtrado de Kalman algo más complejo, a veces las personas prueban los residuos (mediciones observadas menos mediciones predichas) para buscar cambios en el modelo o condiciones de falla. En teoría, si el modelo es perfecto y el ruido es gaussiano, entonces los residuos también deberían ser gaussianos con media cero y también ser consistentes con una matriz de covarianza predicha. Las personas pueden evaluar la media distinta de cero con pruebas secuenciales como una Prueba de razón de probabilidad secuencial (SPRT). Su situación es diferente porque tiene un lote fijo de datos en lugar de un flujo constante de datos nuevos. Pero la idea básica de mirar la distribución muestral de los residuos aún podría aplicarse.

Indicas que el proceso que estás modelando puede cambiar ocasionalmente. Luego, para hacer más con los datos que tiene, probablemente necesite identificar otros factores que causan ese cambio. Considere 2 posibilidades: (1) tal vez necesite modelos locales en lugar de un modelo global, por ejemplo, porque hay severas no linealidades solo en algunas regiones operativas, o (2), tal vez el proceso cambie con el tiempo.

Si este es un sistema físico, y sus muestras no se toman con intervalos de tiempo enormes, es posible que estos cambios en el proceso persistan durante períodos de tiempo significativos. Es decir, los parámetros verdaderos del modelo pueden cambiar ocasionalmente, persistiendo durante un período de tiempo. Si sus datos tienen una marca de tiempo, puede observar los residuos con el tiempo. Por ejemplo, supongamos que ha ajustado y = Ax + b usando todos sus datos, encontrando A y b. Luego regrese y pruebe la secuencia residual r [k] = y [k] - Ax [k] - b, donde k es un índice correspondiente a los tiempos en orden secuencial. Busque patrones a lo largo del tiempo, por ejemplo, períodos donde las estadísticas de resumen como || r [k] || permanece más alto de lo normal por algún tiempo. Las pruebas secuenciales serían las más sensibles para detectar tipos de errores de sesgo sostenido, algo así como SPRT o incluso CUSUM para índices de vectores individuales.

— gms
fuente

1

La respuesta es no , porque el sesgo y la varianza son atributos de los parámetros del modelo, en lugar de los datos utilizados para estimarlos. Hay una excepción parcial a esa declaración que se refiere al sesgo y la variación que varía (¡ja!) A través del espacio predictor; más sobre eso a continuación. Tenga en cuenta que esto no tiene absolutamente nada que ver con conocer alguna función "verdadera" que relacione los predictores y las variables de respuesta.

$β$ $\hatβ=(X^TX)^{-1}X^TY$ $X$ $N×P$ $\hatβ$ $P×1$ $Y$ $N×1$ $N$ $P$ $\hatβ$ $N_{iter}$ $N$ $N_{iter}$ $\hatβ$ $N$ $P$

$\hatβ_{best}$ $P$ $\hatβ_{best_j}-\hatβ_j$ $j$ $1$ $N_{iter}$

Hay formas correspondientes de relacionar el sesgo y la varianza con los datos en sí, pero son un poco más complicados. Como puede ver, el sesgo y la varianza se pueden estimar para los modelos lineales, pero necesitará bastante información de retención. Un problema más insidioso es el hecho de que una vez que comience a trabajar con un conjunto de datos fijo, sus análisis se verán contaminados por su variación personal , ya que ya habrá comenzado a vagar por el jardín de caminos bifurcados y no hay forma de saber cómo se replicaría fuera de la muestra (a menos que se le ocurra un solo modelo y ejecute este análisis y se comprometa a dejarlo solo después de eso).

$Y$ $\hat{Y}$ $Y-\hat{Y}$ $\hat{Y}=X\hatβ$ $\hatβ$ $Y$ $X$

— Josh
fuente