¿Cuándo los modelos lineales incorrectos se vuelven robustamente hermosos?

Preguntas:

¿Se utilizan modelos lineales inadecuados en la práctica o se describe algún tipo de curiosidad de vez en cuando en revistas científicas? Si es así, ¿en qué áreas se utilizan?
¿Hay otros ejemplos de tales modelos?
Finalmente, ¿serían correctos los errores estándar, los valores , etc. tomados de OLS para tales modelos, o deberían corregirse de alguna manera? $p$ $R^2$

Antecedentes: los modelos lineales inadecuados se describen de vez en cuando en la literatura. En general, tales modelos se pueden describir como

y = a + b \sum_{i} w_{i} x_{i} + ε

$y = a + b \sum_i w_i x_i + \varepsilon$

lo que los hace diferentes de la regresión es que 's no son coeficientes estimados en el modelo, sino pesos que son $w_j$

igual para cada variable ( regresión ponderada por unidad ), $w_i = 1$
basado en correlaciones (Dana y Dawes, 2004), $w_i = \rho(y, x_i)$
elegido al azar (Dawes, 1979),
$-1$ $y$ $1$ $y$

$Z$

y = a + b v + ε

$y = a + b v + \varepsilon$

$v = \sum w_i x$

Referencias:
Dawes, Robyn M. (1979). La belleza robusta de los modelos lineales inadecuados en la toma de decisiones . Psicólogo estadounidense, 34, 571-582.

Graefe, A. (2015). Mejora de pronósticos utilizando predictores igualmente ponderados . Journal of Business Research, 68 (8), 1792-1799.

Wainer, Howard (1976). Estimación de coeficientes en modelos lineales: no importa . Boletín psicológico 83 (2), 213.

Dana, J. y Dawes, RM (2004). La superioridad de las alternativas simples a la regresión para las predicciones de las ciencias sociales . Revista de estadísticas educativas y conductuales, 29 (3), 317-331.

— Tim
fuente

¿En qué sentido las estadísticas derivadas de estos modelos serían "incorrectas"?

— whuber

w_{i}

$w_i$

b

$b$

y

$y$

w_{i}

$w_i$

No fue un comentario informado: los documentos todavía están en mi pila de "leer". Me preguntaba: - "¿Por qué 'impropio'?". No es inusual que un predictor sea una combinación lineal de otras variables: un promedio de varias mediciones, un puntaje de componente principal, una predicción de otra regresión, el nivel de una serie temporal exponencialmente suavizada o un valor calculado de un bien establecido o un índice ad hoc. No estimar los pesos de la respuesta ahorra grados de libertad, lo que ayuda a evitar el sobreajuste con tamaños de muestra más pequeños.

— Scortchi - Restablece a Monica

x_{i}

$x_i$

w_{i}

$w_i$

x_{i}

$x_i$

w_{i} = ρ (y, x_{i})

$w_i = \rho(y, x_i)$

ρ

$\rho$

En efecto, me parece que este es un surtido de estructuras de covarianza asumidas. En otras palabras, este es un tipo de modelado bayesiano previo.

$\downarrow$ $|\hat\beta|<|\beta|$ $\hat{R}^2<R^2$

Mi experiencia personal es que lo mejor del enfoque bayesiano es utilizar un mejor modelado; transformar parámetros, usar otras normas y / o usar métodos no lineales. Es decir, una vez que la física del problema y los métodos se exploran y coordinan adecuadamente, las estadísticas F, el coeficiente de determinación, etc. mejoran en lugar de degradarse.

— Carl
fuente