Si repito cada observación de muestra en un modelo de regresión lineal y vuelvo a ejecutar la regresión, ¿cómo se vería afectado el resultado?


15

Digamos que tengo N observaciones, posiblemente múltiples factores y repito cada observación dos veces (o M veces) ¿cómo se compararía una regresión en este nuevo conjunto de tamaños NM con una regresión solo en las observaciones originales?

Respuestas:


13

Conceptualmente, no está agregando información "nueva", pero "conoce" esa información con mayor precisión.

Por lo tanto, esto daría como resultado los mismos coeficientes de regresión, con errores estándar más pequeños.

Por ejemplo, en Stata, la función expandir x duplica cada observación x veces.

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

Como puede ver, los coeficientes (longitud) anteriormente insignificantes se vuelven estadísticamente significativos en el modelo expandido, lo que representa la precisión con la que "sabe" lo que sabe.


Sí, los errores estándar se reducen. Algunos recomiendan una regresión lineal ponderada para esto. ¿Hay algún método que use para arreglar esto?
BBDynSys

3

w=argminwEl |El |Xw-yEl |El |2
XyMETROMETRO

De acuerdo, pero creo que las estadísticas t y los errores estándar deberían cambiar dado el cambio de N a NM.
Palacio Chan

METROnorte-PAGnorte es el tamaño de muestra original y PAG es el número de predictores) y la longitud del vector residual aumenta en un factor de METRO.
Innuo
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.