Tengo un archivo bastante larege 100M filas y 30 columnas más o menos en el que me gustaría ejecutar múltiples regresiones. Tengo un código especializado para ejecutar las regresiones en todo el archivo, pero lo que me gustaría hacer es extraer muestras aleatorias del archivo y ejecutarlas en R. La estrategia es: muestrear aleatoriamente N filas del archivo sin reemplazo ejecutar una regresión y guarde los coeficientes de interés, repita este proceso M veces con diferentes muestras para cada coeficiente, calcule las medias y los errores estándar de los coeficientes sobre M corridas.
Me gustaría interpretar la media calculada sobre M como una estimación de los valores de los coeficientes calculados en todo el conjunto de datos, y los errores estándar de las medias como estimaciones de los errores estándar de los coeficientes calculados en todo el conjunto de datos.
Los experimentos muestran que esta es una estrategia prometedora, pero no estoy seguro de la teoría subyacente. ¿Son mis estimadores consistentes eficientes e imparciales? Si son consistentes, ¿qué tan rápido deberían converger? ¿Qué compensaciones de M y N son las mejores?
Le agradecería mucho que alguien pudiera señalarme los artículos, libros, etc. con la teoría relevante.
Saludos y muchas gracias.
Joe Rickert