Estoy interesado en obtener una estimación imparcial de en una regresión lineal múltiple.
Al reflexionar, puedo pensar en dos valores diferentes que una estimación imparcial de podría estar tratando de igualar.
- Fuera de la muestra : el r-cuadrado que se obtendría si la ecuación de regresión obtenida de la muestra (es decir, ) se aplicara a una cantidad infinita de datos externos a la muestra pero a partir de los mismos datos proceso generador
- Población : El cuadrado r que se obtendría si se obtuviera una muestra infinita y el modelo se ajustara a esa muestra infinita (es decir, ) o, alternativamente, solo el cuadrado R implicado por el proceso de generación de datos conocido.
Entiendo que ajustado está diseñado para compensar el sobreajuste observado en la muestra . Sin embargo, no está claro si ajustado es en realidad una estimación imparcial de , y si es una estimación imparcial, ¿cuál de las dos definiciones anteriores de tiene como objetivo estimar?
Por lo tanto, mis preguntas:
- ¿Cuál es una estimación imparcial de lo que llamo arriba de la muestra ?
- ¿Cuál es una estimación imparcial de lo que yo llamo por encima de la población ?
- ¿Hay alguna referencia que proporcione simulación u otra prueba de la imparcialidad?