Regresión sobre toda la población.

¿Cuál es el significado del error estándar de un coeficiente en una regresión cuando se incluye a toda la población?

Me ha intrigado mucho esta pregunta. Porque me parece que los errores estándar no tienen sentido cuando se incluye a toda la población; no hay necesidad de inferencia estadística ya que ya tiene a toda la población.

Pero es muy utilizado incluso por muchos artículos publicados en las principales revistas. Por ejemplo, si estoy examinando la relación entre la tasa de crecimiento del PIB de un país y su densidad de población, ejecuto la regresión:

G D P_{i} = α + β P o p_{i} + γ X_{i} + ϵ_{i}

$GDP_i = \alpha + \beta Pop_i + \gamma \mathbf{X}_i + \epsilon_i$

con todos los 195 países en la tierra. En el caso, todos los países (la población) están incluidos. Pero toda la literatura todavía habla sobre la significación estadística de los coeficientes.

¿Podría alguien explicar si se trata de un mal uso de la inferencia estadística al retroceder en toda la población?

econometrics regression

— Akira Osawa
fuente

Esta pregunta ha sido respondida en la red de estadísticas. Ver aquí . Básicamente, las estadísticas no tienen relevancia. La "regresión" es un dispositivo puramente matemático.

— luchonacho

@luchonacho Mi opinión es que esta pregunta es sobre el tema aquí con respecto al contenido que naturalmente tenemos una superposición con las estadísticas. Sin embargo, estoy de acuerdo en que es esencialmente un duplicado. Encontré una discusión sobre qué hacer con los duplicados entre sitios aquí: meta.stackexchange.com/questions/172307/…

— jmbejara

@jmbejara Gracias por la referencia. Bueno saber.

— luchonacho

Esto parece otra referencia pertinente. Discute una técnica relacionada llamada inferencia de aleatorización como se discutió en Athey Imbens (2017). jasonkerwin.com/nonparibus/2017/09/25/…

— jmbejara

Respuestas:

Inicialmente había marcado esta pregunta para que los moderadores examinaran si sería mejor migrar al sitio de SE de estadísticas Cross Validated. Pero dado que el OP introdujo un ejemplo econométrico muy específico, creo que el concepto (muy profundo) de "población / muestra" puede discutirse útilmente para los propósitos de este ejemplo.

Un primer tema es el que se analiza en la respuesta de @AdamBailey: si uno considera "todos los países del mundo" para un año o años determinados, y etiqueta los datos como "población", entonces el próximo año debería pertenecer a una población diferente. Si pertenece a una población diferente, ¿cómo vamos a utilizar los resultados de una población para hacer inferencia para otra población? De hecho, aquí nuestra "población" es bidimensional , país y período de tiempo, y en ese sentido, con el horizonte de tiempo abierto, solo tenemos una muestra en nuestras manos.

$GDP_i, i=1,..n$

Por lo tanto, nuestros datos son solo una de las posibles realizaciones combinadas de estas variables aleatorias. Estas realizaciones surgieron no solo como resultado de relaciones determinísticas / de ingeniería / causalidad (reflejadas en los coeficientes), sino también bajo el efecto de factores inherentemente aleatorios. En ese sentido, los datos no son una imagen "pura / típica" de la "población": contiene ruido, perturbaciones no estructurales, choques únicos, etc.

Entonces esta incertidumbre se trasladará a la estimación de los coeficientes que estamos tratando de estimar, porque suponemos que estos coeficientes describen la causalidad o el movimiento conjunto antes de que los elementos aleatorios afecten el valor final de la variable dependiente.

Debido a los dos aspectos anteriores, hablar sobre el "error estándar de las estimaciones" es totalmente válido, en este caso también, y luego aplicar pruebas estadísticas como de costumbre.

— Alecos Papadopoulos
fuente

Es importante tener en cuenta de qué se trata exactamente la población de la que se extrae una inferencia. Es fácil pasar por alto el aspecto del tiempo en este contexto.

Supongamos, por ejemplo, que el objetivo es pronosticar el PIB de los próximos dos años para cada país del mundo. Entonces la población de interés es un conjunto de pares de la forma "país, año". No se trata simplemente de "todos los países", e incluso si se ha estimado un modelo de pronóstico por regresión en los datos de los años actuales y pasados para cada país, eso no significa que se haya incluido a toda la población de interés.

Si realmente se parte de un conjunto de datos completo para toda la población de interés, entonces todo lo que se puede hacer es calcular estadísticas resumidas. Eso podría incluir desviaciones estándar, pero sería inapropiado llamar a estos errores estándar, ya que ese término se refiere a una distribución de muestreo, mientras que la única "muestra" en este caso es toda la población.

— Adam Bailey
fuente

Muchas gracias. Solo para dejarlo más claro, actualicé la pregunta: ¿se considera que 'todos los países' en este caso son toda la población? Si no lo hay, eso significa que son 'muestras' de alguna 'superpoblación': suponga que hay millones de países en el 'universo paralelo', y los 195 países en la tierra están distribuidos de forma independiente e idéntica entre ellos y son muestreados al azar ¿No es una suposición demasiado descabellada?

— Akira Osawa