¿Qué tan grande debe ser una muestra para una determinada técnica y parámetros de estimación?


12

¿Existe una regla general o incluso alguna forma de decir qué tan grande debe ser una muestra para estimar un modelo con un número dado de parámetros?

Entonces, por ejemplo, si quiero estimar una regresión de mínimos cuadrados con 5 parámetros, ¿qué tan grande debe ser la muestra?

¿Importa qué técnica de estimación está utilizando (por ejemplo, máxima probabilidad, mínimos cuadrados, GMM), o cuántas o qué pruebas va a realizar? ¿Se debe tener en cuenta la variabilidad de la muestra al tomar la decisión?

Respuestas:


11

La respuesta trivial es que siempre se prefieren más datos a menos datos.

El problema del pequeño tamaño de muestra es claro. Técnicamente, en la regresión lineal (MCO) puede ajustarse a un modelo como MCO donde n = k + 1 pero obtendrá basura, es decir, errores estándar muy grandes. Hay un gran artículo de Arthur Goldberger llamado Micronumerocity sobre este tema, que se resume en el capítulo 23 de su libro A Course in Econometrics .

Una heurística común es que debe tener 20 observaciones para cada parámetro que desee estimar. Siempre es una compensación entre el tamaño de sus errores estándar (y, por lo tanto, las pruebas de importancia) y el tamaño de su muestra. Esta es una razón por la que algunos de nosotros odiamos las pruebas de significación, ya que puede obtener un error estándar increíblemente pequeño (relativo) con una muestra enorme y, por lo tanto, encontrar significación estadística inútil en pruebas ingenuas, como si un coeficiente de regresión es cero.

Si bien el tamaño de la muestra es importante, la calidad de su muestra es más importante, por ejemplo, si la muestra es generalizable a la población, es una Muestra aleatoria simple o alguna otra metodología de muestreo apropiada (y esto se ha tenido en cuenta durante el análisis), ¿hay algún error de medición? , sesgo de respuesta, sesgo de selección, etc.


3

Me gusta usar remuestreo: repito cualquier método que use con una submuestra de datos (digamos 80% o incluso 50% del total). Al hacer esto con muchas submuestras diferentes, me da una idea de cuán robustas son las estimaciones. Para muchos procedimientos de estimación, esto puede convertirse en una estimación real (es decir, publicable) de sus errores.


2

¡Siempre debe ser lo suficientemente grande! ;)

Todas las estimaciones de parámetros vienen con una incertidumbre estimada, que está determinada por el tamaño de la muestra. Si realiza un análisis de regresión, es útil recordar que la distribución Χ 2 se construye a partir del conjunto de datos de entrada. Si su modelo tenía 5 parámetros y usted tenía 5 puntos de datos, solo podría calcular un solo punto de la distribución Χ 2 . Como necesitará minimizarlo, solo podría elegir ese punto como una suposición para el mínimo, pero tendría que asignar infinitos errores a sus parámetros estimados. Tener más puntos de datos le permitiría asignar mejor el espacio de parámetros, lo que llevaría a una mejor estimación del mínimo de la distribución Χ 2 y, por lo tanto, a errores de estimador más pequeños.

¿Estaría utilizando un estimador de máxima verosimilitud en lugar de que la situación sería similar: más puntos de datos conducen a una mejor estimación del mínimo?

En cuanto a la variación de puntos, también necesitaría modelar esto. Tener más puntos de datos haría que el agrupamiento de puntos alrededor del valor "verdadero" sea más obvio (debido al Teorema del límite central) y el peligro de interpretar una fluctuación grande y casual como el valor verdadero para ese punto se reduciría. Y en cuanto a cualquier otro parámetro, su estimación de la varianza de puntos se volvería más estable cuanto más puntos de datos tenga.


2

He escuchado dos reglas generales a este respecto. Uno sostiene que mientras haya suficientes observaciones en el término de error para evocar el teorema del límite central, por ejemplo, 20 o 30, está bien. El otro sostiene que para cada pendiente estimada uno debe tener al menos 20 o 30 observaciones. La diferencia entre usar 20 o 30 como número objetivo se basa en diferentes pensamientos sobre cuándo hay suficientes observaciones para evocar razonablemente el Teorema del límite central.


1
las dos respuestas me parecen muy diferentes. Uno dice 20 a 30, el otro dice pendientes de 20 a 30 veces. Entonces, si tiene 5 pendientes, una regla le dice de 20 a 30, las otras 100 a 150 observaciones. Eso no me parece correcto ...
Vivi

1
Son pautas bastante diferentes. Sospecho que la desconexión es si crees que la prueba del modelo general importa (la directriz N más baja) o la prueba de las pendientes individuales que importan (la pauta N más alta).
russellpierce
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.