Cálculo dinámico del número de muestras necesarias para estimar la media.

Estoy tratando de estimar la media de una distribución gaussiana más o menos a través del muestreo. No tengo conocimiento previo sobre su media o su varianza. Cada muestra es costosa de obtener. ¿Cómo decido dinámicamente cuántas muestras necesito para obtener un cierto nivel de confianza / precisión? Alternativamente, ¿cómo sé cuándo puedo dejar de tomar muestras?

Todas las respuestas a preguntas como esta que puedo encontrar parecen suponer cierto conocimiento de la variación, pero también necesito descubrir eso en el camino. Otros están orientados a realizar encuestas, y no me queda claro (principiante que soy) cómo eso se generaliza: mi media no es w / in [0,1], etc.

Creo que esta es probablemente una pregunta simple con una respuesta bien conocida, pero mi Google-fu me está fallando. Incluso decirme qué buscar sería útil.

estimation sample-size

— Josh Bleecher Snyder
fuente

¿Alguna razón por la que marcaste esto como CW? La pregunta parece lo suficientemente específica como para permitir una respuesta correcta y, por lo tanto, no debe ser CW.

@josh eso está bien. Solo tenía curiosidad sobre tu elección.

Google "muestreo adaptativo" y "muestreo secuencial". Si todavía está atascado, incluya "Wald" como palabra clave y luego avance históricamente (es decir, mire documentos que hacen referencia al trabajo de Wald sobre muestreo secuencial, luego mire documentos que hacen referencia a ellos, etc.).

— whuber

@Robby McKilliam: ¿Pero qué datos usas? Esta pregunta surge antes de que se haya recopilado ningún dato. Si recopila valores de uno en uno y calcula un CI después de agregar cada uno nuevo al conjunto de datos, no puede usar fórmulas estándar para los intervalos debido a las comparaciones múltiples correlacionadas que está haciendo. Por lo tanto, necesita una regla de detención que optimice la suma del riesgo estadístico de su estimador y el costo de recolectar cada muestra adicional.

— whuber

@whuber gracias! Todavía estoy digiriendo el material, pero creo que esto es exactamente lo que estoy buscando. Si esta fuera una respuesta, lo aceptaría ...

— Josh Bleecher Snyder

Respuestas:

Debe buscar 'Diseños adaptativos bayesianos'. La idea básica es la siguiente:

Inicializa lo anterior para los parámetros de interés.

Antes de cualquier recopilación de datos, sus antecedentes serían difusos. A medida que ingresan datos adicionales, vuelve a configurar el anterior para que sea el posterior que corresponde a los 'datos anteriores + hasta ese momento'.
Recolectar datos.
Calcule el posterior basado en datos + previos. La parte posterior se usa como la anterior en el paso 1 si realmente recopila datos adicionales.
Evaluar si se cumplen sus criterios de detención

Los criterios de detención podrían incluir algo como el intervalo creíble del 95% no debería ser mayor que unidades para los parámetros de interés. También podría tener funciones de pérdida más formales asociadas con los parámetros de interés y calcular la pérdida esperada con respecto a la distribución posterior del parámetro de interés. $\pm \epsilon$

Luego repita los pasos 1, 2 y 3 hasta que se cumplan los criterios de detención del paso 4.

— usuario28
fuente

Normalmente querrá al menos 30 invocar el teorema del límite central (aunque esto es algo arbitrario). A diferencia del caso de las encuestas, etc., que se modelan utilizando la distribución binomial, no puede determinar de antemano un tamaño de muestra que garantice un nivel de precisión con un proceso gaussiano; depende de los residuos que obtenga que determinen el error estándar.

Cabe señalar que si tiene una estrategia de muestreo sólida, puede obtener resultados mucho más precisos que con un tamaño de muestra mucho mayor con una estrategia deficiente.

— James
fuente

¿Por qué habría que invocar el CLT al tomar muestras de una distribución gaussiana conocida (o supuesta)? La media de incluso una muestra de uno se distribuirá normalmente.

— whuber

¡Buen punto! No RTQ correctamente.

— James