Wayne ha abordado el tema "30" bastante bien (mi propia regla general: es probable que la mención del número 30 en relación con las estadísticas sea incorrecta).
¿Por qué se usan a menudo los números cercanos a 1000?
A menudo se usan números de alrededor de 1000-2000 en las encuestas, incluso en el caso de una proporción simple (" ¿Está a favor de lo que sea ><> ?").
Esto se hace para obtener estimaciones razonablemente precisas de la proporción.
Si se supone un muestreo binomial, el error estándar * de la proporción de la muestra es mayor cuando la proporción es - pero ese límite superior sigue siendo una aproximación bastante buena para proporciones entre aproximadamente el 25% y el 75%.12
* "error estándar" = "desviación estándar de la distribución de"
Un objetivo común es estimar porcentajes dentro de aproximadamente del porcentaje verdadero, aproximadamente el 95 % del tiempo. Ese 3 % se llama " margen de error ".± 3 %95 %3 %
En el error estándar del "peor de los casos" en el muestreo binomial, esto lleva a:
1.96 × 12⋅ ( 1 - 12) / n-----------√≤ 0.03
0.98×1/n−−−√≤0.03
n−−√≥0.98/0.03
n≥1067.11
... o 'un poco más de 1000'.
Entonces, si encuesta a 1000 personas al azar de la población sobre la que desea hacer inferencias, y el 58% de la muestra respalda la propuesta, puede estar razonablemente seguro de que la proporción de la población está entre 55% y 61%.
(A veces se pueden usar otros valores para el margen de error, como 2.5%. Si reduce a la mitad el margen de error, el tamaño de la muestra aumenta en un múltiplo de 4.)
En encuestas complejas donde se necesita una estimación precisa de una proporción en alguna subpoblación (por ejemplo, la proporción de graduados universitarios negros de Texas a favor de la propuesta), los números pueden ser lo suficientemente grandes como para que ese subgrupo sea de varios cientos, tal vez implicando decenas de miles de respuestas en total.
Como eso puede volverse poco práctico rápidamente, es común dividir la población en subpoblaciones (estratos) y tomar muestras de cada una por separado. Aun así, puede terminar con algunas encuestas muy grandes.
Se hizo parecer que un tamaño de muestra superior a 30 no tiene sentido debido a los rendimientos decrecientes.
Depende del tamaño del efecto y la variabilidad relativa. El efecto sobre la varianza significa que puede necesitar algunas muestras bastante grandes en algunas situaciones.n−−√
Respondí una pregunta aquí (creo que era de un ingeniero) que estaba tratando con tamaños de muestra muy grandes (cerca de un millón, si recuerdo bien) pero estaba buscando efectos muy pequeños.
Veamos qué nos deja una muestra aleatoria con un tamaño de muestra de 30 al estimar una proporción de muestra.
Imaginemos que preguntamos a 30 personas si en general aprobaron la dirección del Estado de la Unión (totalmente de acuerdo, de acuerdo, en desacuerdo, totalmente en desacuerdo). Además, imagine que el interés radica en la proporción que está de acuerdo o totalmente de acuerdo.
Digamos que 11 de los entrevistados estuvieron de acuerdo y 5 totalmente de acuerdo, para un total de 16.
16/30 es aproximadamente el 53%. ¿Cuáles son nuestros límites para la proporción en la población (con digamos un intervalo del 95%)?
Podemos fijar la proporción de la población en algún lugar entre el 35% y el 71% (aproximadamente), si nuestras suposiciones se mantienen.
No es tan útil.