Considere lo siguiente de las páginas 254-256 de Sauro, J. y Lewis, JR (2016). Cuantificación de la experiencia del usuario: estadísticas prácticas para la investigación del usuario, 2ª ed. Cambridge, MA: Morgan-Kaufmann (puede consultar el interior en https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).
¿DEBE PROBAR AL MENOS 30 USUARIOS?
POR UN LADO
Probablemente la mayoría de nosotros que hemos tomado una clase introductoria de estadística (o conocemos a alguien que tomó esa clase) hemos escuchado la regla general de que para estimar o comparar medias, el tamaño de su muestra debe ser al menos 30. De acuerdo con el teorema del límite central, A medida que aumenta el tamaño de la muestra, la distribución de la media se vuelve más y más normal, independientemente de la normalidad de la distribución subyacente. Algunos estudios de simulación han demostrado que para una amplia variedad de distribuciones (pero no todas, ver Bradley, 1978), la distribución de la media se vuelve casi normal cuando n = 30.
Otra consideración es que es un poco más simple usar puntajes z en lugar de puntajes t porque los puntajes z no requieren el uso de grados de libertad. Como se muestra en la Tabla 9.1 y la Fig. 9.2, para cuando tenga aproximadamente 30 grados de libertad, el valor de t se acerca bastante al valor de z. En consecuencia, puede haber la sensación de que no tiene que lidiar con muestras pequeñas que requieren estadísticas de muestras pequeñas (Cohen, 1990). ...
POR OTRA PARTE
Cuando el costo de una muestra es costoso, como suele ser en muchos tipos de investigación de usuarios (por ejemplo, pruebas de usabilidad moderadas), es importante estimar el tamaño de muestra necesario con la mayor precisión posible, con el entendimiento de que es una estimación. La probabilidad de que 30 sea exactamente la muestra correcta para un conjunto dado de circunstancias es muy baja. Como se muestra en nuestros capítulos sobre la estimación del tamaño de la muestra, un enfoque más apropiado es tomar las fórmulas para calcular los niveles de significancia de una prueba estadística y, usando álgebra para resolver n, convertirlas en fórmulas de estimación del tamaño de la muestra. Esas fórmulas luego brindan orientación específica sobre lo que debe saber o estimar para una situación dada para estimar el tamaño de muestra requerido.
La idea de que incluso con la distribución t (a diferencia de la distribución z) necesita tener un tamaño de muestra de al menos 30 es inconsistente con la historia del desarrollo de la distribución. En 1899, William S. Gossett, un recién graduado de New College en Oxford con títulos en química y matemáticas, se convirtió en uno de los primeros científicos en unirse a la cervecería Guinness. “Comparado con los gigantes de su época, publicó muy poco, pero su contribución es de importancia crítica. ... La naturaleza del proceso de elaboración de la cerveza, con su variabilidad en temperatura e ingredientes, significa que no es posible tomar muestras grandes a largo plazo ”(Cowles, 1989, p. 108-109).
Esto significaba que Gossett no podía usar puntajes z en su trabajo, simplemente no funcionan bien con muestras pequeñas. Después de analizar las deficiencias de la distribución z para las pruebas estadísticas con muestras pequeñas, resolvió los ajustes necesarios en función de los grados de libertad para producir sus tablas t, publicadas bajo el seudónimo "Estudiante" debido a las políticas de Guinness que prohíben la publicación. por empleados (Salsburg, 2001). En el trabajo que condujo a la publicación de las tablas, Gossett realizó una primera versión de las simulaciones de Monte Carlo (Stigler, 1999). Preparó 3000 tarjetas etiquetadas con medidas físicas tomadas en criminales, las barajó, luego las repartió en 750 grupos de tamaño 4, un tamaño de muestra mucho más pequeño que 30.
NUESTRA RECOMENDACIÓN
Esta controversia es similar al argumento “cinco es suficiente” versus “ocho no es suficiente” cubierto en el Capítulo 6, pero aplicado a la investigación sumativa más que formativa. Para cualquier investigación, el número de usuarios a evaluar depende del propósito de la prueba y del tipo de datos que planea recopilar. El "número mágico" 30 tiene una lógica empírica, pero en nuestra opinión, es muy débil. Como puede ver en los numerosos ejemplos en este libro que tienen tamaños de muestra que no son iguales a 30 (a veces menos, a veces más), no tenemos en cuenta esta regla general. Como se describe en nuestro capítulo de tamaño de muestra para investigación sumativa, el tamaño de muestra apropiado para un estudio depende del tipo de distribución, la variabilidad esperada de los datos, los niveles deseados de confianza y poder,
Como se ilustra en la figura 9.2, cuando se usa la distribución t con muestras muy pequeñas (p. Ej., Con grados de libertad inferiores a 5), los valores muy grandes de t compensan los tamaños de muestra pequeños con respecto al control de los errores de Tipo I ( reclamar una diferencia es importante cuando realmente no lo es). Con tamaños de muestra tan pequeños, sus intervalos de confianza serán mucho más amplios de lo que obtendría con muestras más grandes. Pero una vez que se trata de más de 5 grados de libertad, hay muy poca diferencia absoluta entre el valor de z y el valor de t. Desde la perspectiva del enfoque de t a z, hay muy poca ganancia después de los 10 grados de libertad.
No es mucho más complicado usar la distribución t que la distribución z (solo debe asegurarse de usar el valor correcto para los grados de libertad), y la razón para el desarrollo de la distribución t fue Permitir el análisis de pequeñas muestras. Esta es solo una de las formas menos obvias en que los profesionales de la usabilidad se benefician de la ciencia y la práctica de la elaboración de cerveza. Los historiadores de las estadísticas consideran ampliamente la publicación de Gossett de la prueba t de Student como un evento histórico (Box, 1984; Cowles, 1989; Stigler, 1999). En una carta a Ronald A. Fisher (uno de los padres de las estadísticas modernas) que contiene una copia temprana de las tablas t, Gossett escribió: "Usted es probablemente el único hombre que las usará" (Box, 1978). Gossett hizo muchas cosas bien, pero ciertamente se equivocó.
Referencias
Box, GEP (1984). La importancia de la práctica en el desarrollo de estadísticas. Technometrics, 26 (1), 1-8.
Box, JF (1978). Fisher, la vida de un científico. Nueva York, NY: John Wiley.
Bradley, JV (1978). Robustez? Revista británica de psicología matemática y estadística, 31, 144-152.
Cohen, J. (1990). Cosas que he aprendido (hasta ahora). Psicólogo estadounidense, 45 (12), 1304-1312.
Cowles, M. (1989). Estadística en psicología: una perspectiva histórica. Hillsdale, Nueva Jersey: Lawrence Erlbaum.
Salsburg, D. (2001). La dama degustando té: cómo las estadísticas revolucionaron la ciencia en el siglo XX. Nueva York, NY: WH Freeman.
Stigler, SM (1999). Estadísticas sobre la mesa: La historia de los conceptos y métodos estadísticos. Cambridge, MA: Harvard University Press.