¿Cómo calcular un tamaño de muestra para validar la corrección / incorrección de registros en una tabla de datos?


8

He leído las respuestas existentes en CrossValidated (más en otro lugar en línea) y no puedo encontrar lo que estoy buscando, pero sírvase señalarme las fuentes existentes si las he perdido.

Digamos que tengo un conjunto de datos de N = 1000 registros, cada uno de los cuales puede muestrearse manualmente y etiquetarse como 'Válido' o 'No válido' (o Verdadero / Falso, Correcto / Incorrecto, etc.).

Quiero lograr un nivel de confianza dado de que todos los registros en el conjunto de datos son válidos. A medida que muestro registros, si encuentro uno solo no válido, volvería y enmendaría cómo se crea el conjunto de datos para rectificar eso y problemas similares.

Entonces, después de algunas iteraciones de detectar inválidos, arreglar y recrear el conjunto de datos, realizo un muestreo que solo incluye registros válidos. Si quiero estar (digamos) 99% o 95% seguro de que todos los registros son válidos, ¿qué tamaño tiene que tener mi muestra? (Idealmente en función de N.)

He intentado jugar con pruebas hipergeométricas ( http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test ); en ese contexto, quiero saber qué debería ser k, pero no tengo un valor fijo de K Más bien, quiero elegir k de modo que sea probable que K sea igual a N, ¡pero establecer K = N obviamente resulta en una probabilidad de 1! También me pregunto si necesito usar un enfoque bayesiano, pero no entiendo las estadísticas bayesianas lo suficiente.




Gracias. Creo que los tres son útiles y el tercero (en particular) es básicamente el mismo escenario que tengo. Veré qué puedo hacer con esas respuestas: ¡la regla de los tres suena muy útil!
Stuart J Cuthbertson

De nada. Edite su pregunta aquí si algo no está claro.
Scortchi - Restablece a Monica

Probablemente ya lo haya resuelto: pero como la pregunta no se ha cerrado como un duplicado, y no es un duplicado exacto; Pensé que podría valer la pena dar una respuesta.
Scortchi - Restablece a Monica

Respuestas:


7

Esto se puede enmarcar como una prueba de la hipótesis nula de que hay algunos registros no válidos en el conjunto de datos ( ) frente a la alternativa de que no hay ninguno ( ), dado que no se encontraron registros no válidos en la muestra ( ). El nulo proximal, el más difícil de rechazar, es que hay un único registro no válido ( ). Sustituya estos en la función de masa de probabilidad hipergeométrica para una muestra de tamaño de un conjunto de datos de tamaño para obtener el valor p (no hay posibles valores más pequeños de para ser considerados):K>0K=0k=0K=1nNk

f(k)=(Kk)(NKnk)(Nn)
=(10)(N1n0)(Nn)
=NnN=p

Entonces, el tamaño mínimo de muestra requerido para poder rechazar la hipótesis nula en un nivel de significación (o equivalente para obtener un intervalo de confianza unilateral de ) es simplementenpα=1pK=0

n=(1p)N
n=αN

Con y , . Si eso parece mucho, considere que la validez de todos los mil registros es un criterio estricto; si considera relajarlo, puede usar el mismo enfoque para probar, digamos .N=1000α=0.95n=950K>9


Ese es un enfoque diferente a lo que había concluido al leer los artículos vinculados (es decir, aplicar la Regla de los Tres). Sin embargo, tiene sentido y en realidad es menos conservador que la Regla de 3 (que si hice bien las sumas, recomienda muestrear 3000 registros para N = 1000). La conclusión general de "estadísticas dice que también debería verificar básicamente todo si necesita ser así de seguro" se aplica a cualquiera de los enfoques.
Stuart J Cuthbertson

Tenga en cuenta que la Regla de los Tres solo se aplica aproximadamente al muestreo sin reemplazo de una población finita; cuando . nN
Scortchi - Restablece a Monica
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.