Supongamos que un grupo de personas evalúa cuánto les gustó una película en una escala discreta del 1 al 10, y desea un intervalo [ l , u ] tal que con (al menos) 95% de confianza, (al menos) 90 El% de todas las personas que ven la película lo calificarán no menos que l ni más alto que u . [ l , u ] es entonces un intervalo de tolerancia (de dos lados) con 95% de confianza y 90% de cobertura. (Para ser claros, el 95% de confianza implica que si repite este procedimiento muchas veces, el 95% de los intervalos producidos obtendrían al menos el 90% de cobertura de la población). Por supuesto, generalmente queremos que [ l , u ] sea tan estrecho como posible sin dejar de cumplir nuestros requisitos.
He visto varios métodos no paramétricos para construir intervalos de tolerancia para variables aleatorias continuas. También he visto métodos para construir intervalos de tolerancia para las variables binomiales y de Poisson. (El paquete R tolerance
implementa varios de estos métodos; Young, 2010.) ¿Pero qué pasa con las variables discretas cuando la distribución es desconocida? Este es generalmente el caso para escalas de calificación como la de mi ejemplo, y asumir que una distribución binomial no parece segura porque los datos reales de la escala de calificación a menudo exhiben rarezas como la multimodalidad.
¿Tendría sentido recurrir a los métodos no paramétricos para variables continuas? Alternativamente, ¿qué pasa con un método de Monte Carlo como generar 1,000 réplicas de arranque de la muestra y encontrar un intervalo que capture al menos el 90% de la muestra en al menos 950 de las réplicas?
Young, DS (2010). tolerancia: un paquete R para estimar los intervalos de tolerancia. Revista de software estadístico, 36 (5), 1-39. Recuperado de http://www.jstatsoft.org/v36/i05