Tengo una muestra (de tamaño 250) de una población. No sé la distribución de la población.
La pregunta principal: quiero una estimación puntual del primer percentil de la población, y luego quiero un intervalo de confianza del 95% alrededor de mi estimación puntual.
Mi estimación puntual será la muestra del primer percentil. Lo denoto .
Después de eso, trato de construir el intervalo de confianza alrededor de la estimación puntual. Me pregunto si tiene sentido usar bootstrap aquí. No tengo mucha experiencia con bootstrap, así que perdón si no uso la terminología adecuada, etc.
Así es como traté de hacerlo. Extraigo 1000 muestras aleatorias con reemplazo de mi muestra original. Obtengo el 1 st -percentile de cada uno de ellos. Por lo tanto, tengo 1000 puntos: "el 1er- percentiles". Miro la distribución empírica de estos 1000 puntos. Denote la media de esto . Denote un "sesgo" de la siguiente manera: sesgo = x m e a n - x . Tomo el 2,5 º -percentile y 97,5 º percentil de la 1000 puntos para obtener el inferior y el extremo superior de lo que llamo un intervalo de confianza del 95% alrededor de la 1 st-percentil de la muestra original. Denoto estos puntos y x 0.975 .
El último paso restante es adaptar este intervalo de confianza para estar alrededor del 1er percentil de la población en lugar de alrededor del 1er percentil de la muestra original . Por lo tanto, tomo como el extremo inferior y x - sesgo + ( x 0.975 - x m e a n ) como el extremo superior del intervalo de confianza del 95% alrededor de la estimación puntual de la población 1st -percentile. Este último intervalo es lo que estaba buscando.
Un punto crucial , en mi opinión, es si tiene sentido usar bootstrap para el primer percentil, que está bastante cerca de la cola de la distribución subyacente desconocida de la población. Sospecho que podría ser problemático; piense en usar bootstrap para construir un intervalo de confianza en torno a un mínimo (o un máximo).
¿Pero tal vez este enfoque es defectuoso? Por favor hagamelo saber.
EDITAR:
Entonces, ¿tiene algún sentido suponer que el primer percentil de la muestra es una estimación sesgada del primer percentil de la población ? Y si no, ¿es correcta mi solución alternativa?