Mi pregunta podría reformularse como "cómo evaluar un error de muestreo utilizando grandes datos", especialmente para una publicación de revista. Aquí hay un ejemplo para ilustrar un desafío.
De un conjunto de datos muy grande (> 100000 pacientes únicos y sus medicamentos recetados de 100 hospitales), me interesó estimar una proporción de pacientes que toman un medicamento específico. Es sencillo obtener esta proporción. Su intervalo de confianza (p. Ej., Paramétrico o bootstrap) es increíblemente estrecho / estrecho, porque n es muy grande. Si bien es una suerte tener un gran tamaño de muestra, todavía estoy buscando una forma de evaluar, presentar y / o visualizar algunas formas de probabilidades de error. Si bien parece inútil (si no es engañoso) poner / visualizar un intervalo de confianza (p. Ej., IC 95%: .65878 - .65881), también parece imposible evitar algunas declaraciones sobre la incertidumbre.
Por favor dejame saber lo que tu piensas. Agradecería cualquier literatura sobre este tema; formas de evitar la excesiva confianza en los datos, incluso con un gran tamaño de muestra.