Intervalos de confianza cuando el tamaño de la muestra es muy grande

14

Mi pregunta podría reformularse como "cómo evaluar un error de muestreo utilizando grandes datos", especialmente para una publicación de revista. Aquí hay un ejemplo para ilustrar un desafío.

De un conjunto de datos muy grande (> 100000 pacientes únicos y sus medicamentos recetados de 100 hospitales), me interesó estimar una proporción de pacientes que toman un medicamento específico. Es sencillo obtener esta proporción. Su intervalo de confianza (p. Ej., Paramétrico o bootstrap) es increíblemente estrecho / estrecho, porque n es muy grande. Si bien es una suerte tener un gran tamaño de muestra, todavía estoy buscando una forma de evaluar, presentar y / o visualizar algunas formas de probabilidades de error. Si bien parece inútil (si no es engañoso) poner / visualizar un intervalo de confianza (p. Ej., IC 95%: .65878 - .65881), también parece imposible evitar algunas declaraciones sobre la incertidumbre.

Por favor dejame saber lo que tu piensas. Agradecería cualquier literatura sobre este tema; formas de evitar la excesiva confianza en los datos, incluso con un gran tamaño de muestra.

confidence-interval large-data reporting

— so2015
fuente

77

Puede evitar la confianza excesiva al recordar que los errores que no son de muestreo permanecen intactos. Si hay sesgos en el muestreo y la medición, todavía están allí. Además, ya sea que esté contando pacientes únicos (preferiría decir "distintos") u observaciones definidas de alguna otra manera, existen (presumo) estructuras de conglomerados que vinculan medicamentos para el mismo paciente y medicamentos que se administran juntos de cualquier manera, lo que no se explican por los cálculos de intervalo de confianza más simples. No tengo soluciones sobre cómo cuantificar esto más allá de compararlo con otros conjuntos de datos y documentar la producción de datos.

— Nick Cox

10

Este problema también ha surgido en algunas de mis investigaciones (como modelador de epidemias, tengo el lujo de crear mis propios conjuntos de datos, y con computadoras lo suficientemente grandes, pueden tener un tamaño esencialmente arbitrario. Algunas ideas:

En términos de informes, creo que puede informar intervalos de confianza más precisos, aunque la utilidad de esto es legítimamente un poco cuestionable. Pero no está mal, y con conjuntos de datos de este tamaño, no creo que haya mucha demanda para que se informen los intervalos de confianza y luego se quejen de que realmente nos gustaría que se redondearan a dos dígitos, etc.
En términos de evitar el exceso de confianza, creo que la clave es recordar que la precisión y la exactitud son cosas diferentes, y evitar tratar de combinar las dos. Es muy tentador, cuando tiene una muestra grande, dejarse atrapar por la precisión del efecto estimado y no pensar que también podría estar equivocado. Creo que esa es la clave: un conjunto de datos sesgados tendrá ese sesgo en N = 10, o 100, o 1000 o 100,000.

El objetivo de los grandes conjuntos de datos es proporcionar estimaciones precisas, por lo que no creo que deba evitar esa precisión. Pero debe recordar que no puede mejorar los datos incorrectos simplemente recopilando grandes volúmenes de datos incorrectos.

— Fomite
fuente

Creo que un gran volumen de datos incorrectos sigue siendo mejor que un pequeño volumen de datos incorrectos.

— Aksakal

@Aksakal ¿Por qué? Una respuesta precisamente incorrecta sigue siendo incorrecta.

— Fomite

@Fomite - sí, pero estás más seguro de que está mal :)

— Duncan

6

Este problema ha surgido en mis propios manuscritos.

1. Opciones de informes: si solo tiene uno o unos pocos elementos de configuración para informar, el informe "(por ejemplo, IC del 95%: .65878 - .65881)" no es excesivamente detallado y resalta la precisión del elemento de configuración. Sin embargo, si tiene numerosos CI, entonces una declaración general podría ser más útil para el lector. Por ejemplo, generalmente informaré algo en el sentido de "con este tamaño de muestra, el margen de error de confianza del 95% para cada proporción fue menor que +/- .010". Por lo general, informo algo así en el Método, o en el título de Tabla o Figura, o en ambos.

2. Evitar el "exceso de confianza" incluso con un tamaño de muestra grande: con una muestra de 100,000, el teorema del límite central lo mantendrá seguro cuando reporte CIs para proporciones. Por lo tanto, en la situación que describió, debería estar bien, a menos que haya otras infracciones de supuestos de las que no tenga conocimiento (por ejemplo, iid violado).

— Antonio
fuente

0

No informe los intervalos de confianza. En su lugar, informe el tamaño exacto de la muestra y las proporciones. El lector podrá calcular sus propios IC de la forma que desee.

— Aksakal
fuente

44

¿Por qué no debería aplicarse este mismo razonamiento a todos los informes de datos cuantitativos?

— whuber

@whuber, buena pregunta. Estoy a favor de la investigación reproducible, desearía que todos publicaran sus conjuntos de datos.

— Aksakal

66

No quise tomarlo como una sugerencia. Incluso si todos publicaran sus conjuntos de datos, estarían derogando sus deberes científicos si no proporcionaran un análisis de ellos, y eso incluye un análisis de incertidumbre. Parece que va en una dirección que lógicamente terminaría con la sugerencia de que los científicos no hacen nada más que publicar datos, ¡sin ningún análisis en absoluto! Eso termina siendo una acusación de la recomendación de que no se informen los IC. Indica lo contrario que se debe ofrecer algún tipo de análisis estadístico en cualquier caso, independientemente del tamaño de la muestra.

— whuber

0

Considere la posibilidad de que las proporciones de 100 hospitales diferentes no converjan al mismo valor medio. ¿Probó la varianza entre grupos? Si hay una diferencia medible entre los hospitales, no se admite la suposición de que las muestras se generan a partir de una distribución normal común y no debe agruparlas.

Sin embargo, si sus datos realmente provienen de una muestra grande normalmente distribuida, entonces no encontrará "declaraciones sobre la incertidumbre" útiles como una propiedad de los datos, sino al reflexionar sobre por qué o por qué sus estadísticas no deberían generalizarse, debido a algún sesgo inherente en la colección, o falta de estacionariedad, etc., que debe señalar.

— John Mark
fuente