¿Cómo interpretar el intervalo de confianza de la diferencia de medias en una prueba T de muestra?

21

SPSS proporciona la salida "intervalo de confianza de las medias de diferencia". He leído en algunos lugares que significa "95 de cada 100 veces, nuestra diferencia de medias de muestra estará entre estos límites". Esto no está claro. ¿Alguien puede sugerir una redacción más clara para explicar el "intervalo de confianza de la diferencia de medias"? Esta salida aparece en el contexto de una prueba t de una muestra.

confidence-interval

— Ana
fuente

1

¿Cuál es tu interpretación?

— mpiktas

1

Tenga en cuenta que no hay nada especial en que sea una proporción: un IC para la estimación de cualquier cosa se interpretará de manera similar. (Sin embargo, se pueden usar diferentes procedimientos para construir el IC, dependiendo de lo que se esté estimando). En consecuencia, esta pregunta es exactamente la misma que las preguntas anteriores que solicitan interpretaciones de los IC.

— whuber

13

Esto no es fácil, incluso para los estadísticos respetados. Mira un intento reciente de Nate Silver :

... si te pidiera que me dijeras con qué frecuencia tu viaje dura 10 minutos más que el promedio, algo que requiere alguna versión de un intervalo de confianza, tendrías que pensar un poco en eso ...

(del blog FiveThirtyEight en el New York Times, 29/09/10.) Este no es un intervalo de confianza. Dependiendo de cómo lo interprete, es un intervalo de tolerancia o un intervalo de predicción. (De lo contrario, no hay nada que pase con la excelente discusión del Sr. Silver sobre la estimación de probabilidades; es una buena lectura). Muchos otros sitios web (particularmente aquellos con un enfoque de inversión) confunden de manera similar los intervalos de confianza con otros tipos de intervalos.

El New York Times se ha esforzado por aclarar el significado de los resultados estadísticos que produce e informa. La letra pequeña debajo de muchas encuestas incluye algo como esto:

En teoría, en 19 casos de 20, los resultados basados en tales muestras de todos los adultos diferirán en no más de tres puntos porcentuales en cualquier dirección de lo que se habría obtenido al tratar de entrevistar a todos los adultos estadounidenses.

( por ejemplo , cómo se realizó la encuesta , 5/2/2011.)

Un poco prolijo, quizás, pero claro y preciso: esta declaración caracteriza la variabilidad de la distribución muestral de los resultados de la encuesta. Eso se está acercando a la idea del intervalo de confianza, pero no está del todo allí. Sin embargo, uno podría considerar el uso de tales palabras en lugar de intervalos de confianza en muchos casos.

Cuando hay tanta confusión potencial en Internet, es útil recurrir a fuentes autorizadas. Uno de mis favoritos es el texto de Freedman, Pisani y Purves, Estadísticas. Ahora en su cuarta edición, se ha utilizado en universidades por más de 30 años y destaca por sus explicaciones claras y claras y su enfoque en los métodos clásicos "frecuentas". Veamos qué dice sobre la interpretación de los intervalos de confianza:

El nivel de confianza del 95% dice algo sobre el procedimiento de muestreo ...

[en p. 384; todas las citas son de la tercera edición (1998)]. Continúa,

Si la muestra hubiera salido diferente, el intervalo de confianza habría sido diferente. ... Para aproximadamente el 95% de todas las muestras, el intervalo ... cubre el porcentaje de la población, y para el otro 5% no.

[pags. 384]. El texto dice mucho más acerca de los intervalos de confianza, pero esto es suficiente para ayudar: su enfoque es mover el foco de discusión a la muestra, a la vez que aporta rigor y claridad a las declaraciones. Por lo tanto, podríamos intentar lo mismo en nuestros propios informes. Por ejemplo, apliquemos este enfoque para describir un intervalo de confianza de [34%, 40%] alrededor de una diferencia porcentual informada en un experimento hipotético:

"Este experimento utilizó una muestra de sujetos seleccionados al azar y una selección aleatoria de controles. Reportamos un intervalo de confianza del 34% al 40% para la diferencia. Esto cuantifica la confiabilidad del experimento: si las selecciones de sujetos y controles hubieran sido diferentes , este intervalo de confianza cambiaría para reflejar los resultados para los sujetos y controles elegidos. En el 95% de estos casos el intervalo de confianza incluiría la verdadera diferencia (entre todos los sujetos y todos los controles) y en el otro 5% de los casos no Por lo tanto, es probable, pero no seguro, que este intervalo de confianza incluya la verdadera diferencia: es decir, creemos que la verdadera diferencia se encuentra entre 34% y 40% ".

(Este es mi texto, que seguramente se puede mejorar: invito a los editores a trabajar en él).

Una declaración larga como esta es algo difícil de manejar. En los informes reales, la mayor parte del contexto (muestreo aleatorio, sujetos y controles, posibilidad de variabilidad) ya se habrá establecido, haciendo innecesaria la mitad de la declaración anterior. Cuando el informe establece que existe una variabilidad de muestreo y exhibe un modelo de probabilidad para los resultados de la muestra, generalmente no es difícil explicar un intervalo de confianza (u otro intervalo aleatorio) tan clara y rigurosamente como la audiencia lo necesita.

— whuber
fuente

Gracias Whuber, entiendo los intervalos de confianza para un medio bastante bien. Es el IC para una diferencia de medias (entre una muestra y pop) donde me confundo.

— Anne

@ Anne ¿A qué te refieres? Ni su pregunta ni ninguna de las respuestas se refieren a una diferencia entre una media de muestra y una media de población, por lo que puedo decir. Su pregunta parece referirse a la diferencia entre dos medias de muestra (quizás entre la media de un grupo de sujetos experimentales y un grupo de controles).

— whuber

El ejemplo en el que estoy pensando es donde está buscando una diferencia entre una muestra y la media de la población. En este caso, ¿qué significa exactamente el IC entre muestra y pop? Hemos utilizado la media muestral para estimar la desviación estándar de pop y, por lo tanto, estamos estimando el IC alrededor de la estimación media. La diferencia de medias no es la diferencia entre la media pop que hemos proporcionado y la media muestral. ¿Así que qué es lo?

— Anne

1

@ Anne ¿Es la "media de la población" la media hipotética y desconocida de la población que se está muestreando o es la media medida de otra población que se ha muestreado exhaustivamente? Además, ¿en qué sentido utilizó la "media muestral" para estimar la desviación estándar de la población ? ¿Es eso quizás un error tipográfico?

— whuber

2

@whuber gracias. Su línea "Los IC calculados para el 95% de todas las muestras (es decir, el 95% de todas las réplicas posibles) cubrirán esa verdadera diferencia". para mí es más claro que "95 de cada 100 veces, nuestra muestra de la diferencia de medias será entre estos límites" y su explicación tiene sentido lógico.

— Anne

5

Desde un punto de vista técnico pedante, personalmente no creo que haya una "redacción clara" de la interpretación de los intervalos de confianza.

Interpretaría un intervalo de confianza como: hay un 95% de probabilidad de que el intervalo de confianza del 95% cubra la verdadera diferencia de medias

Una interpretación de esto es que si tuviéramos que repetir todo el experimento veces, bajo las mismas condiciones, entonces tendríamos $N$ $N$ intervalos de confianza diferentes. El nivel de confianza es la proporción de estos intervalos que contienen la verdadera diferencia de medias.

Mi propia objeción personal con la lógica de tal razonamiento es que esta explicación de los intervalos de confianza requiere que ignoremos el otro $N-1$ muestras al calcular nuestro intervalo de confianza. Por ejemplo, si tuviera un tamaño de muestra de 100, ¿iría y calcularía 100 intervalos de confianza del 95% de "1 muestra"?

Pero tenga en cuenta que todo esto está en la filosofía. Los intervalos de confianza son mejor dejar vagos en la explicación, creo. Dan buenos resultados cuando se usan correctamente.

— probabilidadislogica
fuente

Comenzar una nueva oración después de "N intervalos de confianza diferentes". no fluye bien con "puedes seguir interpretando esto como diciendo ...". Sugiero modificar el tercer párrafo.

— Theta30

2

Tu tercer párrafo es mucho mejor que el segundo. Condicional a los datos observados, el intervalo de confianza contiene el verdadero valor del parámetro o no.

— cardenal

@probabilityislogic: Dado que esta respuesta ha sido aceptada, considere editar su segundo párrafo. Además, ¿puede aclarar qué quiere decir en su penúltimo párrafo? Como se lee, no estoy muy seguro de qué argumento estás haciendo.

— cardenal

Si interpretamos los intervalos de confianza en términos de "repetición" del experimento, entonces debemos ignorar los experimentos previos en estas repeticiones. Mi punto es: ¿por qué la ignorancia de los experimentos previos en estas "repeticiones" de intervalos de confianza es buena para aquellos conjuntos de datos que no hemos observado, pero debemos agrupar los datos para los datos que hemos observado? ¿No tendría tanto sentido (por lo que entiendo sobre la interpretación de CI) producir tantos CI como sea posible con los datos que tiene?

— probabilistico

1

Existe una teoría completa, en gran medida paralela a la teoría de decisión óptima, sobre conjuntos de confianza uniformemente más precisos. Tal vez esa sea la pieza del rompecabezas que falta para ti. (?)

— cardenal

3

La respuesta aproximada a la pregunta es que un intervalo de confianza del 95% le permite tener una confianza del 95% de que el valor del parámetro verdadero se encuentra dentro del intervalo. Sin embargo, esa respuesta aproximada es incompleta e inexacta.

Lo incompleto radica en el hecho de que no está claro que "95% de confianza" significa algo concreto, o si lo hace, entonces ese significado concreto no sería acordado universalmente ni siquiera por una pequeña muestra de estadísticos. El significado de confianza depende de qué método se utilizó para obtener el intervalo y de qué modelo de inferencia se está utilizando (que espero se aclare más adelante).

¡La inexactitud radica en el hecho de que muchos intervalos de confianza no están diseñados para decirle nada sobre la ubicación del valor del parámetro verdadero para el caso experimental particular que produjo el intervalo de confianza! Eso será sorprendente para muchos, pero se deduce directamente de la filosofía de Neyman-Pearson que se establece claramente en esta cita de su artículo de 1933 "Sobre el problema de las pruebas más eficientes de hipótesis estadísticas":

Nos inclinamos a pensar que, en lo que respecta a una hipótesis particular, ninguna prueba basada en la teoría de la probabilidad puede proporcionar por sí misma ninguna evidencia valiosa de la verdad o falsedad de esa hipótesis.

Pero podemos ver el propósito de las pruebas desde otro punto de vista. Sin esperar saber si cada hipótesis separada es verdadera o falsa, podemos buscar reglas para gobernar nuestro comportamiento con respecto a ellas, y luego asegurarnos de que, a largo plazo, no nos equivoquemos demasiado.

¡Por lo tanto, los intervalos que se basan en la 'inversión' de las pruebas de hipótesis NP heredarán de esa prueba la naturaleza de haber conocido propiedades de error a largo plazo sin permitir la inferencia sobre las propiedades del experimento que las produjo! Tengo entendido que esto protege contra la inferencia inductiva, que Neyman aparentemente consideró una abominación.

Neyman afirma explícitamente el término "intervalo de confianza" y el origen de la teoría de los intervalos de confianza en su artículo de Biometrika de 1941 "Argumento fiduciario y la teoría de los intervalos de confianza". En cierto sentido, entonces, cualquier cosa que sea adecuadamente un intervalo de confianza juega con sus reglas y, por lo tanto, el significado de un intervalo individual solo puede expresarse en términos de la tasa de largo plazo a la que los intervalos calculados por ese método contienen (cubren) el verdadero valor del parámetro

Ahora necesitamos bifurcar la discusión. Un capítulo sigue la noción de "cobertura", y el otro sigue intervalos no Neymanianos que son como intervalos de confianza. Diferiré el primero para poder completar esta publicación antes de que sea demasiado larga.

Existen muchos enfoques diferentes que producen intervalos que podrían denominarse intervalos de confianza no nemanianos. El primero de ellos son los intervalos fiduciales de Fisher. (La palabra 'fiducial' puede asustar a muchos y provocar sonrisas burlonas de otros, pero lo dejaré de lado ...) Para algunos tipos de datos (p. Ej., Normal con varianza de población desconocida) los intervalos calculados por el método de Fisher son numéricamente idénticos a intervalos que serían calculados por el método de Neyman. Sin embargo, invitan a interpretaciones que son diametralmente opuestas. Los intervalos de Neymanian reflejan solo las propiedades de cobertura a largo plazo del método, mientras que los intervalos de Fisher están destinados a apoyar la inferencia inductiva con respecto a los valores de parámetros verdaderos para el experimento particular que se realizó.

El hecho de que un conjunto de límites de intervalo pueda provenir de métodos basados en cualquiera de los dos paradigmas filosóficamente distintos conduce a una situación realmente confusa: los resultados se pueden interpretar de dos maneras contradictorias. Del argumento fiducial hay una probabilidad del 95% de que un intervalo fiducial particular del 95% contendrá el valor del parámetro verdadero. Por el método de Neyman, solo sabemos que el 95% de los intervalos calculados de esa manera contendrán el valor del parámetro verdadero, y tienen que decir cosas confusas sobre la probabilidad de que el intervalo que contiene el valor del parámetro verdadero sea desconocido pero 1 o 0.

En gran medida, el enfoque de Neyman ha dominado el de Fisher. Eso es muy desafortunado, en mi opinión, porque no conduce a una interpretación natural de los intervalos. (Vuelva a leer la cita anterior de Neyman y Pearson y vea si coincide con su interpretación natural de los resultados experimentales. Lo más probable es que no sea así).

Si un intervalo puede interpretarse correctamente en términos de tasas de error globales, pero también correctamente en términos de inferencia local, no veo una buena razón para prohibir a los usuarios de intervalos la interpretación más natural que ofrece este último. Por lo tanto, mi sugerencia es que la interpretación adecuada de un intervalo de confianza es AMBAS de las siguientes:

Neymanian: este intervalo del 95% se construyó mediante un método que produce intervalos que cubren el verdadero valor del parámetro en el 95% de las ocasiones a largo plazo (... de nuestra experiencia estadística).
Pescador: este intervalo del 95% tiene una probabilidad del 95% de cubrir el valor del parámetro verdadero.

(Los métodos bayesianos y de probabilidad también generarán intervalos con propiedades frecuentas deseables. Dichos intervalos invitan a interpretaciones ligeramente diferentes que probablemente se sentirán más naturales que el Neymaniano).

— Michael Lew
fuente

@Micheal: el lugar en el que diferirán es que un intervalo fudicial debe basarse en una estadística suficiente y condicionarse en todas las cantidades auxiliares. El intervalo de confianza de Neymans no requiere esta propiedad, por lo que están sujetos al "intervalo de confianza del 95%" que tiene una cobertura variable para subclases particulares de muestras.

— probabilityislogic

@probability - ¿Puedes ampliar eso? ¿Quiere decir que hay circunstancias en las que un intervalo de confianza Neymanian del 95% es un intervalo de confianza pero no es un intervalo del 95%? ¿Cuáles serían esas circunstancias? ¿Tendría el intervalo Fisherian los mismos límites en esas circunstancias?

— Michael Lew

Puede mostrar casos en los que puede deducir de la muestra que un intervalo de confianza del "95%" no contiene el valor verdadero. El ejemplo 5 y el ejemplo 6 en el artículo de Jaynes dan dos casos en los que el no uso de estadísticas suficientes en los IC proporcionará la cobertura a largo plazo, pero la cobertura variará en ciertas clases de muestras. Es análogo a tener dos variables con el mismo promedio (cobertura a largo plazo) pero con una varianza diferente (cobertura en un caso específico)

— Probabilidad

2

El significado de un intervalo de confianza es: si repitiera su experimento exactamente de la misma manera (es decir: el mismo número de observaciones, extrayendo de la misma población, etc.), y si sus suposiciones son correctas, y calcularía ese intervalo nuevamente en cada repetición, entonces este intervalo de confianza contendría la prevalencia verdadera en el 95% de las repeticiones (en promedio).

Entonces, podría decir que está 95% seguro (si sus suposiciones son correctas, etc.) de que ahora ha construido un intervalo que contiene la prevalencia verdadera.

Esto generalmente se expresa como: con un 95% de confianza, entre el 4.5 y el 8.3% de los hijos de madres que fumaron durante el embarazo se vuelven obesos.

Tenga en cuenta que esto generalmente no es interesante en sí mismo: probablemente desee comparar esto con la prevalencia en hijos de madres que no fumaron (odds ratio, riesgo relativo, etc.)

— Nick Sabbe
fuente

(Esta respuesta, que llegó aquí después de una fusión de dos hilos, responde a una pregunta duplicada enmarcada en términos de un IC de una proporción.)

— whuber

0

Si la verdadera diferencia de medias está fuera de este intervalo, entonces solo hay un 5% de posibilidades de que la diferencia de medias de nuestro experimento esté muy lejos de la verdadera diferencia de medias.

— Thomas Levine
fuente

¿Qué quieres decir con "tan lejos"? ¿Es este el límite superior del IC que está lejos o la media observada?

— probabilityislogic

La distancia entre la media verdadera y la media observada es lo que quiero decir con "tan lejos". Voy a cambiarlo a "muy lejos"; Creo que eso está un poco más claro.

— Thomas Levine

-2

Mi interpretación: si realiza el experimento N veces (donde N tiende al infinito), de este gran número de experimentos, el 95% de los experimentos tendrá intervalos de confianza que se encuentran dentro de estos límites del 95%. Más claramente, digamos que esos límites son "a" y "b", entonces 95 de cada 100 veces la diferencia media de su muestra se ubicará entre "a" y "b". Supongo que comprende que diferentes experimentos pueden tener diferentes muestras para cubrir fuera de toda la población.

— ayush biyani
fuente

@ Ayush. Gracias. Eso es de ayuda. Lo siento, no sigo tu frase final.

— Anne

@anne - Ok. Lo que quiero decir es que si quieres probar la media entre dos muestras y digamos que cada muestra tiene 1000 personas, puedes definir infinitas muestras de ella (de digamos 40 personas de cada una). Escribí esto para decir por qué los diferentes experimentos difieren entre sí ... Los experimentos en los que observamos el intervalo de confianza.

— ayush biyani

2

@ayush: esta no es la interpretación correcta en su segunda última oración. O al menos debe agregar subíndices a "a" y "b", lo que deja en claro que son estas cantidades las que varían más de 100 veces. Su notación actual hace que parezca que "a" y "b" son cantidades fijas.

— probabilidadislogica

@probabilityislogic: de acuerdo ... los subíndices son necesarios.

— ayush biyani

1

@Ayush (-1) La caracterización que aparece actualmente en su respuesta se puede interpretar de varias maneras, la mayoría de las cuales (por lo tanto) son incorrectas. Por ejemplo, intervalos de confianza

[a, b]

$[a,b]$ generalmente se construyen para contener la "diferencia de medias muestrales", lo que implica que esta diferencia se ubicará entre los límites el 100% del tiempo, pase lo que pase.

— whuber

-2

"95 veces de 100, su valor caerá dentro de una desviación estándar de la media"

— principiantes
fuente

44

Bienvenido al sitio, @beginnerstat. Me pregunto si querías decir " dos desviaciones estándar de la media". Además, no estoy seguro de ver cómo esta redacción mejora lo que el OP ha leído en otros lugares. ¿Te gustaría elaborar un poco?

— gung - Restablece a Monica

1

Sí al comentario de @gung: Estoy particularmente interesado en comprender el sentido en el que se usan "mean" y "SD" aquí. ¿Se refieren a parámetros subyacentes o a estimaciones de muestra ? ¿Se refieren a la distribución de una variable aleatoria subyacente o a la distribución muestral de la media de las variables iid de dicha distribución?

— whuber