¿Por qué querría arrancar al calcular una prueba t de muestra independiente? (cómo justificar, interpretar e informar una prueba t de arranque)

Digamos que tengo dos condiciones, y el tamaño de mi muestra para las dos condiciones es extremadamente bajo. Digamos que solo tengo 14 observaciones en la primera condición y 11 en la otra. Quiero usar la prueba t para probar si las diferencias de medias son significativamente diferentes entre sí.

En primer lugar, estoy un poco confundido acerca de la suposición de normalidad de la prueba t, que podría ser la razón por la que no estoy totalmente haciendo bootstrapping. ¿Es la suposición para la prueba t que (A) los datos se muestrean de una población normal, o (B) que sus distribuciones de muestra tienen propiedades gaussianas? Si es (B), entonces no es realmente una suposición, ¿verdad? Simplemente puede trazar un histograma de sus datos y ver si es normal o no. Sin embargo, si el tamaño de mi muestra es bajo, no tendré suficientes puntos de datos para ver si mi distribución de muestra es normal.

Aquí es donde creo que entra el bootstrapping. Puedo hacer bootstrap para ver si mi muestra es normal, ¿verdad? Al principio pensé que el bootstrapping siempre resultaría en una distribución normal, pero este no es el caso ( ¿Se puede usar el remuestreo Bootstrap para calcular un intervalo de confianza para la varianza de un conjunto de datos? Statexchange statexchange ). Por lo tanto, una de las razones por las que usaría bootstrap es para estar más seguro de la normalidad de sus datos de muestra, ¿correcto?

Sin embargo, en este punto me confundo completamente. Si realizo una prueba t en R con la función t.test y pongo los vectores de muestra bootstrap como las dos muestras independientes, mi valor t simplemente se vuelve increíblemente significativo. ¿No estoy haciendo la prueba t de arranque correctamente? No debo hacerlo, ya que todo lo que está haciendo bootstrapping es solo aumentar mi valor t, ¿no ocurriría esto en todos los casos? ¿Las personas no realizan una prueba t en las muestras cargadas?

Por último, ¿cuál es el beneficio de calcular los intervalos de confianza en un bootstrap versus calcular los intervalos de confianza en nuestra muestra original? ¿Qué me dicen estos intervalos de confianza que los intervalos de confianza en los datos de muestra originales no?

Supongo que estoy confundido sobre (A) por qué usar un bootstrap si solo hará que mi valor t sea más significativo, (B) no estoy seguro de la forma correcta de utilizar bootstrapping cuando se ejecuta una prueba t de muestra independiente, y (C) no estoy seguro cómo informar la justificación, ejecución y resultados de bootstrapping en situaciones de prueba t independientes.

— stat_gurl
fuente

¿No tiene por casualidad muchos más puntos de muestra en sus vectores de muestra bootstrapped que en sus vectores de muestra originales? Si es así, usar los vectores bootstrapped en una prueba t en lugar de los datos originales equivale a aumentar artificialmente el tamaño de la muestra. Esto puede hacer que su valor p sea arbitrariamente pequeño, pero no tiene sentido e ilegítimo.

— ameba

Hay varios malentendidos en su publicación (algunos de los cuales son comunes y es posible que le hayan dicho algo incorrecto porque la persona que le dijo que estaba pasando la información errónea).

Primero es que bootstrap no es el salvador del pequeño tamaño de muestra. Bootstrap en realidad se presenta bastante mal para muestras pequeñas, incluso cuando la población es normal. Esta pregunta, respuesta y discusión deberían arrojar algo de luz sobre eso. También el artículo aquí da más detalles y antecedentes.

Tanto la prueba t como el bootstrap se basan en distribuciones de muestreo, cuál es la distribución de la estadística de prueba.

La prueba t exacta se basa en la teoría y la condición de que la población / proceso que genera los datos es normal. La prueba t es bastante robusta a la suposición de normalidad (en lo que respecta al tamaño de la prueba, la potencia y la precisión pueden ser otra cuestión), por lo que en algunos casos la combinación de "Tamaño de muestra suficientemente normal" y "Tamaño de muestra grande" significa que la distribución de muestreo está "lo suficientemente cerca" de lo normal que la prueba t es una opción razonable.

El bootstrap en lugar de asumir una población normal, utiliza la muestra CDF como una estimación de la población y calcula / estima (generalmente a través de la simulación) la verdadera distribución de muestreo (que puede ser normal, pero no es necesario que sea). Si la muestra hace un trabajo razonable de representar a la población, entonces el bootstrap funciona bien. Pero para tamaños de muestra pequeños es muy fácil para la muestra hacer un trabajo deficiente de representar a la población y los métodos de arranque son pésimos en esos casos (ver la simulación y el papel referenciados anteriormente).

La ventaja de la prueba t es que si todos los supuestos se mantienen (o están cerca), entonces funciona bien (creo que en realidad es la prueba uniformemente más poderosa). La desventaja es que no funciona bien si las suposiciones no son verdaderas (y no están cerca de ser verdad) y hay algunos casos en los que las suposiciones hacen una diferencia mayor que en otros. Y la teoría de la prueba t no se aplica a algunos parámetros / estadísticas de interés, por ejemplo, medios recortados, desviaciones estándar, cuantiles, etc.

La ventaja de bootstrap es que puede estimar la distribución de muestreo sin muchos de los supuestos necesarios para los métodos paramétricos. Funciona para estadísticas distintas de la media y en los casos en que otros supuestos no se cumplen (por ejemplo, 2 muestras, variaciones desiguales). La desventaja de la rutina de carga es que depende mucho de la muestra que representa a la población porque no tiene las ventajas de otros supuestos. El bootstrap no le da normalidad, le da la distribución de muestreo (que a veces parece normal, pero aún funciona cuando no lo es) sin necesidad de suposiciones sobre la población.

Para las pruebas t donde es razonable suponer que la población es normal (o al menos lo suficientemente normal), entonces la prueba t será la mejor (de las 2).

Si no tiene normalidad y tiene muestras pequeñas, no se debe confiar en la prueba t ni en el bootstrap. Para el caso de 2 muestras, una prueba de permutación funcionará bien si está dispuesto a asumir distribuciones iguales (incluidas variaciones iguales) bajo la hipótesis nula. Esta es una suposición muy razonable cuando se realiza un experimento aleatorio, pero puede no serlo cuando se comparan 2 poblaciones separadas (pero si cree que 2 poblaciones pueden tener diferentes extensiones / formas, entonces quizás una prueba de medias no sea la pregunta más interesante o la El mejor lugar para comenzar).

Con tamaños de muestra enormes, la teoría de la muestra grande beneficiará tanto a las pruebas t como al bootstrapping y verá poca o ninguna diferencia al comparar medias.

Con tamaños de muestra moderados, la rutina de arranque puede funcionar bien y puede ser preferible cuando no está dispuesto a hacer las suposiciones necesarias para los procedimientos de la prueba t.

Lo importante es comprender las suposiciones y condiciones que se requieren para los diferentes procedimientos que está considerando y considerar cómo esas condiciones y desviaciones de ellas afectarán su análisis y cómo cree que la población / proceso que produjo sus datos se ajusta a esas condiciones. , la simulación puede ayudarlo a comprender cómo las desviaciones afectan los diferentes métodos. Recuerde que todos los procedimientos estadísticos tienen condiciones y suposiciones (con la posible excepción de SnowsCorrectlySizedButOtherwiseUselessTestOfAnything , pero si usa esa prueba, la gente hará suposiciones sobre usted).

— Greg Snow
fuente

He estado confundido acerca de este punto durante años: ¿la normalidad asintótica de bajo el CLT no es suficiente para la prueba?

\bar{X}

$\bar X$

— shadowtalker

@ssdecontrol, normalidad asintótica / CLT solo significa que una vez que el tamaño de la muestra es lo suficientemente grande, la distribución de muestreo estará lo suficientemente cerca de lo normal, pero no nos dice qué tan grande es lo suficientemente cerca. Para algunas poblaciones, un tamaño de muestra de 6 es lo suficientemente grande, para otras, un tamaño de muestra de 10,000 no es lo suficientemente grande. Es necesario comprender cómo puede ser su población / proceso y considerar alternativas.

— Greg Snow

@GregSnow Todavía me pregunto sobre esto: "Si realizo una prueba t en R con la función t.test y pongo los vectores de muestra bootstrap como las dos muestras independientes, mi valor t simplemente se vuelve increíblemente significativo. ¿No lo soy? haciendo la prueba t de bootstrapped, ¿verdad? No debo, porque todo lo que está haciendo bootstrapping es solo aumentar mi valor t, ¿no ocurriría esto en todos los casos? ¿Las personas no realizan una prueba t en las muestras bootstrapped? "

— Herman Toothrot

@HermanToothrot, no está claro lo que está haciendo cuando dice que coloca la muestra de arranque en la función t-test. Pero la mayoría de las cosas que puedo imaginar con esa descripción están mal. Parece que está convenciendo a la computadora de que el tamaño de su muestra es mucho mayor de lo que realmente es (lo que da más importancia), lo que garantizará respuestas incorrectas / sin sentido. Para obtener una buena comprensión de Bootstrapping requiere más de lo que cabría en un comentario o incluso una respuesta. Realmente deberías tomar una clase que cubra el bootstrap o al menos leer un libro sobre el tema.

— Greg Snow