Me parece que Ellis podría estar refiriéndose a hasta tres ideas distintas aquí. Primero dice algo sobre la creación de "datos simulados generados por un modelo bajo la hipótesis nula de ninguna relación". Yo llamaría a esto una forma de arranque paramétrico . Luego dice que esto se basaría "probablemente en volver a muestrear los tiempos entre cada evento (por ejemplo, entre cada bostezo) para crear un nuevo conjunto de marcas de tiempo para eventos hipotéticos de modelos nulos". Lo cual, seamos claros aquí, hacer esto no es "crear datos simulados". En cambio, si entiendo correctamente, estamos volviendo a tomar muestras de nuestros datos realmente observados. Este último procedimiento es una prueba de permutación o un arranque no paramétrico ,
Supongo que debería decir algunas palabras más sobre bootstrapping paramétrico, pruebas de permutación y bootstrapping no paramétrico.
Por lo general, el bootstrapping paramétrico se realiza mediante la simulación basada en el modelo realmente estimado, y no en un modelo hipotético que sea igual al modelo estimado, excepto que la hipótesis nula se supone verdadera, como parece sugerir Ellis al principio. Por "simular datos" me refiero a algo así como un ejemplo: mi modelo establece que mis datos provienen de dos grupos, cada uno con una distribución normal, con mediasμ1 y μ2, respectivamente, y desviación estándar σ, así que generaré muchos conjuntos de datos que satisfacen esto y utilizaré la distribución de estadísticas de prueba calculadas a partir de cada uno de estos conjuntos de datos simulados como mi distribución de muestreo. Tenga en cuenta que estoy creando estos datos usando algo como rnorm()
in R
, no usando directamente mis datos observados. Ahora, uno ciertamente podría hacer este procedimiento y obtener una especie de distribución de muestreo bajo la hipótesis nula de, por ejemplo, no hay diferencia en las medias grupales, simplemente asumiríamosμ1=μ2en todos los conjuntos de datos simulados, al contrario de lo que realmente observamos, y de esta manera obtenemos un valor p de arranque (en lugar de un intervalo de confianza de arranque, que es lo que le proporciona el método anterior / tradicional). Nuevamente, simplemente llamaría a esto una forma de obtener un valor p a través de bootstrapping paramétrico.
Una prueba de permutación, por otro lado, implica barajar sus datos observados una y otra vez de una manera que sea consistente con la hipótesis nula. Entonces, por ejemplo, si la hipótesis nula implica que la asignación de grupo no hace ninguna diferencia en términos de las medias grupales, puede barajar aleatoriamente las etiquetas de grupo entre todas sus observaciones muchas veces y ver qué diferencias promedio obtendría para todas las formas posibles de barajar De este modo. Y luego vería en qué parte de la distribución de estadísticas de prueba calculadas a partir de estos conjuntos de datos mezclados se encuentra su estadística observada real. Tenga en cuenta que hay un número finito (pero generalmente grande) de formas en que puede barajar sus datos realmente observados.
Finalmente, el bootstrapping no paramétrico es muy similar a la prueba de permutación, pero volvemos a muestrear los datos observados con reemplazopara intentar acercarnos a una "población" infinita de valores de los que podrían haberse extraído nuestros datos. Hay muchas, muchas más formas de volver a muestrear sus datos con reemplazo que de mezclar sus datos (aunque también es técnicamente finito en la práctica). Nuevamente, similar al arranque paramétrico, esto generalmente no se hace bajo la hipótesis nula, sino bajo el modelo implícito en los datos observados, produciendo intervalos de confianza alrededor de las estadísticas de prueba observadas, no los valores p. Pero uno ciertamente podría imaginar hacer esto bajo la hipótesis nula como sugiere Ellis y obtener valores p de esta manera. Como un ejemplo de bootstrapping no paramétrico aquí (en la forma tradicional, es decir, nobajo la hipótesis nula) usando el mismo ejemplo de diferencia en el grupo de medias que utilicé en el párrafo de bootstrapping paramétrico, para hacer esto, volveríamos a muestrear con el reemplazo de las observaciones dentro de cada grupo muchas veces pero sin mezclar las observaciones entre grupos (a diferencia de la permutación prueba), y construir la distribución de muestreo de las diferencias de medias grupales que obtenemos de esta manera.