Algunos comentarios son, creo, en orden.
1) Le animo a que pruebe varias pantallas visuales de sus datos, ya que pueden capturar cosas que se pierden con los histogramas (como gráficos), y también le recomiendo encarecidamente que dibuje en ejes uno al lado del otro. En este caso, no creo que los histogramas hagan un muy buen trabajo al comunicar las características más destacadas de sus datos. Por ejemplo, eche un vistazo a los diagramas de caja de lado a lado:
boxplot(x1, y1, names = c("x1", "y1"))
O incluso diagramas de tira de lado a lado
stripchart(c(x1,y1) ~ rep(1:2, each = 20), method = "jitter", group.names = c("x1","y1"), xlab = "")
¡Mira los centros, los spreads y las formas de estos! Alrededor de las tres cuartas partes de los datos están muy por encima de la mediana de los datos . La propagación de es pequeña, mientras que la propagación de es enorme. Tanto como están muy sesgadas a la izquierda, pero de diferentes maneras. Por ejemplo, tiene cinco (!) Valores repetidos de cero.y 1 x 1 y 1 x 1 y 1 y 1x1y1x1y1x1y1y1
2) No explicó con mucho detalle de dónde provienen sus datos, ni cómo se midieron, pero esta información es muy importante cuando llega el momento de seleccionar un procedimiento estadístico. ¿Sus dos muestras anteriores son independientes? ¿Hay alguna razón para creer que las distribuciones marginales de las dos muestras deberían ser las mismas (excepto por una diferencia de ubicación, por ejemplo)? ¿Cuáles fueron las consideraciones previas al estudio que lo llevaron a buscar evidencia de una diferencia entre los dos grupos?
3) La prueba t no es apropiada para estos datos porque las distribuciones marginales son marcadamente no normales, con valores extremos en ambas muestras. Si lo desea, puede recurrir al CLT (debido a su muestra de tamaño moderado) para usar una prueba (que sería similar a una prueba z para muestras grandes), pero dada la asimetría (en ambas variables) de sus datos no juzgaría una apelación tan convincente. Claro, puede usarlo de todos modos para calcular un valor , pero ¿qué hace eso por usted? Si los supuestos no se cumplen, entonces un valor es solo una estadística; no dice lo que (supuestamente) quiere saber: si hay evidencia de que las dos muestras provienen de diferentes distribuciones.p pzpp
4) Una prueba de permutación también sería inapropiada para estos datos. La suposición única y a menudo pasada por alto para las pruebas de permutación es que las dos muestras son intercambiables bajo la hipótesis nula. Eso significaría que tienen distribuciones marginales idénticas (bajo nulo). Pero está en problemas, porque los gráficos sugieren que las distribuciones difieren tanto en ubicación como en escala (y también en forma). Por lo tanto, no puede probar (válidamente) una diferencia de ubicación porque las escalas son diferentes, y no puede probar (válidamente) una diferencia de escala porque las ubicaciones son diferentes. Ups De nuevo, puedes hacer la prueba de todos modos y obtener un valor , pero ¿y qué? ¿Qué has logrado realmente?p
5) En mi opinión, estos datos son un ejemplo perfecto (?) De que una imagen bien elegida vale 1000 pruebas de hipótesis. No necesitamos estadísticas para diferenciar entre un lápiz y un granero. La declaración apropiada en mi opinión para estos datos sería "Estos datos exhiben marcadas diferencias con respecto a la ubicación, escala y forma". Puede hacer un seguimiento con estadísticas descriptivas (robustas) para cada una de ellas para cuantificar las diferencias y explicar qué significan las diferencias en el contexto de su estudio original.
6) Su revisor probablemente (y tristemente) va a insistir en algún tipo de valor como condición previa para la publicación. ¡Suspiro! Si fuera yo, dadas las diferencias con respecto a todo , probablemente usaría una prueba no paramétrica de Kolmogorov-Smirnov para escupir un valor que demuestre que las distribuciones son diferentes, y luego proceder con estadísticas descriptivas como arriba. Debería agregar algo de ruido a las dos muestras para deshacerse de los lazos. (Y, por supuesto, todo esto supone que sus muestras son independientes, lo que no indicó explícitamente).ppp
Esta respuesta es mucho más larga de lo que originalmente pretendía que fuera. Lo siento por eso.