La explicación en la página referenciada es
Según la hipótesis nula, la probabilidad es exactamente cuando se tienen en cuenta tanto la aleatoriedad en los datos como la aleatoriedad en la simulación.Pr(P≤k/nsim)k/nsim
Para entender esto, debemos mirar el código, del cual las líneas clave (abreviadas considerablemente) son
fred <- function(x) {ks.test(...)$statistic} # Apply a statistical test to an array
d.hat <- fred(x) # Apply the test to the data
d.star <- apply(matrix(rnorm(n*nsim), n, nsim),
2, fred) # Apply the test to nsim simulated datasets
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)# Estimate a simulation p-value
El problema principal es que el código no coincide con la cita. ¿Cómo podemos reconciliarlos? Un intento comienza con la última mitad de la cita. Podríamos interpretar que el procedimiento comprende los siguientes pasos:
Collect independiente e idénticamente distribuidos datos de acuerdo con una ley de probabilidad . Aplique un procedimiento de prueba (implementado en el código como ) para producir el número .X1,X2,…,XnGtfred
T0=t(X1,…,Xn)
Generar a través de ordenador conjuntos de datos comparables, cada una de tamaño , de acuerdo con una hipótesis nula con ley de probabilidad . Aplique a cada conjunto de datos para producir números .N=nsimnFtNT1,T2,…,TN
Calcule
P=(∑i=1NI(Ti>T0)+1)/(N+1).
(" " es la función del indicador implementada por la comparación de valores vectoriales en el código). Se entiende que el lado derecho es aleatorio en virtud de la aleatoriedad simultánea de (el estadístico de prueba real) y la aleatoriedad de ( las estadísticas de prueba simuladas). Id.star > d.hat
T0Ti
Decir que los datos se ajustan a la hipótesis nula es afirmar que . Elija un tamaño de prueba , . Multiplicar ambos lados por y restar muestra que la probabilidad de que para cualquier número es la probabilidad de que no más de de exceda . Esto dice simplemente que encuentra dentro de la parte superior del conjunto ordenado de todas las estadísticas de prueba . Desde (por construcción)F=Gα0<α<1N+11P≤αα(N+1)α−1TiT0T0(N+1)αN+1T0es independiente de todo , cuando es una distribución continua, esta posibilidad será la fracción del total representada por la parte entera ; es decir, y será exactamente igual a la proporcionada es un número entero ; es decir, cuando .TiF⌊(N+1)α⌋
Pr(P≤α)=⌊(N+1)α⌋N+1≈α
(N+1)αkα=k/(N+1)
Ciertamente, esta es una de las cosas que queremos que sea cierta para cualquier cantidad que merezca ser llamada "valor p": debe tener una distribución uniforme en . Siempre que sea bastante grande, de modo que cualquier esté cerca de alguna fracción de la forma , esta tendrá un valor casi uniforme distribución. (Para conocer las condiciones adicionales requeridas de un valor p, lea el cuadro de diálogo que publiqué sobre el tema de los valores p ) .[0,1]N+1αk/(N+1)=k/(nsim+1)P
Evidentemente, la cita debe usar " " en lugar de " " donde aparezca.nsim+1nsim