¿Por qué los valores de p y las estadísticas de prueba de ks disminuyen al aumentar el tamaño de la muestra? Tome este código de Python como ejemplo:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
Los resultados son:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
Intuitivamente, entiendo que a medida que n crece, la prueba es "más segura" de que las dos distribuciones son diferentes. Pero si el tamaño de la muestra es muy grande, ¿cuál es el punto en pruebas de similitud como esta y decir la prueba de Anderson Darling, o la prueba t, porque en tales casos cuando n es muy grande, siempre se encontrará que las distribuciones son "¿¡significativamente diferente!? Ahora me pregunto cuál es el punto de los valores p. Depende mucho del tamaño de la muestra ... si p> 0.05 y desea que sea menor, solo obtenga más datos; y si p <0.05 y desea que sea mayor, simplemente elimine algunos datos.
Además, si las dos distribuciones fueran idénticas, la estadística de prueba ks sería 0 y el valor p 1. Pero en mi ejemplo, a medida que n aumenta, la estadística de prueba ks sugiere que las distribuciones se vuelven más y más similares con el tiempo (disminuye) , pero de acuerdo con el valor p, se vuelven más y diferentes con el tiempo (también disminuye).