"Los lazos no deberían estar presentes" en una prueba de Kolmgorov-Smirnov de una muestra en R


12

Voy a usar la prueba de Kolmogorov-Smirnov para evaluar la normalidad de MYDATA en R. Este es un ejemplo de lo que hago

 ks.test(MYDATA,"pnorm",mean(MYDATA),sd(MYDATA))

Aquí está el resultado que me da R:

 data:  MYDATA
 D = 0.13527, p-value = 0.1721
 alternative hypothesis: two-sided

 Warning message:
 In ks.test(MYDATA, "pnorm", mean(MYDATA), sd(MYDATA)) :
    ties should not be present for the Kolmogorov-Smirnov test

Creo que hay un problema, ¿qué significa "lazos" en esta advertencia?


2
¿Por qué desea realizar esta prueba de normalidad? En la mayoría de los casos, probar la normalidad de una variable es bastante inútil , aunque probar la normalidad de los residuos después de una regresión puede ser importante.
EdM

2
Incluso sin vínculos, la prueba KS no es una prueba de normalidad general, sino de una distribución completamente especificada (está estimando la media y la desviación estándar de los datos). Sus valores p no tendrán sentido. Busque en nuestro sitio referencias a la prueba de Lilliefors
Glen_b -Reinstale a Monica el

Respuestas:


10

Tienes dos problemas aquí:

La prueba KS es para una distribución continua, por lo que MYDATA no debe contener ningún vínculo (valores repetidos).

La teoría subyacente a la prueba KS no le permite estimar los parámetros de la distribución a partir de los datos como lo ha hecho. La ayuda para ks.test explica esto.


¿Por qué ks.testen un caso de dos muestras quiere que se eliminen los lazos de ambos xy y? Quiero decir, no tengo vínculos en xy y( unique(x)y unique(y)), pero los dos vectores tienen un valor en común. ¿No deberían considerarse los lazos solo entre los valores in xy in y?
Nemesi

@Nemesi si tiene una nueva pregunta, hágala como tal utilizando el botón Preguntar.
mdewey

Pensé que esto no era suficiente para ser una pregunta diferente, pero aquí está: stats.stackexchange.com/questions/389151/…
Nemesi

5

Como explicó @mdewey, la prueba KS no es adecuada al estimar los parámetros a partir de los datos. Puede usar el siguiente código, que se basa en la prueba de normalidad Anderson-Darling y no requiere que proporcione la media y el estándar. Esta prueba es más fuerte en precisión que la prueba de Lilliefors.

install.packages("nortest")
library(nortest)
ad.test(MYDATA)

"Precisión" puede ser para una búsqueda estrecha pero equivocada. En ambos casos, la mayoría de las aplicaciones de cualquiera de estas pruebas es, en el peor de los casos, inútil y, en la mayoría de los casos, engañosa. Las personas a menudo aprenden a usarlas por personas con una comprensión errónea de los supuestos sobre los métodos de regresión. Sospecho que la relativa debilidad de la prueba KS haría que sea realmente "mejor" usar las alternativas más potentes, ya que sus resultados serían menos propensos a confundir al usuario ingenuo.
DWin
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.