Pruebas de normalidad apropiadas para muestras pequeñas.


22

Hasta ahora, he estado usando la estadística de Shapiro-Wilk para probar los supuestos de normalidad en muestras pequeñas.

¿Podrías recomendarme otra técnica?


1
Aquí hay un par de otras preguntas de posible interés: la prueba de normalidad es esencialmente inútil , para una discusión sobre el valor de la prueba de normalidad, y qué pasa si los residuos se distribuyen normalmente, pero es y no , para una discusión / aclaración del sentido en el que la normalidad es una suposición de un modelo lineal.
gung - Restablece a Monica

3
El Wilk en Shapiro-Wilk se refiere a Martin B. Wilk. Es muy fácil escribir "Wilks" especialmente (a) si alguien más dijo o escribió eso y estás copiando (b) sabes sobre el trabajo en estadísticas de Samuel S. Wilks, una persona bastante diferente (c) que obtienes confundido acerca de la "s" terminal en inglés, dados sus otros usos para los plurales (estadísticas, gatos, perros, ...) y posesivos ('s), que es común incluso entre aquellos cuyo primer idioma es el inglés. He editado este hilo en la medida de lo posible; No puedo llegar a los comentarios.
Nick Cox

Respuestas:


24

El paquete fBasics en R (parte de Rmetrics ) incluye varias pruebas de normalidad , cubriendo muchas de las pruebas frecuentes más frecuentes : Kolmogorov-Smirnov, Shapiro-Wilk, Jarque – Bera y D'Agostino, junto con un envoltorio para las pruebas de normalidad. en el paquete del noreste : Anderson – Darling, Cramer – von Mises, Lilliefors (Kolmogorov-Smirnov), Pearson chi – cuadrado y Shapiro – Francia. La documentación del paquete también proporciona todas las referencias importantes. Aquí hay una demostración que muestra cómo usar las pruebas del noreste .

Un enfoque, si tiene tiempo, es usar más de una prueba y verificar si hay acuerdo. Las pruebas varían de varias maneras, por lo que no es del todo sencillo elegir "el mejor". ¿Qué usan otros investigadores en su campo? Esto puede variar y puede ser mejor seguir los métodos aceptados para que otros acepten su trabajo. Con frecuencia uso la prueba Jarque-Bera, en parte por esa razón, y Anderson-Darling para comparar.

Puede consultar "Comparación de pruebas de normalidad univariante" (Seier 2002) y "Una comparación de varias pruebas de normalidad" (Yazici; Yolacan 2007) para una comparación y discusión de los problemas.

También es trivial probar estos métodos para compararlos en R, gracias a todas las funciones de distribución . Aquí hay un ejemplo simple con datos simulados (no imprimiré los resultados para ahorrar espacio), aunque se requeriría una exposición más completa:

library(fBasics); library(ggplot2)
set.seed(1)

# normal distribution
x1 <- rnorm(1e+06)   
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)

# cauchy distribution
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)

Una vez que tenga los resultados de las diversas pruebas sobre diferentes distribuciones, puede comparar cuáles fueron las más efectivas. Por ejemplo, el valor p para la prueba Jarque-Bera anterior arrojó 0.276 para la distribución normal (aceptando) y <2.2e-16 para el cauchy (rechazando la hipótesis nula).


Gracias Shane, gran respuesta! Bueno, "los otros" de mi campo a menudo usan SPSS, por lo que usan Kolmogorov-Smirnov (si verifican la normalidad), aunque en mi humilde opinión, la prueba de Lilliefors es una mejor opción cuando los datos se obtienen de una muestra (cuando los parámetros son desconocido). Me enseñaron que Shapiro-Wilk's es apropiado para muestras pequeñas, y solo quería obtener más información sobre las "pruebas de normalidad de muestras pequeñas" ... ¡Por cierto, uso el norte en R! =)
aL3xa

12

Para la normalidad, Shapiro-Wilk real tiene buen poder en muestras bastante pequeñas.

El principal competidor en los estudios que he visto es el general Anderson-Darling, que lo hace bastante bien, pero no diría que fue mejor. Si puede aclarar qué alternativas le interesan, posiblemente una mejor estadística sería más obvia. [editar: si estima los parámetros, la prueba de AD debe ajustarse para eso.]

[Recomiendo enfáticamente no considerar Jarque-Bera en muestras pequeñas (que probablemente mejor conocido como Bowman-Shenton en círculos estadísticos, estudiaron la distribución de muestras pequeñas). La distribución articular asintótica de asimetría y curtosis no se parece en nada a la distribución de muestras pequeñas, de la misma manera que un plátano no se parece mucho a una naranja. También tiene muy poca potencia contra algunas alternativas interesantes, por ejemplo, tiene poca potencia para recoger una distribución bimodal simétrica que tiene curtosis cercana a la de una distribución normal.]

Con frecuencia, las personas evalúan la bondad de ajuste por lo que resultan ser razones no particularmente buenas, o responden una pregunta diferente de la que realmente quieren responder.

Por ejemplo, es casi seguro que ya sabe que sus datos no son realmente normales (no exactamente), por lo que no tiene sentido intentar responder una pregunta para la que conoce la respuesta, y la prueba de hipótesis en realidad no la responde de todos modos .

Dado que ya no tiene una normalidad exacta, su prueba de hipótesis de normalidad realmente le está dando una respuesta a una pregunta más cercana a "¿mi tamaño de muestra es lo suficientemente grande como para detectar la cantidad de no normalidad que tengo", mientras que la pregunta real que le interesa responder suele estar más cerca de "¿cuál es el impacto de esta no normalidad en estas otras cosas que me interesan?". La prueba de hipótesis mide el tamaño de la muestra, mientras que la pregunta que le interesa responder no depende mucho del tamaño de la muestra.

Hay momentos en que las pruebas de normalidad tienen sentido, pero esas situaciones casi nunca ocurren con muestras pequeñas.

¿Por qué estás probando la normalidad?


Gracias por una gran respuesta, y una gran pregunta después. Es crucial tener una idea de los antecedentes del problema. Bueno, muchas veces he visto personas que hacen la prueba t, Pearson r o ANOVA sin tener ni idea de la forma de distribución (que a menudo es muy sesgada): las técnicas paramétricas "necesitan" un supuesto de normalidad satisfecho. En psicología (que es mi campo de interés), a menudo tratamos con pequeñas muestras, por lo tanto, necesito una prueba de normalidad adecuada.
aL3xa

55
Pero la normalidad nunca se satisface. A veces es una descripción razonable de los datos, pero en realidad no son normales. Si bien es sensato verificar la no normalidad cuando lo asume, no es particularmente útil probarlo (por las razones que describí anteriormente). Hago un diagrama qq, por ejemplo, pero una prueba de hipótesis responde la pregunta incorrecta en esta situación. Las pruebas t y anova generalmente funcionan razonablemente bien si las distribuciones no son muy asimétricas. Un mejor enfoque podría ser utilizar procedimientos que no asuman la normalidad, tal vez técnicas de remuestreo.
Glen_b -Reinstate Monica

O puede usar pruebas no paramétricas, a costa de tener menos potencia. Y nada está absolutamente satisfecho en las estadísticas, no es solo un problema de normalidad. Sin embargo, bootstrapping o jackknifing no son una solución al presentar a alguien a la prueba t y / o los supuestos ANOVA. Dudo que las técnicas de remuestreo resuelvan los problemas de normalidad. Se debe verificar la normalidad tanto gráficamente (diagrama de densidad, diagrama de caja, diagrama QQ, histograma) como "numéricamente" (pruebas de normalidad, asimetría, curtosis, etc.). ¿Que sugieres? Esto está completamente fuera de tema, pero ¿cómo comprobaría, por ejemplo, los supuestos de normalidad de ANOVA?
aL3xa

@ aL3xa Creo que el enfoque de aleatorización es más apropiado dado su campo de investigación; a pesar del hecho de que las pruebas paramétricas habituales proporcionan una buena aproximación a las pruebas de permutación exactas, las pruebas no paramétricas también implican algún tipo de suposición (por ejemplo, sobre la forma de la distribución). Incluso me pregunto cómo podríamos definir realmente qué es una desviación de la normalidad en un estudio de muestra pequeña. Creo que debería pedir más discusión sobre este punto en una pregunta separada.
chl

10

Hay toda una categoría de Wikipedia sobre pruebas de normalidad que incluye:

Creo que AD es probablemente el mejor de ellos.


1
Estoy de acuerdo. Realicé una prueba rápida de la prueba de AD, Jarque-Bera, y la prueba de Spiegelhalter (1983), bajo nulo, con tamaño de muestra 8, repitiendo 10,000 veces. La prueba AD mantiene la tasa de rechazo nominal y da pvallas uniformes, mientras que la prueba JB es terrible, Spiegelhalter es mediocre.
shabbychef

1
@shabbychef La prueba de Jarque-Bera se basa en la normalidad asintótica de la asimetría de la muestra y la curtosis, que no funciona bien incluso para n en los 100 bajos . Pero para obtener la tasa de rechazo deseada, puede ajustar los valores críticos, por ejemplo, en función de los resultados de la simulación, como en la Sección 4.1 de Thadewald, T y H. Buning, 2004, Prueba de Jarque-Bera y sus competidores para probar la normalidad - Una comparación de potencia , Discusión Paper Economics 2004/9, Escuela de Negocios y Economía, Universidad Libre de Berlín.
Silverfish

3

Para completar, a los economometristas también les gusta la prueba de Kiefer y Salmon de su artículo de 1983 en Economics Letters: resume expresiones 'normalizadas' de asimetría y curtosis que luego se distribuye por chi-cuadrado. Tengo una versión antigua de C ++ que escribí durante la escuela de posgrado que podría traducir a R.

Editar: Y aquí hay un artículo reciente de Bierens (re) derivando Jarque-Bera y Kiefer-Salmon.

Edición 2: Revisé el código anterior, y parece que realmente es la misma prueba entre Jarque-Bera y Kiefer-Salmon.


2

De hecho, la prueba de salmón de Kiefer y la prueba de Jarque Bera son críticamente diferentes, como se muestra en varios lugares, pero más recientemente aquí : pruebas de momento para distribuciones de error estandarizadas: un enfoque simple y robusto de Yi-Ting Chen. La prueba de Kiefer Salmon por construcción es robusta frente a las estructuras de error de tipo ARCH, a diferencia de la prueba estándar de Jarque Bera. El documento de Yi-Ting Chen desarrolla y analiza lo que creo que son las mejores pruebas disponibles en este momento.


44
Chen parece centrarse en conjuntos de datos más grandes, lo cual tiene sentido porque los momentos cuarto y sexto y superiores involucrados en estas pruebas van a tomar un tiempo para establecerse en niveles asintóticos. Pero las pruebas de distribución generalmente se usan para conjuntos de datos menores de 250 valores (el mínimo estudiado en este documento). De hecho, la mayoría de ellos se vuelven tan poderosos con grandes cantidades de datos que son poco más que ideas avanzadas en tales aplicaciones. ¿O hay más cosas aquí que las que estoy viendo?
whuber

0

Para tamaños de muestra <30 sujetos, se considera que Shapiro-Wilk tiene un poder robusto. ¡ Tenga cuidado al ajustar el nivel de significación de la prueba, ya que puede inducir un error tipo II! [1]


En muestras pequeñas, las pruebas de bondad de ajuste generalmente no pueden rechazar la normailidad.
Michael R. Chernick

@MichaelChernick, ¿qué sucede en el caso específico entonces? ¿Cuál es la razón detrás de un pequeño ser pequeño "clasificado" como no normal?
Aliakbar Ahmadi
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.