A) ¿Cuál es el mejor índice único del grado en que los datos violan la normalidad?
B) ¿O es mejor hablar sobre múltiples índices de violación de la normalidad (por ejemplo, asimetría, curtosis, prevalencia atípica)?
Yo votaría por B. Diferentes violaciones tienen diferentes consecuencias. Por ejemplo, las distribuciones simétricas y unimodales con colas pesadas hacen que sus CI sean muy amplios y presumiblemente reducen la potencia para detectar cualquier efecto. La media, sin embargo, todavía alcanza el valor "típico". Para distribuciones muy sesgadas, la media, por ejemplo, podría no ser un índice muy sensible del "valor típico".
C) ¿Cómo se pueden calcular los intervalos de confianza (o quizás un enfoque bayesiano) para el índice?
No sé acerca de las estadísticas bayesianas, pero con respecto a la prueba clásica de normalidad, me gustaría citar a Erceg-Hurn et al. (2008) [2]:
Otro problema es que las pruebas de suposición tienen sus propias suposiciones. Las pruebas de normalidad generalmente suponen que los datos son homoscedastic; Las pruebas de homocedasticidad suponen que los datos se distribuyen normalmente. Si se violan los supuestos de normalidad y homocedasticidad, la validez de las pruebas de suposición puede verse seriamente comprometida. Los estadísticos prominentes han descrito las pruebas de suposición (por ejemplo, la prueba de Levene, la prueba de Kolmogorov-Smirnov) incorporadas en software como SPSS como fatalmente defectuosas y recomendaron que estas pruebas nunca se usen (D'Agostino, 1986; Glass & Hopkins, 1996).
D) ¿Qué tipo de etiquetas verbales podría asignar a los puntos en ese índice para indicar el grado de violación de la normalidad (p. Ej., Leve, moderada, fuerte, extrema, etc.)?
Micceri (1989) [1] realizó un análisis de 440 conjuntos de datos a gran escala en psicología. Evaluó la simetría y el peso de la cola y definió criterios y etiquetas. Las etiquetas para la asimetría varían de 'relativamente simétrica' a 'moderada -> extrema -> asimetría exponencial'. Las etiquetas para el peso de la cola van desde 'Uniforme -> menos que gaussiano -> Acerca de gaussiano -> Moderado -> Extremo -> Contaminación exponencial doble'. Cada clasificación se basa en criterios múltiples y sólidos.
Encontró que de estos 440 conjuntos de datos, solo el 28% eran relativamente simétricos, y solo el 15% se referían a Gauss con respecto a los pesos de la cola. Por lo tanto, el buen título del artículo:
El unicornio, la curva normal y otras criaturas improbables.
Escribí una R
función que evalúa automáticamente los criterios de Micceri y también imprime las etiquetas:
# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
library(fBasics)
QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))
n <- length(x)
x.s <- sort(x)
U05 <- mean(x.s[(.95*n ):n])
L05 <- mean(x.s[1:(.05*n)])
U20 <- mean(x.s[(.80*n):n])
L20 <- mean(x.s[1:(.20*n)])
U50 <- mean(x.s[(.50*n):n])
L50 <- mean(x.s[1:(.50*n)])
M25 <- mean(x.s[(.375*n):(.625*n)])
Q <- (U05 - L05)/(U50 - L50)
Q1 <- (U20 - L20)/(U50 - L50)
Q2 <- (U05 - M25)/(M25 - L05)
# mean/median interval
QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))
SKEW <- skewness(x)
if (plot==TRUE) plot(density(x))
tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)
cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
1.8, 2.3, 2.5, 2.8, 3.3,
1.6, 1.85, 1.93, 2, 2.3,
1.9, 2.5, 2.65, 2.73, 3.3,
1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)
cat.sym <- matrix(c(0.31, 0.71, 2,
0.05, 0.18, 0.37,
1.25, 1.75, 4.70), ncol=3, nrow=3)
ts <- c()
for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}
ss <- c()
for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}
tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")
slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")
cat("Tail weight indexes:\n")
print(tail_weight)
cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
cat("\n\nAsymmetry indexes:\n")
print(symmetry)
cat(paste("\nMicceri category:", slabels[max(ss)]))
tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
sym.cat <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)
invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}
t
> micceri(rnorm(10000))
Tail weight indexes:
97.5% 95% 90% Q Q1
2.86 2.42 1.88 2.59 1.76
Micceri category: About Gaussian
Asymmetry indexes:
Skewness MM.75% Q2
0.01 0.00 1.00
Micceri category: Relatively symmetric
> micceri(rt(10000, 8))
Tail weight indexes:
97.5% 95% 90% Q Q1
3.19 2.57 1.94 2.81 1.79
Micceri category: Extreme contamination
Asymmetry indexes:
Skewness MM.75% Q2
-0.03 0.00 0.98
Micceri category: Relatively symmetric
> micceri(rlnorm(10000))
Tail weight indexes:
97.5% 95% 90% Q Q1
6.24 4.30 2.67 3.72 1.93
Micceri category: Double exponential contamination
Asymmetry indexes:
Skewness MM.75% Q2
5.28 0.59 8.37
Micceri category: Exponential asymmetry
[1] Micceri, T. (1989). El unicornio, la curva normal y otras criaturas improbables. Boletín psicológico, 105 , 156-166. doi: 10.1037 / 0033-2909.105.1.156
[2] Erceg-Hurn, DM y Mirosevich, VM (2008). Métodos estadísticos sólidos y modernos: una manera fácil de maximizar la precisión y el poder de su investigación. Psicólogo estadounidense, 63 , 591-601.