¿Cuál es un buen índice del grado de violación de la normalidad y qué etiquetas descriptivas podrían adjuntarse a ese índice?

Contexto:

En una pregunta anterior, @Robbie preguntó en un estudio con alrededor de 600 casos por qué las pruebas de normalidad sugirieron una no normalidad significativa, pero las parcelas sugirieron distribuciones normales . Varias personas señalaron que las pruebas de significación de la normalidad no son muy útiles. Con muestras pequeñas, tales pruebas no tienen mucho poder para detectar violaciones leves de la normalidad y con muestras grandes, detectarán violaciones de la normalidad que son lo suficientemente pequeñas como para no ser motivo de preocupación.

Me parece que este problema es similar al debate sobre las pruebas de significación y los tamaños de los efectos. Si solo se enfoca en pruebas de significancia, cuando tiene muestras grandes, puede detectar pequeños efectos que son irrelevantes para fines prácticos, y con muestras pequeñas no tiene suficiente potencia.

En algunos casos, incluso he visto libros de texto que aconsejan a las personas que puede tener una muestra "demasiado grande", porque los efectos pequeños serán estadísticamente significativos.

En el contexto de las pruebas de significación y los tamaños del efecto, una resolución simple es centrarse en estimar el tamaño del efecto de interés, en lugar de obsesionarse con la regla de decisión binaria de si existe o no un efecto. Los intervalos de confianza en los tamaños de los efectos son uno de esos enfoques, o podría adoptar alguna forma de enfoque bayesiano. Además, varios dominios de investigación crean ideas sobre lo que significa un tamaño de efecto dado en un sentido práctico, para bien o para mal, aplicando etiquetas heurísticas como "pequeño", "medio" y "gran efecto". Esto también lleva a la recomendación inteligente de maximizar el tamaño de la muestra para maximizar la precisión en la estimación de un parámetro de interés dado.

Esto me hace preguntarme por qué un enfoque similar basado en los intervalos de confianza de los tamaños del efecto no se adopta más ampliamente en relación con las pruebas de suposición, y las pruebas de normalidad en particular.

Pregunta:

¿Cuál es el mejor índice único del grado en que los datos violan la normalidad?
¿O es mejor hablar sobre múltiples índices de violación de la normalidad (por ejemplo, asimetría, curtosis, prevalencia atípica)?
¿Cómo se pueden calcular los intervalos de confianza (o quizás un enfoque bayesiano) para el índice?
¿Qué tipo de etiquetas verbales podría asignar a los puntos en ese índice para indicar el grado de violación de la normalidad (por ejemplo, leve, moderada, fuerte, extrema, etc.)? El objetivo de tales etiquetas podría ser ayudar a los analistas con menos experiencia en el entrenamiento de su intuición sobre cuándo las violaciones de la normalidad son problemáticas.

— Jeromy Anglim
fuente

Pregunta fascinante

— rolando2

p

$p$

@NRH estoy de acuerdo; esto es lo que hago. Sin embargo, a menudo proporciono consultoría estadística a investigadores con menos experiencia en juzgar el grado de no normalidad de una trama. Pensé que un índice con varias etiquetas cualitativas podría complementar el entrenamiento de una intuición visual.

— Jeromy Anglim

A) ¿Cuál es el mejor índice único del grado en que los datos violan la normalidad?

B) ¿O es mejor hablar sobre múltiples índices de violación de la normalidad (por ejemplo, asimetría, curtosis, prevalencia atípica)?

Yo votaría por B. Diferentes violaciones tienen diferentes consecuencias. Por ejemplo, las distribuciones simétricas y unimodales con colas pesadas hacen que sus CI sean muy amplios y presumiblemente reducen la potencia para detectar cualquier efecto. La media, sin embargo, todavía alcanza el valor "típico". Para distribuciones muy sesgadas, la media, por ejemplo, podría no ser un índice muy sensible del "valor típico".

C) ¿Cómo se pueden calcular los intervalos de confianza (o quizás un enfoque bayesiano) para el índice?

No sé acerca de las estadísticas bayesianas, pero con respecto a la prueba clásica de normalidad, me gustaría citar a Erceg-Hurn et al. (2008) [2]:

Otro problema es que las pruebas de suposición tienen sus propias suposiciones. Las pruebas de normalidad generalmente suponen que los datos son homoscedastic; Las pruebas de homocedasticidad suponen que los datos se distribuyen normalmente. Si se violan los supuestos de normalidad y homocedasticidad, la validez de las pruebas de suposición puede verse seriamente comprometida. Los estadísticos prominentes han descrito las pruebas de suposición (por ejemplo, la prueba de Levene, la prueba de Kolmogorov-Smirnov) incorporadas en software como SPSS como fatalmente defectuosas y recomendaron que estas pruebas nunca se usen (D'Agostino, 1986; Glass & Hopkins, 1996).

D) ¿Qué tipo de etiquetas verbales podría asignar a los puntos en ese índice para indicar el grado de violación de la normalidad (p. Ej., Leve, moderada, fuerte, extrema, etc.)?

Micceri (1989) [1] realizó un análisis de 440 conjuntos de datos a gran escala en psicología. Evaluó la simetría y el peso de la cola y definió criterios y etiquetas. Las etiquetas para la asimetría varían de 'relativamente simétrica' a 'moderada -> extrema -> asimetría exponencial'. Las etiquetas para el peso de la cola van desde 'Uniforme -> menos que gaussiano -> Acerca de gaussiano -> Moderado -> Extremo -> Contaminación exponencial doble'. Cada clasificación se basa en criterios múltiples y sólidos.

Encontró que de estos 440 conjuntos de datos, solo el 28% eran relativamente simétricos, y solo el 15% se referían a Gauss con respecto a los pesos de la cola. Por lo tanto, el buen título del artículo:

El unicornio, la curva normal y otras criaturas improbables.

Escribí una Rfunción que evalúa automáticamente los criterios de Micceri y también imprime las etiquetas:

# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
    library(fBasics)
    QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))

    n <- length(x)
    x.s <- sort(x)
    U05 <- mean(x.s[(.95*n ):n])
    L05 <- mean(x.s[1:(.05*n)])
    U20 <- mean(x.s[(.80*n):n])
    L20 <- mean(x.s[1:(.20*n)])
    U50 <- mean(x.s[(.50*n):n])
    L50 <- mean(x.s[1:(.50*n)])
    M25 <- mean(x.s[(.375*n):(.625*n)])
    Q <- (U05 - L05)/(U50 - L50)
    Q1 <- (U20 - L20)/(U50 - L50)
    Q2 <- (U05 - M25)/(M25 - L05)

    # mean/median interval
    QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
    MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))

    SKEW <- skewness(x)
    if (plot==TRUE) plot(density(x))

    tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
    symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)

    cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
                         1.8, 2.3, 2.5, 2.8, 3.3,
                        1.6, 1.85, 1.93, 2, 2.3,
                        1.9, 2.5, 2.65, 2.73, 3.3,
                        1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)

    cat.sym <- matrix(c(0.31, 0.71, 2,
                        0.05, 0.18, 0.37,
                        1.25, 1.75, 4.70), ncol=3, nrow=3)


    ts <- c()
    for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}

    ss <- c()
    for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}

    tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")

    slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")

    cat("Tail weight indexes:\n")
    print(tail_weight)
    cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
    cat("\n\nAsymmetry indexes:\n")
    print(symmetry)
    cat(paste("\nMicceri category:", slabels[max(ss)]))

    tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
    sym.cat  <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)

    invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}

$t$

> micceri(rnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 2.86  2.42  1.88  2.59  1.76 

Micceri category: About Gaussian 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    0.01     0.00     1.00 

Micceri category: Relatively symmetric



> micceri(rt(10000, 8))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 3.19  2.57  1.94  2.81  1.79 

Micceri category: Extreme contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
   -0.03     0.00     0.98 

Micceri category: Relatively symmetric



> micceri(rlnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 6.24  4.30  2.67  3.72  1.93 

Micceri category: Double exponential contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    5.28     0.59     8.37 

Micceri category: Exponential asymmetry

[1] Micceri, T. (1989). El unicornio, la curva normal y otras criaturas improbables. Boletín psicológico, 105 , 156-166. doi: 10.1037 / 0033-2909.105.1.156

[2] Erceg-Hurn, DM y Mirosevich, VM (2008). Métodos estadísticos sólidos y modernos: una manera fácil de maximizar la precisión y el poder de su investigación. Psicólogo estadounidense, 63 , 591-601.

— Felix S
fuente

+1, esta es realmente una gran respuesta. Sin embargo, quiero objetar con 1 punto. Usted afirma que "las distribuciones simétricas y unimodales con colas pesadas hacen que sus CI sean muy amplios y presumiblemente reducen la potencia para detectar cualquier efecto". A menos que sean de arranque, los CI tienden a basarse en asintóticos (suposiciones normales), por lo que el hecho de que su dist tenga colas gruesas no tiene ningún efecto sobre el ancho del CI o la potencia. Más bien, significará que la probabilidad de cobertura empírica no coincidirá con la probabilidad de cobertura supuesta.

— gung - Restablece a Monica