¿Por qué la curtosis positiva alta es problemática para las pruebas de hipótesis?

He oído (lo siento, no puedo proporcionar un enlace a un texto, algo que me han dicho) que una curtosis de residuos altamente positiva puede ser problemática para pruebas de hipótesis precisas e intervalos de confianza (y, por lo tanto, problemas con la inferencia estadística). ¿Es esto cierto y, de ser así, por qué? ¿Una curtosis positiva alta de los residuos no indicaría que la mayoría de los residuos están cerca de la media residual de 0 y, por lo tanto, están presentes residuos menos grandes? (Si tiene una respuesta, intente dar una respuesta con matemáticas no muy profundas ya que no tengo una inclinación matemática alta).

— DDK
fuente

Supongo que se está enfocando en modelos con condiciones ideales de términos de error normales (gaussianos). (En muchos otros contextos, bien podría esperarse una curtosis alta de los residuos). La curtosis alta probablemente implica una distribución de cola más gruesa que la normal, por lo que algunos residuos muy altos (+ o -). Incluso si hay muchos cerca de cero, esas son solo las buenas noticias, y son las posibles malas noticias las que necesitan atención. Pero a su vez eso podría significar cualquier cosa, cualquier cantidad de cosas. Una gráfica residual versus ajustada suele ser más informativa.

— Nick Cox

De hecho, me estaba centrando en modelos con supuestos de normalidad.

— DDK

Respuestas:

[...] escuché que una curtosis positiva alta de los residuos puede ser problemática para pruebas de hipótesis precisas e intervalos de confianza (y, por lo tanto, problemas con la inferencia estadística). ¿Es esto cierto y, de ser así, por qué?

Para algunos tipos de prueba de hipótesis, es cierto.

¿Una curtosis positiva alta de los residuos no indicaría que la mayoría de los residuos están cerca de la media residual de 0 y, por lo tanto, están presentes residuos menos grandes?

No.

Parece que estás combinando el concepto de varianza con el de curtosis. Si la varianza fuera menor, entonces se uniría una tendencia a residuos más pequeños y menos residuos grandes. Imagine que mantenemos constante la desviación estándar mientras cambiamos la curtosis (por lo que definitivamente estamos hablando de cambios en la curtosis en lugar de la varianza).

Compare diferentes variaciones (pero la misma curtosis):

con diferente curtosis pero la misma varianza:

(imágenes de esta publicación )

En muchos casos, una curtosis alta se asocia con desviaciones más pequeñas de la media : más residuos pequeños de los que encontraría con una distribución normal ... pero para mantener la desviación estándar en el mismo valor, también debemos tener más residuos grandes (porque tener residuos más pequeños reduciría la distancia típica de la media). Para obtener más de los residuos grandes y los residuos pequeños, tendrá menos residuos de "tamaño típico", es decir, aproximadamente una desviación estándar de la media. $^\ddagger$

$\ddagger$ depende de cómo se defina "pequeñez"; no puede simplemente agregar muchos residuos grandes y mantener constante la varianza, necesita algo para compensarlo, pero para alguna medida dada de "pequeño" puede encontrar formas de aumentar la curtosis sin aumentar esa medida en particular. (Por ejemplo, una curtosis más alta no implica automáticamente un pico más alto como tal)

Una curtosis más alta tiende a ir con residuos más grandes, incluso cuando mantiene constante la varianza.

[Además, en algunos casos, la concentración de pequeños residuos puede conducir a un problema mayor que la fracción adicional de los mayores residuos, dependiendo de lo que esté mirando].

De todos modos, veamos un ejemplo. Considere una prueba t de una muestra y un tamaño de muestra de 10.

Si rechazamos la hipótesis nula cuando el valor absoluto del estadístico t es mayor que 2.262, entonces cuando las observaciones son independientes, distribuidas de manera idéntica a partir de una distribución normal, y la media hipotética es la media real de la población, rechazaremos la nula hipótesis 5% del tiempo.

Considere una distribución particular con curtosis sustancialmente más alta que la normal: el 75% de nuestra población obtiene sus valores de una distribución normal y el 25% restante obtiene sus valores de una distribución normal con una desviación estándar 50 veces mayor.

Si calculé correctamente, esto corresponde a una curtosis de 12 (un exceso de curtosis de 9). La distribución resultante es mucho más alta que la normal y tiene colas pesadas. La densidad se compara con la densidad normal a continuación: puede ver el pico más alto, pero realmente no puede ver la cola más pesada en la imagen izquierda, por lo que también tracé el logaritmo de las densidades, que se extiende por la parte inferior de la imagen y comprime la parte superior, lo que facilita ver tanto el pico como la cola.

El nivel de significación real para esta distribución si realiza una prueba t de "5%" de una muestra con es inferior al 0,9%. Esto es bastante dramático y reduce la curva de potencia de manera sustancial. $n=10$

(También verá un efecto sustantivo en la cobertura de los intervalos de confianza).

Tenga en cuenta que una distribución diferente con la misma curtosis tendrá un impacto diferente en el nivel de significancia.

Entonces, ¿por qué baja la tasa de rechazo? Esto se debe a que la cola más pesada conduce a algunos valores atípicos grandes, lo que tiene un impacto ligeramente mayor en la desviación estándar que en la media; esto impacta la estadística t porque conduce a más valores t entre -1 y 1, en el proceso reduciendo la proporción de valores en la región crítica.

Si toma una muestra que parece bastante consistente con haber provenido de una distribución normal cuya media es lo suficientemente superior a la media hipotética que es significativa, y luego toma la observación más allá de la media y la aleja aún más (es decir, hacer la media, incluso más grande que bajo ), en realidad se hace el estadístico t más pequeña . $H_0$

Deja que te enseñe. Aquí hay una muestra de tamaño 10:

 1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23

Imagine que queremos probarlo con (una prueba t de una muestra). Resulta que la media muestral aquí es 2.68 y la desviación estándar muestral es 0.9424. Obtiene una estadística t de 2.282, solo en la región de rechazo para una prueba del 5% (valor p de 0.0484). $H_0: \mu=2$

Ahora haga que el mayor valor sea 50:

      1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50

Claramente, subimos la media, por lo que debería indicar una diferencia aún más que antes, ¿verdad? Bueno, no, no lo hace. La estadística t baja . Ahora es 1.106, y el valor p es bastante grande (cercano al 30%). ¿Que pasó? Bueno, subimos la media (a 7.257), pero la desviación estándar se disparó más de 15.

Las desviaciones estándar son un poco más sensibles a los valores atípicos que los medios: cuando se coloca un valor atípico, tiende a empujar el estadístico t de una muestra hacia 1 o -1.

Si existe la posibilidad de varios valores atípicos, sucede lo mismo solo que a veces pueden estar en lados opuestos (en cuyo caso la desviación estándar se infla aún más mientras el impacto en la media se reduce en comparación con un valor atípico), por lo que la estadística t tiende a acercarse a 0.

Cosas similares suceden con una serie de otras pruebas comunes que suponen normalidad: una curtosis más alta tiende a asociarse con colas más pesadas, lo que significa más valores atípicos, lo que significa que las desviaciones estándar se inflan en relación con las medias y, por lo tanto, las diferencias que desea recoger tienden quedar "abrumado" por el impacto de los valores atípicos en la prueba. Es decir, baja potencia.

— Glen_b -Reinstate a Monica
fuente

Wow, muchas gracias por la respuesta muy clara y elaborada. Su tiempo es muy apreciado!

— DDK

También vale la pena señalar que, mientras que la distribución de la muestra grande de la media muestral no depende de la curtosis (por lo tanto, el nivel de significancia real de las pruebas de suposición de normalidad para las medias converge al nivel nominal, típicamente .05, como n-> infinito, para todas las curtosis finitas), lo mismo no es cierto para las pruebas de varianzas. La distribución de muestra grande de la varianza estimada depende de la curtosis, por lo que el nivel de significación real de las pruebas clásicas de varianza que suponen normalidad no converge al nivel nominal como n -> infinito cuando la curtosis es diferente de cero.

— Peter Westfall

Además, una curtosis más alta no implica, matemáticamente, que haya "desviaciones más pequeñas de la media". Lo único que te dice con certeza es que hay más en la cola.

— Peter Westfall

No puede obtener desviaciones más grandes y mantener constante la varianza a menos que también haga desviaciones más pequeñas; Si no mantiene constante la varianza, más de sus desviaciones se vuelven pequeñas en relación con la nueva escala. Entonces, sí, cuando se trata de observar la curtosis, las matemáticas te dicen que más grande conlleva más pequeño.

— Glen_b -Reinstale a Monica el

@ Peter Tomemos como una estandarizada . La curtosis es , y es monotónica en . Si muevo la probabilidad más hacia la cola de , alguna probabilidad debe moverse hacia la media (o no puedo mantener ). Del mismo modo, si muevo la probabilidad más allá de la cola de y dejo que la varianza aumente, es más amplia, y por lo menos para algunos valores de más del resto de la distribución tenderá a caer dentro de esos límites ; una vez que estandarice la nueva ( a

Z

$Z$

X

$X$

κ = E (Z^{4})

$\kappa=E(Z^4)$

\sqrt{κ - 1} = E (Z^{2})

$\sqrt{\kappa-1}=E(Z^2)$

κ

$\kappa$

Z

$Z$

Var (Z) = 1

$\text{Var}(Z)=1$

X

$X$

μ \pm k σ

$\mu\pm k\sigma$

k

$k$

X

$X$

X^{'}

$X'$

Z^{'}

$Z'$ digamos), tienes valores más pequeños en ese sentido directo.

— Glen_b -Reinstala a Monica el

La curtosis mide los valores atípicos. Los valores atípicos son problemáticos para las inferencias estándar (por ejemplo, pruebas t, intervalos t) que se basan en la distribución normal. Ese es el final de la historia! Y es realmente una historia bastante simple.

La razón por la que esta historia no es bien apreciada es porque el antiguo mito de que la curtosis mide el "pico" persiste.

Aquí hay una explicación simple que muestra por qué la curtosis mide los valores atípicos y no el "pico".

Considere el siguiente conjunto de datos.

0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 1

La curtosis es el valor esperado de los (valores z) ^ 4. Aquí están los (valores z) ^ 4:

6.51, 0.30, 5.33, 0.45, 0.00, 0.30, 6.51, 0.00, 0.45, 0.30, 0.00, 6.51, 0.00, 0.00, 0.30, 0.00, 27.90, 0.00, 0.30, 0.45

El promedio es 2.78, y esa es una estimación de la curtosis. (Resta 3 si quieres un exceso de curtosis).

Ahora, reemplace el último valor de datos con 999 para que se vuelva atípico:

0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999

Ahora, aquí están los (valores z) ^ 4:

0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00,0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 360.98

El promedio es 18.05, y esa es una estimación de la curtosis. (Resta 3 si quieres un exceso de curtosis).

Claramente, solo importan los valores atípicos. Nada sobre el "pico" o los datos cerca del medio son importantes.

Si realiza análisis estadísticos estándar con el segundo conjunto de datos, debe esperar problemas. La curtosis grande lo alerta sobre el problema.

Aquí hay un artículo que elabora:

Westfall, PH (2014). Kurtosis como pico, 1905 - 2014. RIP The American Statistician, 68, 191–195.

— Peter Westfall
fuente

¿Por qué no solo usar pruebas no paramétricas? Para este tipo de problemas, es probable que sean superiores.

— Carl

De acuerdo, esa es una posible vía, SI le gusta la prueba, que rápidamente se está volviendo menos interesante en su forma clásica. Pero esa no es realmente mi preocupación. Estoy más interesado en el modelado probabilístico en general. Una aplicación: tal vez esté realmente interesado en la media, por ejemplo, en los casos en que la variable dependiente es el dinero ganado, la media del proceso es más interesante que la mediana del proceso. Entonces, ¿qué significan los datos que le dicen sobre el proceso cuando los datos son propensos a valores atípicos? Es un problema difícil, pero importante, y la curtosis de momento es relevante para la respuesta. No son pruebas sin par.

— Peter Westfall

Para la distribución de Cauchy, la media recortada puede ser una mejor medida de la ubicación que la mediana, y la media ordinaria no sería una medida de la ubicación. Qué usar como medida de ubicación depende de cuál sea la distribución. Un ejemplo para el que la curtosis no sería útil como indicador es la distribución uniforme para la cual el valor extremo promedio es una mejor medida de ubicación que la mediana y la media.

— Carl

No es la cuestión. Si está interesado en los totales, por ejemplo, dólares, la media ordinaria es la medida de la ubicación que desea.

— Peter Westfall

Si tiene una variable distribuida de Cauchy, puede justificar el total de dólares ganados, pero la media no será una medida de ubicación especialmente útil, lo que significa que el "valor esperado" no tiene ninguna expectativa razonable asociada.

— Carl

-3

La curtosis también indica colas asimétricas. En una prueba de hipótesis de dos colas, una cola será una cola larga y la otra será una cola corta. Una de las colas puede ser> alfa, pero <beta. Una cola pasaría el valor p, pero la otra no.

Básicamente, la inferencia estadística supone un estándar normal. Cuando no es un estándar normal, puede pasar con una inferencia basada en una mecánica de inferencia más sofisticada. Es posible que pueda usar la inferencia de Poisson, pero con una distribución que no es normal, no puede usar la inferencia que se basa en normales.

La inclinación y la curtosis son una medida de no normalidad. Aprendemos a tomar medios y usar distribuciones normales antes de saber que tenemos que evaluar la normalidad. Una normal requiere 36 o más puntos de datos de cada dimensión. Puede estimar en 20 puntos de datos, pero aún tendrá sesgo y curtosis. A medida que la distribución se acerca a la normalidad, la inclinación y la distribución desaparecen.

Una de las explicaciones definió la curtosis como pico. Otro no lo hizo. Esta es una pelea sin resolver en este momento. La curtosis es el cuarto momento, un área. Estoy en el punto álgido del asunto.

Otra idea que existe es que con una inclinación, la mediana se inclina hacia el modo que forma un triángulo. Disfrutar.

— David W. Locke
fuente

No está claro que esto agregue algo útil y diferente a las respuestas ya excelentes. Agrega varias declaraciones desconcertantes, por ejemplo, "normal requiere 36 o más puntos de datos" (entonces 35 ¿no está bien? ¿Cuál es la base de esta afirmación? "Asimetría como pico" No creo que nadie esté afirmando esto ". estándar normal ": no en general. La curtosis es el cuarto momento, un área: no; la curtosis como se define aquí es una relación adimensional, basada en el cuarto y segundo momento sobre la media.

— Nick Cox

El cuarto momento es una integral, por lo que es un área. La forma en que esa área se traduce en pico o curvatura se pierde en mí.

— David W. Locke

La explicación típica de la curtosis es el pico, pero en mi opinión eso está mal. Editaré mi respuesta original para cambiar la asimetría como un pico para decir que la curtosis es ... Gracias.

— David W. Locke

Las colas no son simétricas. Nunca he visto nada sobre inferencia estadística que considere colas asimétricas. El riesgo de curtosis ocurre porque las colas se moverán a medida que se recopilen más puntos de datos. La oblicuidad y la curtosis se trata de no tener suficientes datos para lograr un estándar normal.

— David W. Locke

No es así: hay una gran cantidad de teoría y aplicaciones para distribuciones exponenciales, gamma, Weibull y muchas, muchas otras que no son normales.

— Nick Cox