[...] escuché que una curtosis positiva alta de los residuos puede ser problemática para pruebas de hipótesis precisas e intervalos de confianza (y, por lo tanto, problemas con la inferencia estadística). ¿Es esto cierto y, de ser así, por qué?
Para algunos tipos de prueba de hipótesis, es cierto.
¿Una curtosis positiva alta de los residuos no indicaría que la mayoría de los residuos están cerca de la media residual de 0 y, por lo tanto, están presentes residuos menos grandes?
No.
Parece que estás combinando el concepto de varianza con el de curtosis. Si la varianza fuera menor, entonces se uniría una tendencia a residuos más pequeños y menos residuos grandes. Imagine que mantenemos constante la desviación estándar mientras cambiamos la curtosis (por lo que definitivamente estamos hablando de cambios en la curtosis en lugar de la varianza).
Compare diferentes variaciones (pero la misma curtosis):
con diferente curtosis pero la misma varianza:
(imágenes de esta publicación )
En muchos casos, una curtosis alta se asocia con desviaciones más pequeñas de la media : más residuos pequeños de los que encontraría con una distribución normal ... pero para mantener la desviación estándar en el mismo valor, también debemos tener más residuos grandes (porque tener residuos más pequeños reduciría la distancia típica de la media). Para obtener más de los residuos grandes y los residuos pequeños, tendrá menos residuos de "tamaño típico", es decir, aproximadamente una desviación estándar de la media.‡
‡ depende de cómo se defina "pequeñez"; no puede simplemente agregar muchos residuos grandes y mantener constante la varianza, necesita algo para compensarlo, pero para alguna medida dada de "pequeño" puede encontrar formas de aumentar la curtosis sin aumentar esa medida en particular. (Por ejemplo, una curtosis más alta no implica automáticamente un pico más alto como tal)
Una curtosis más alta tiende a ir con residuos más grandes, incluso cuando mantiene constante la varianza.
[Además, en algunos casos, la concentración de pequeños residuos puede conducir a un problema mayor que la fracción adicional de los mayores residuos, dependiendo de lo que esté mirando].
De todos modos, veamos un ejemplo. Considere una prueba t de una muestra y un tamaño de muestra de 10.
Si rechazamos la hipótesis nula cuando el valor absoluto del estadístico t es mayor que 2.262, entonces cuando las observaciones son independientes, distribuidas de manera idéntica a partir de una distribución normal, y la media hipotética es la media real de la población, rechazaremos la nula hipótesis 5% del tiempo.
Considere una distribución particular con curtosis sustancialmente más alta que la normal: el 75% de nuestra población obtiene sus valores de una distribución normal y el 25% restante obtiene sus valores de una distribución normal con una desviación estándar 50 veces mayor.
Si calculé correctamente, esto corresponde a una curtosis de 12 (un exceso de curtosis de 9). La distribución resultante es mucho más alta que la normal y tiene colas pesadas. La densidad se compara con la densidad normal a continuación: puede ver el pico más alto, pero realmente no puede ver la cola más pesada en la imagen izquierda, por lo que también tracé el logaritmo de las densidades, que se extiende por la parte inferior de la imagen y comprime la parte superior, lo que facilita ver tanto el pico como la cola.
El nivel de significación real para esta distribución si realiza una prueba t de "5%" de una muestra con es inferior al 0,9%. Esto es bastante dramático y reduce la curva de potencia de manera sustancial.n = 10
(También verá un efecto sustantivo en la cobertura de los intervalos de confianza).
Tenga en cuenta que una distribución diferente con la misma curtosis tendrá un impacto diferente en el nivel de significancia.
Entonces, ¿por qué baja la tasa de rechazo? Esto se debe a que la cola más pesada conduce a algunos valores atípicos grandes, lo que tiene un impacto ligeramente mayor en la desviación estándar que en la media; esto impacta la estadística t porque conduce a más valores t entre -1 y 1, en el proceso reduciendo la proporción de valores en la región crítica.
Si toma una muestra que parece bastante consistente con haber provenido de una distribución normal cuya media es lo suficientemente superior a la media hipotética que es significativa, y luego toma la observación más allá de la media y la aleja aún más (es decir, hacer la media, incluso más grande que bajo ), en realidad se hace el estadístico t más pequeña .H0 0
Deja que te enseñe. Aquí hay una muestra de tamaño 10:
1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23
Imagine que queremos probarlo con (una prueba t de una muestra). Resulta que la media muestral aquí es 2.68 y la desviación estándar muestral es 0.9424. Obtiene una estadística t de 2.282, solo en la región de rechazo para una prueba del 5% (valor p de 0.0484).H0 0: μ = 2
Ahora haga que el mayor valor sea 50:
1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50
Claramente, subimos la media, por lo que debería indicar una diferencia aún más que antes, ¿verdad? Bueno, no, no lo hace. La estadística t baja . Ahora es 1.106, y el valor p es bastante grande (cercano al 30%). ¿Que pasó? Bueno, subimos la media (a 7.257), pero la desviación estándar se disparó más de 15.
Las desviaciones estándar son un poco más sensibles a los valores atípicos que los medios: cuando se coloca un valor atípico, tiende a empujar el estadístico t de una muestra hacia 1 o -1.
Si existe la posibilidad de varios valores atípicos, sucede lo mismo solo que a veces pueden estar en lados opuestos (en cuyo caso la desviación estándar se infla aún más mientras el impacto en la media se reduce en comparación con un valor atípico), por lo que la estadística t tiende a acercarse a 0.
Cosas similares suceden con una serie de otras pruebas comunes que suponen normalidad: una curtosis más alta tiende a asociarse con colas más pesadas, lo que significa más valores atípicos, lo que significa que las desviaciones estándar se inflan en relación con las medias y, por lo tanto, las diferencias que desea recoger tienden quedar "abrumado" por el impacto de los valores atípicos en la prueba. Es decir, baja potencia.