¿Por qué cuando tenemos errores no distribuidos normalmente se ve comprometida la validez de nuestras declaraciones de importancia? ¿Por qué los intervalos de confianza serán demasiado amplios o estrechos?
Los intervalos de confianza se basan en la forma en que el numerador y el denominador se distribuyen en una estadística t.
Con datos normales, el numerador de un estadístico t tiene una distribución normal y la distribución del cuadrado del denominador (que es entonces una varianza) es un múltiplo particular de una distribución chi-cuadrado. Cuando el numerador y el denominador también son independientes (como solo será el caso con datos normales, dado que las observaciones en sí son independientes), toda la estadística tiene una distribución t.
β^- βsβ^βt
Si los datos fueran de alguna otra distribución, la estadística no tendría una distribución t. Por ejemplo, si tuviera una cola pesada, la distribución t tendería a ser un poco más ligera (las observaciones externas afectan al denominador más que al numerador). Aquí hay un ejemplo. En ambos casos, el histograma es para 10,000 regresiones:
β= 0( - 2 , 2 )
Un intervalo t del 95% (que debe incluir el 95% de las pendientes en nuestra muestra) va de -2.048 a 2.048. Para los datos normales, en realidad incluía el 95.15% de las 10000 pendientes de muestra. Para los datos asimétricos, incluye el 99,91%.