¿Cómo verificar la distribución normal usando Excel para realizar una prueba t?


21

Quiero saber cómo verificar la normalidad de un conjunto de datos en Excel, solo para verificar que se cumplen los requisitos para usar una prueba t .

Para la cola derecha, ¿es apropiado calcular una media y una desviación estándar, agregar 1, 2 y 3 desviaciones estándar de la media para crear un rango y luego compararlo con el 68/95 / 99.7 normal para la distribución normal estándar después de usar la función norm.dist en excel para probar cada valor de desviación estándar.

¿O hay una mejor manera de probar la normalidad?


Respuestas:


15

Tienes la idea correcta. Esto se puede hacer de manera sistemática, integral y con cálculos relativamente simples. Una gráfica de los resultados se denomina gráfica de probabilidad normal (o, a veces, gráfica de PP). A partir de él, puede ver muchos más detalles de los que aparecen en otras representaciones gráficas, especialmente los histogramas , y con un poco de práctica, incluso puede aprender a determinar formas de volver a expresar sus datos para acercarlos a la normalidad en situaciones donde eso está justificado.

Aquí hay un ejemplo:

Hoja de cálculo con diagrama de probabilidad

Los datos están en la columna A(y con nombre Data). El resto es todo cálculo, aunque puede controlar el valor de "rango de bisagra" utilizado para ajustar una línea de referencia al gráfico.

Este gráfico es un diagrama de dispersión que compara los datos con los valores que se obtendrían mediante números extraídos independientemente de una distribución Normal estándar. Cuando los puntos se alinean a lo largo de la diagonal, están cerca de Normal; Las salidas horizontales (a lo largo del eje de datos) indican desviaciones de la normalidad. En este ejemplo, los puntos están notablemente cerca de la línea de referencia; la salida más grande ocurre en el valor más alto, que es aproximadamente unidades a la izquierda de la línea. Por lo tanto, vemos de un vistazo que estos datos están muy cerca de la distribución normal, pero tal vez tienen una cola derecha ligeramente "ligera". Esto está perfectamente bien para aplicar una prueba t.1.5

Los valores de comparación en el eje vertical se calculan en dos pasos. Primero, cada valor de datos se clasifica de a , la cantidad de datos (que se muestra en el campo en la celda ). Estos se convierten proporcionalmente a valores en el rango de a . Una buena fórmula para usar es (Consulte http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm para saber de dónde proviene). Luego, estos se convierten en valores normales estándar a través de la función. Estos valores aparecen en la columna. El diagrama de la derecha es un diagrama de dispersión XY de1n0 1 ( rango - 1 / 6 ) / ( n + 2 / 3 ) .CountF201(rank1/6)/(n+2/3).NormSInvNormal scoreNormal Scoreen contra de los datos. (En algunas referencias verá la transposición de este gráfico, que tal vez sea más natural, pero Excel prefiere colocar la columna más a la izquierda en el eje horizontal y la columna más a la derecha en el eje vertical, por lo que he dejado que haga lo que prefiere. )

Hoja de cálculo: cálculo de puntaje normal

(Como puede ver, simulé estos datos con sorteos aleatorios independientes de una distribución Normal con media y desviación estándar Por lo tanto, no sorprende que la gráfica de probabilidad se vea tan bien). Realmente solo hay dos fórmulas para escribir, que se propaga hacia abajo para que coincida con los datos: aparecen en las celdas y se basan en el valor calculado en la celda . Eso es todo lo que hay que hacer, aparte de la trama.52B2:C2CountF2

El resto de esta hoja no es necesaria, pero es útil para juzgar la trama: proporciona una estimación sólida de una línea de referencia. Esto se hace seleccionando dos puntos igualmente lejos de la izquierda y derecha de la trama y conectándolos con una línea. En el ejemplo estos puntos son la tercera más baja y tercero más alto, según lo determinado por la en la célula, . Como beneficio adicional, su pendiente e intersección son estimaciones robustas de la desviación estándar y la media de los datos, respectivamente.3Hinge RankF3

Para trazar la línea de referencia, se calculan dos puntos extremos y se agregan a la trama: su cálculo se produce en columnas I:J, etiquetadas Xy Y.

Hoja de cálculo: cálculo de línea de referencia


Para las fórmulas en Col B, ¿explicaría la razón para sumar 1 y dividir entre 6 y 3 (“+ 1/6” y “+ 1/3”)? ¿También hay una razón por la que elegiste dividir por 6 en la celda de rango de bisagra?

1/6100×1/6100×5/601/21/40.16

La fórmula (rango + 1/6) / (n + 1/3) no parece ser simétrica como podríamos anticipar. Por ejemplo, con la observación media de 3, el rango es 2 y esto sugeriría un percentil correspondiente de 0,65 en lugar de lo que parece natural tomar para la observación media (0,5). ¿Me perdí algo obvio? [He visto a Tukey usar algunas fórmulas diferentes en diferentes lugares, incluyendo (i-1/3) / (n + 1/3). La fórmula en su enlace encaja en el esquema común (ia) / (n + 1-2a) pero la fórmula que da en su respuesta no]
Glen_b -Reinstate Monica

ran+12a
r1na011/6(r1/6)/(n+2/3)a=1/3
whuber

5

Puede trazar un histograma utilizando el paquete de herramientas de análisis de datos en Excel . Es más probable que los enfoques gráficos comuniquen el grado de no normalidad, que generalmente es más relevante para las pruebas de suposición (consulte esta discusión sobre la normalidad ).

El paquete de herramientas de análisis de datos en Excel también le dará asimetría y curtosis si solicita estadísticas descriptivas y elige la opción "estadísticas de resumen". Por ejemplo, podría considerar que los valores de asimetría anteriores más o menos uno son una forma de no normalidad sustantiva.

Dicho esto, la suposición con las pruebas t es que los residuos se distribuyen normalmente y no la variable. Además, también son bastante robustos, de modo que incluso con cantidades bastante grandes de no normalidad, los valores p siguen siendo bastante válidos.


4

Esta pregunta también linda con la teoría de las estadísticas: las pruebas de normalidad con datos limitados pueden ser cuestionables (aunque todos lo hemos hecho de vez en cuando).

Como alternativa, puede observar curtosis y coeficientes de asimetría. De Hahn y Shapiro: Modelos estadísticos en ingeniería , se proporcionan algunos antecedentes sobre las propiedades Beta1 y Beta2 (páginas 42 a 49) y la Fig. 6-1 de la página 197. Se puede encontrar una teoría adicional detrás de esto en Wikipedia (ver Distribución de Pearson).

Básicamente necesita calcular las llamadas propiedades Beta1 y Beta2. Un Beta1 = 0 y Beta2 = 3 sugiere que el conjunto de datos se acerca a la normalidad. Esta es una prueba aproximada, pero con datos limitados se podría argumentar que cualquier prueba podría considerarse como aproximada.

Beta1 está relacionado con los momentos 2 y 3, o varianza y asimetría , respectivamente. En Excel, estos son VAR y SKEW. Donde ... es su matriz de datos, la fórmula es:

Beta1 = SKEW(...)^2/VAR(...)^3

Beta2 está relacionado con los momentos 2 y 4, o la varianza y curtosis , respectivamente. En Excel, estos son VAR y KURT. Donde ... es su matriz de datos, la fórmula es:

Beta2 = KURT(...)/VAR(...)^2

Luego puede verificarlos con los valores de 0 y 3, respectivamente. Esto tiene la ventaja de identificar potencialmente otras distribuciones (incluidas las distribuciones Pearson I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Por ejemplo, muchas de las distribuciones comúnmente utilizadas como Uniforme, Normal, t de Student, Beta, Gamma, Exponencial y Log-Normal se pueden indicar a partir de estas propiedades:

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

Estos se ilustran en Hahn y Shapiro Fig. 6-1.

De acuerdo, esta es una prueba muy difícil (con algunos problemas), pero es posible que desee considerarla como una verificación preliminar antes de pasar a un método más riguroso.

También hay mecanismos de ajuste para el cálculo de Beta1 y Beta2 donde los datos son limitados, pero eso está más allá de esta publicación.


Gran parte de este material puede funcionar bien para grandes conjuntos de datos y estoy de acuerdo con su evaluación inicial de que las pruebas de normalidad pueden ser limitadas o cuestionables con conjuntos de datos pequeños. Pero dada la gran variabilidad de asimetría y curtosis, parece que cualquier esfuerzo por identificar el tipo de distribución subyacente basado en estas estadísticas sería aún más cuestionable y menos seguro. En consecuencia, ¿este enfoque no sería (en el mejor de los casos) engañoso incluso como una verificación preliminar?
whuber

1
Quizás sea mejor calificar el método aún más: Hahn y Shapiro (como se mencionó anteriormente) aconsejan que se debe tener precaución, especialmente cuando el tamaño de la muestra es inferior a 200, y recomiendan que esto sea seguido por una verificación adicional, como una tabla de frecuencias que compara la distribución ajustada con los datos reales. Pero, en mi opinión, es un método útil que puede sugerir dónde se encuentran los datos dentro de un espectro de posibilidades. Lo he usado en conjuntos de datos no más pequeños que aproximadamente 3000 y lo he incorporado al software de simulación de computadora donde ha resultado útil.
AsymLabs

Puedo ver su método dando información útil con conjuntos de datos de 3000 o más. Sin embargo, entonces no hay necesidad de realizar pruebas de distribución para evaluar la aplicabilidad de una prueba t de la media.
whuber

Ya sea que uno vea esto como una técnica útil, como yo lo hago, o de otra manera, como parece ser su punto de vista, sin embargo, es una alternativa rápida y establecida desde hace mucho tiempo (por Pearson) para probar la normalidad (y la aplicación Students-t) en el contexto de este hilo. No me malinterpretes, reconozco y estoy de acuerdo con tus preocupaciones. Pero ambos estaríamos de acuerdo, si no fuera así, que sin información previa, tratar de establecer si una población completa puede ser modelada en un gaussiano a partir de una muestra de datos muy pequeña es un disparo en la oscuridad en el mejor de los casos con cualquier método, y en el peor de los casos es peligroso.
AsymLabs

1
Está bien. Todo lo que digo es que si es peligroso intentar, a partir de una pequeña muestra, probar si la población es gaussiana, ¡entonces debe ser al menos igual de peligroso usar la asimetría y la curtosis para identificar cuál podría ser la distribución subyacente! De hecho, parece que tal intento sería realmente peor porque se basa en estadísticas inestables como la curtosis. Aunque el sistema de Pearson puede ser una guía poderosa para ayudar a las personas a identificar posibles distribuciones, proporciona menos información que incluso visualizaciones gráficas limitadas como los histogramas.
whuber
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.