¿Los puntajes de los exámenes realmente siguen una distribución normal?


13

He estado tratando de aprender qué distribuciones usar en GLM, y estoy un poco confundido sobre cuándo usar la distribución normal. En una parte de mi libro de texto, dice que una distribución normal podría ser buena para modelar los puntajes de los exámenes. En la siguiente parte, pregunta qué distribución sería apropiada para modelar un reclamo de seguro de automóvil. Esta vez, dijo que las distribuciones apropiadas serían gamma o gaussiana inversa porque son continuas con solo valores positivos. Bueno, creo que los puntajes de los exámenes también serían continuos con solo valores positivos, entonces, ¿por qué usaríamos una distribución normal allí? ¿La distribución normal no permite valores negativos?


1
Si le preocupan los límites en los puntajes, puede intentar en.wikipedia.org/wiki/Truncated_normal_distribution
JG

55
En el mundo real, por supuesto, las distribuciones de puntaje de los exámenes a menudo no se parecen en nada a una distribución normal. Como un ejemplo de mis días de pregrado en matemáticas, recuerdo que la clase de Topología I fue conocida por su distribución bimodal de grados de "curva con mancuernas": o entendiste los conceptos clave y obtuviste un puntaje casi perfecto, o no lo hiciste y fuiste Suerte de conseguir puntos en absoluto. Muy pocas personas terminaron anotando en algún punto intermedio entre esos dos extremos.
Ilmari Karonen

2
No. Siguiente pregunta.
Carl Witthoft

Respuestas:


14

La altura, por ejemplo, a menudo se modela como normal. Tal vez la altura de los hombres es algo así como 5 pies 10 con una desviación estándar de 2 pulgadas. Sabemos que la altura negativa no es física, pero según este modelo, la probabilidad de observar una altura negativa es esencialmente cero. Usamos el modelo de todos modos porque es una aproximación lo suficientemente buena.

Todos los modelos están equivocados. La pregunta es "¿puede este modelo seguir siendo útil", y en los casos en que estamos modelando cosas como la altura y los puntajes de las pruebas, modelar el fenómeno como normal es útil a pesar de que técnicamente permite cosas no físicas.


En este caso particular, es cuestionable si la distribución normal es incluso una aproximación útil . Casi todas las distribuciones de grados que he visto se parecen a la curva bimodal que Ilmari Karonen mencionó en los comentarios hasta cierto punto. (Aunque generalmente con modos alrededor de 0.6 y 0.9, en lugar de en los extremos) Sin embargo, una combinación lineal de dos distribuciones normales con diferentes medios no sería una mala aproximación.
Ray

No estaba discutiendo que lo normal es LA MEJOR aproximación. Todo el punto de mi comentario se hace realmente en ese último párrafo. Los comentarios sobre la bimodalidad de las distribuciones de calificaciones reales, al menos en este nivel de abstracción, realmente no son útiles.
Demetri Pananos el

Estoy de acuerdo con todo lo que dijo en su respuesta, pero parte de la pregunta se refiere a si la distribución normal es específicamente aplicable a las distribuciones de grado de modelado. Y la respuesta a eso suele ser "No". Todos los modelos están equivocados y algunos modelos son útiles, pero algunos son más incorrectos y menos útiles que otros. El hecho de que la distribución normal en particular se ajuste especialmente mal a este problema es importante, y la respuesta parece sugerir que lo normal solo es incorrecto porque las colas se vuelven negativas e infinitas, cuando en realidad hay problemas mucho más profundos.
Ray

Estás siendo un poco pedante aquí. El problema de OP fue que lo normal permite puntuaciones negativas. La bimodalidad no era el problema. No estás viendo el bosque por los árboles con respecto a esta pregunta. Los detalles de modelado no son relevantes en este momento.
Demetri Pananos el

10

¿La distribución normal no permite valores negativos?

Correcto. Tampoco tiene límite superior.

En una parte de mi libro de texto, dice que una distribución normal podría ser buena para modelar los puntajes de los exámenes.

A pesar de las declaraciones anteriores, sin embargo, este es a veces el caso. Si tiene muchos componentes para la prueba, no están muy relacionados (por ejemplo, no es esencialmente la misma pregunta una docena de veces, ni cada parte requiere una respuesta correcta a la parte anterior), y no es muy fácil ni muy difícil ( para que la mayoría de las marcas estén en algún lugar cerca del medio), entonces las marcas a menudo pueden estar razonablemente bien aproximadas por una distribución normal; a menudo lo suficientemente bien como para que los análisis típicos causen poca preocupación.

Nosotros sabemos con seguridad que no son normales , pero eso no es un problema de forma automática - siempre y cuando el comportamiento de los procedimientos que utilizamos son lo suficientemente cerca de lo que deberían ser para nuestros propósitos (por ejemplo, errores estándar, intervalos de confianza, niveles de significación y poder, lo que sea necesario, hacer cerca de lo que esperamos)

En la siguiente parte, pregunta qué distribución sería apropiada para modelar un reclamo de seguro de automóvil. Esta vez, dijo que las distribuciones apropiadas serían gamma o gaussiana inversa porque son continuas con solo valores positivos.

Sí, pero más que eso: tienden a estar muy sesgados y la variabilidad tiende a aumentar cuando la media aumenta.

Aquí hay un ejemplo de una distribución de tamaño de reclamo para reclamos de vehículos:

https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg

(Fig. 5 de Garrido, Genest & Schulz (2016) "Modelos lineales generalizados para frecuencia y severidad dependientes de reclamos de seguros", Seguro: Matemáticas y Economía, Vol 70, septiembre, p205-215. Https : //www.sciencedirect. com / science / article / pii / S0167668715303358 )

Esto muestra una típica cola derecha oblicua y pesada. Sin embargo, debemos ser muy cuidadosos porque esta es una distribución marginal, y estamos escribiendo un modelo para la distribución condicional , que generalmente será mucho menos sesgada (la distribución marginal que observamos si solo hacemos un histograma de tamaños de reclamo es una mezcla de estas distribuciones condicionales). Sin embargo, suele darse el caso de que si observamos el tamaño del reclamo en los subgrupos de predictores (tal vez categorizando variables continuas) la distribución sigue siendo muy sesgada a la derecha y bastante pesada a la derecha, lo que sugiere que algo así como un modelo gamma * es Es probable que sea mucho más adecuado que un modelo gaussiano.

* puede haber cualquier otra distribución que sea más adecuada que una gaussiana; la gaussiana inversa es otra opción, aunque menos común; Los modelos lognormales o de Weibull, aunque no son GLM tal como están, también pueden ser bastante útiles.

[Raramente se da el caso de que alguna de estas distribuciones sean descripciones casi perfectas; son aproximaciones inexactas, pero en muchos casos lo suficientemente buenas como para que el análisis sea útil y tenga propiedades cercanas a las deseadas.]

Bueno, creo que los puntajes de los exámenes también serían continuos con solo valores positivos, entonces, ¿por qué usaríamos una distribución normal allí?

Porque (en las condiciones que mencioné antes: muchos componentes, no demasiado dependientes, ni duros ni fáciles) la distribución tiende a ser bastante simétrica, unimodal y no de cola pesada.


0

Los puntajes de los exámenes podrían modelarse mejor mediante una distribución binomial. En un caso altamente simplificado, es posible que tenga 100 preguntas de verdadero / falso cada una con un valor de 1 punto, por lo que la puntuación sería un número entero entre 0 y 100. Si supone que no hay correlación entre la corrección del examinador de un problema a otro (aunque dudoso supuesto) ), la puntuación es una suma de variables aleatorias independientes y se aplica el Teorema del límite central. A medida que aumenta el número de preguntas, la fracción de problemas correctos converge a una distribución normal.

Usted hace una buena pregunta sobre los valores inferiores a 0. También puede hacer la misma pregunta sobre los valores superiores al 100%. A medida que aumenta el número de preguntas de la prueba, la varianza de la suma disminuye, por lo que el pico se acerca a la media. De manera similar, la distribución normal de mejor ajuste tendrá una varianza menor y el peso del pdf fuera del intervalo [0, 1] tiende hacia 0, aunque siempre será distinto de cero. El espacio entre los posibles valores de "fracción correcta" también disminuirá (1/100 para 100 preguntas, 1/1000 para 1000 preguntas, etc.), de manera informal, el pdf comienza a comportarse cada vez más como un pdf continuo.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.