¿La distribución normal no permite valores negativos?
Correcto. Tampoco tiene límite superior.
En una parte de mi libro de texto, dice que una distribución normal podría ser buena para modelar los puntajes de los exámenes.
A pesar de las declaraciones anteriores, sin embargo, este es a veces el caso. Si tiene muchos componentes para la prueba, no están muy relacionados (por ejemplo, no es esencialmente la misma pregunta una docena de veces, ni cada parte requiere una respuesta correcta a la parte anterior), y no es muy fácil ni muy difícil ( para que la mayoría de las marcas estén en algún lugar cerca del medio), entonces las marcas a menudo pueden estar razonablemente bien aproximadas por una distribución normal; a menudo lo suficientemente bien como para que los análisis típicos causen poca preocupación.
Nosotros sabemos con seguridad que no son normales , pero eso no es un problema de forma automática - siempre y cuando el comportamiento de los procedimientos que utilizamos son lo suficientemente cerca de lo que deberían ser para nuestros propósitos (por ejemplo, errores estándar, intervalos de confianza, niveles de significación y poder, lo que sea necesario, hacer cerca de lo que esperamos)
En la siguiente parte, pregunta qué distribución sería apropiada para modelar un reclamo de seguro de automóvil. Esta vez, dijo que las distribuciones apropiadas serían gamma o gaussiana inversa porque son continuas con solo valores positivos.
Sí, pero más que eso: tienden a estar muy sesgados y la variabilidad tiende a aumentar cuando la media aumenta.
Aquí hay un ejemplo de una distribución de tamaño de reclamo para reclamos de vehículos:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Fig. 5 de Garrido, Genest & Schulz (2016) "Modelos lineales generalizados para frecuencia y severidad dependientes de reclamos de seguros", Seguro: Matemáticas y Economía, Vol 70, septiembre, p205-215. Https : //www.sciencedirect. com / science / article / pii / S0167668715303358 )
Esto muestra una típica cola derecha oblicua y pesada. Sin embargo, debemos ser muy cuidadosos porque esta es una distribución marginal, y estamos escribiendo un modelo para la distribución condicional , que generalmente será mucho menos sesgada (la distribución marginal que observamos si solo hacemos un histograma de tamaños de reclamo es una mezcla de estas distribuciones condicionales). Sin embargo, suele darse el caso de que si observamos el tamaño del reclamo en los subgrupos de predictores (tal vez categorizando variables continuas) la distribución sigue siendo muy sesgada a la derecha y bastante pesada a la derecha, lo que sugiere que algo así como un modelo gamma * es Es probable que sea mucho más adecuado que un modelo gaussiano.
* puede haber cualquier otra distribución que sea más adecuada que una gaussiana; la gaussiana inversa es otra opción, aunque menos común; Los modelos lognormales o de Weibull, aunque no son GLM tal como están, también pueden ser bastante útiles.
[Raramente se da el caso de que alguna de estas distribuciones sean descripciones casi perfectas; son aproximaciones inexactas, pero en muchos casos lo suficientemente buenas como para que el análisis sea útil y tenga propiedades cercanas a las deseadas.]
Bueno, creo que los puntajes de los exámenes también serían continuos con solo valores positivos, entonces, ¿por qué usaríamos una distribución normal allí?
Porque (en las condiciones que mencioné antes: muchos componentes, no demasiado dependientes, ni duros ni fáciles) la distribución tiende a ser bastante simétrica, unimodal y no de cola pesada.