Una variable aleatoria binomial con norte ensayos y probabilidad de éxito pagpuede tomar más de dos valores. La variable aleatoria binomial representa el número de éxitos en esosnorte ensayos, y de hecho puede tomar norte+ 1 valores diferentes (0 , 1 , 2 , 3 , . . . , N) Entonces, si la varianza de esa distribución es mayor de lo esperado bajo los supuestos binomiales (tal vez hay ceros en exceso, por ejemplo), ese es un caso de sobredispersión.
La sobredispersión no tiene sentido para una variable aleatoria de Bernoulli (norte= 1)
En el contexto de una curva de regresión logística, puede considerar una "pequeña porción", o agrupación, a través de un rango estrecho de valor predictivo como una realización de un experimento binomial (tal vez tengamos 10 puntos en la porción con un cierto número de éxitos y fracasos). A pesar de que realmente no tenemos múltiples ensayos en cada valor predictivo y estamos buscando proporciones en lugar de recuentos sin procesar, aún esperamos que la proporción de cada uno de estos "cortes" esté cerca de la curva. Si estos "cortes" tienden a estar muy lejos de la curva, hay demasiada variabilidad en la distribución. Entonces, al agrupar las observaciones, crea realizaciones de variables aleatorias binomiales en lugar de mirar los datos 0/1 individualmente.
El siguiente ejemplo es de otra pregunta en este sitio. Digamos que las líneas azules representan la proporción esperada en el rango de variables predictoras. Las celdas azules indican instancias observadas (en este caso, escuelas). Esto proporciona una representación gráfica de cómo puede verse la sobredispersión . Tenga en cuenta que existen fallas en la interpretación de las celdas del gráfico a continuación, pero proporciona una idea de cómo puede manifestarse la sobredispersión.