aproximación normal a la distribución binomial: ¿por qué np> 5?

9

Casi todos los libros de texto que discuten la aproximación normal a la distribución binomial mencionan la regla general de que la aproximación se puede usar si $np\geq5$ y $n(1-p)\geq 5$ . Algunos libros sugieren $np(1-p)\geq 5$ en lugar. La misma constante $5$ a menudo aparece en discusiones sobre cuándo fusionar celdas en el $\chi^2$ -prueba. Ninguno de los textos que encontré da una justificación o referencia para esta regla general.

¿De dónde viene esta constante 5? ¿Por qué no 4 o 6 o 10? ¿Dónde se introdujo originalmente esta regla práctica?

normal-distribution binomial approximation

— jochen
fuente

55

Es una regla de oro. Si fuera riguroso, no necesitarías el pulgar.

— Hong Ooi

2

También he visto

n p (1 - p) > 9

$np(1-p)>9$ y

n p (1 - p) > 10

$np(1-p)>10$ .

— Glen_b -Reinstala a Monica el

7

El artículo de Wikipedia sobre la distribución binomial ofrece algunas posibilidades, en la sección Aproximación normal , que actualmente incluye el siguiente comentario (énfasis mío):

Otra regla de uso común es que ambos valores $np$ y $n(1-p)$ debe ser mayor que 5. Sin embargo, el número específico varía de una fuente a otra y depende de qué tan buena sea la aproximación que se desee.

Ahora, esto está asociado con asegurar que la aproximación normal $x\sim N(\mu,\sigma)$ cae dentro de los límites legales para una variable binomial, $x\in[0,n]$ .

Para explicar esto, si parametrizamos la probabilidad de cobertura deseada en términos de una puntuación z $z>0$ , entonces nosotros tenemos

μ \pm z σ \in [0 0, norte] ⟹ z σ \leq min [μ, norte - μ] ⟹ z^{2} \leq min [\frac{μ^{2}}{σ^{2}}, \frac{(norte - μ)^{2}}{σ^{2}}]

$\mu \pm z\sigma \in [0,n] \implies z\sigma \leq \min[\,\mu \,,\, n - \mu \,] \implies z^2 \leq \min\left[\,\tfrac{\mu^2}{\sigma^2} \,,\, \tfrac{(n - \mu)^2}{\sigma^2}\,\right]$ Usando los momentos binomiales

μ = n p

$\mu=np$ y

σ^{2} = n p (1 - p)

$\sigma^2=np(1-p)$ , las restricciones anteriores requieren

min [pags, 1 - pags] norte \geq z^{2}

$\min\!\big[\,p\,,1-p\,\big]n \geq z^2$ Entonces, para este enfoque

z^{2} = 5

$z^2=5$ correspondería a una probabilidad de cobertura de

Φ [\sqrt{5 5}] - Φ [- \sqrt{5 5}] \approx 97,5 %

$\Phi[\sqrt{5}\,]-\Phi[-\sqrt{5}\,]\approx 97.5\%$ dónde

Φ

$\Phi$ es el CDF normal estándar .

Entonces, en la medida en que esta probabilidad de cobertura es "bonita" y 5 es un buen número redondo ... ¿tal vez podría dar alguna justificación? No tengo mucha experiencia con textos de probabilidad, por lo que no puedo decir cuán común es "5" frente a otros "números específicos" para usar la redacción de Wikipedia. Mi sensación es que no hay nada realmente especial sobre 5, y Wikipedia sugiere que 9 es común también (correspondiente a un "bonito" $z$ de 3).

— GeoMatt22
fuente

4

No es una explicación completa, pero es interesante volver a las Estadísticas de Annals of Math de Cochran de 1952 "The $\chi^2$ prueba de bondad de ajuste "( http://www.jstor.org/stable/2236678 ), Parte II (" Algunos aspectos del uso práctico de la prueba "), que es de una antigüedad bastante respetable en el campo ... Cochran discute la historia de los fundamentos teóricos de la prueba (Pearson 1900, Fisher 1922, 1924), pero no toca la regla general hasta el siguiente pasaje ... [énfasis agregado]

7. La expectativa mínima . Dado que x2 se ha establecido como la distribución limitante de X2 en muestras grandes, es habitual recomendar, en las aplicaciones de la prueba, que el número más pequeño esperado en cualquier clase sea 10 o (con algunos escritores) 5. ... Esto El tema ha sido objeto recientemente de una intensa discusión entre los psicólogos [17], [18]. Los números 10 y 5 parecen haber sido elegidos arbitrariamente. Algunas investigaciones arrojan algo de luz sobre la idoneidad de la regla. El enfoque ha sido examinar la distribución exacta de X2, cuando algunas o todas las expectativas son pequeñas, ya sea por métodos matemáticos o por experimentos de muestreo.

Las investigaciones son escasas y de alcance limitado, como es de esperar ya que el trabajo de este tipo lleva mucho tiempo. Por lo tanto, las recomendaciones que figuran a continuación pueden requerir modificaciones cuando haya nuevas pruebas disponibles.

Para desviarnos por un momento, el problema de investigar el comportamiento de X2 cuando las expectativas son pequeñas es un ejemplo de toda una clase de problemas que son relevantes para las estadísticas aplicadas. En las aplicaciones, es un hecho cotidiano utilizar los resultados de un cuerpo teórico en situaciones en las que sabemos, o sospechamos firmemente, que algunos de los supuestos de la teoría no son válidos. Por lo tanto, la literatura contiene investigaciones de la distribución t cuando la población parental no es normal, y del rendimiento de las estimaciones de regresión lineal cuando la regresión en la población es realmente no lineal. Afortunadamente para las aplicaciones, los resultados de la teoría a veces siguen siendo sustancialmente ciertos incluso cuando algunos supuestos no se cumplen. Este hecho tiende a hacer que las estadísticas sean un tema más confuso que las matemáticas puras,

— Ben Bolker
fuente

1

Además de las excelentes respuestas ya publicadas, pensé que podría ser útil tener una visualización que explore las distribuciones de las proporciones observadas para variar $n$ y $p$ valores.

Para generar los siguientes histogramas, tomé $n$ muestras de un ensayo de Bernoulli con probabilidad $p$ , y repitió este proceso 10,000 veces. Luego generé un histograma de las proporciones observadas de cada uno de esos 10,000 experimentos.

Hablando visualmente, parece $np \geq 5$ Es bastante razonable. Aunque cuando $n=50$ parece que todavía hay algo de recorte con $np = 5.5$ y $np = 6.5$ . Una vez que llegues a $np = 7.5$ , el impacto parece bastante pequeño.

También tenga en cuenta que estas parcelas serían simétricas si tomamos nuevas $p'$ valores de $p' = (1 - p)$ .

Código de Python para generar las parcelas. Puedes usar esto para ajustar $n$ y $p$ si quieres experimentar tu mismo

import matplotlib.pyplot as plt
import numpy as np
np.random.seed(20190915)


def make_hists(axs, n):
    proportions = np.linspace(0.01, 0.19, len(axs))
    for i, prop in enumerate(proportions):
        # Draw n samples 10,000 times
        x = np.random.rand(n, 10_000) < prop
        means = x.mean(axis=0)
        axs[i].hist(means, bins=np.linspace(0, 0.5, n//2))
        axs[i].set_xlim([0, 0.5])
        axs[i].set_yticklabels([])
        ylim_mean = np.mean(axs[i].get_ylim())
        axs[i].text(-0.08, ylim_mean * 3/2, f'$p={prop:.2f}$', va='center')
        axs[i].text(-0.08, ylim_mean * 2/3, f'$np={n * prop:.1f}$', va='center')
    axs[0].set_title(f'$n={n}$')

def main():
    f, axs = plt.subplots(10, 2, sharex=True, figsize=(12, 8))
    make_hists(axs[:, 0], 50)
    make_hists(axs[:, 1], 250)
    f.suptitle(
        'Histograms of 10,000 sample proportions, varying $p$ and $n$',
        fontsize=14
    )
    plt.show()

main()

— kbrose
fuente

0

La regla proporciona un criterio que asegura que p no esté ni cerca de 0 ni de 1. Si está más cerca de 0 o 1, la distribución resultante no será una buena aproximación a la distribución normal.

Puedes ver una justificación pictórica de lo mismo aquí

— Llevar una vida de soltero
fuente

2

Sí estoy de acuerdo. Pero

n p (1 - p) > 10

$np(1-p)>10$ también proporcionaría tal criterio. Entonces, ¿por qué 5?

— jochen