Esta respuesta describe tres formas de manejar adecuadamente los diferentes tamaños de muestra: un modelo lineal generalizado y dos regresiones de mínimos cuadrados ordinarios ponderados. En este caso, los tres funcionan bien. En general, cuando algunas proporciones están cerca de o , el GLM es mejor.0 01
Debido a que los tamaños de muestra son tan pequeños en comparación con las poblaciones (menos del diez por ciento de ellos), en una aproximación excelente, la distribución de resultados de ojos azules y no azules en una muestra de tamaño es Binomial (porque las muestras son aleatorio). El otro parámetro binomial, , es la proporción verdadera (pero desconocida) de sujetos de ojos azules en la población. Por lo tanto, la posibilidad de observar personas de ojos azules esnortepagsk
(nortek)pagsk( 1 - p)n - k.(1)
Cada década sabemos y son los datos, pero no sabemos . Podemos estimarlo suponiendo que las probabilidades de registro correspondientes a varían por año linealmente (al menos para una buena aproximación). Esto significa que asumimos que hay números y tales quenortekpagspagsβ0 0β1
Iniciar sesión( p ) - registro( 1 - p ) =β0 0+β1× Año .
Equivalentemente
p =11 +mi-β0 0-β1Año; 1 - p = mi-β0 0-β1Año1 +mi-β0 0-β1Año.
Conectar esto a (1) da la posibilidad de observar de durante un año dado comoknortet
(nortek)mi- (β0 0+β1t ) ( n - k )( 1 +mi- (β0 0+β1t ))norte.(2)
Suponiendo que las muestras se obtienen de forma independiente en los años etc. y escribiendo los tamaños de muestra correspondientes y los recuentos de sujetos de ojos azules como y , la probabilidad de los datos es el producto de las probabilidades de los resultados individuales. Este producto es (por definición) la probabilidad de . Podemos estimar estos parámetros como los valores que maximizan la probabilidad; de manera equivalente, maximizan la probabilidad de registrot1,t2, norteyokyo(β0 0,β1)(β^0 0,β^1)
Λ (β0 0,β1) =∑tIniciar sesión( (nortek)mi- (β0 0+β1t ) ( n - k )( 1 +mi- (β0 0+β1t ))norte)(3)
obtenido de .( 2 )
(Esto se simplifica considerablemente, usando reglas de logaritmos, que es una razón para expresar la relación de proporción de tiempo en términos de probabilidades de registro. Cuando todas las proporciones están entre y , aproximadamente, hay poca diferencia cualitativa entre usar probabilidades o su registro probabilidades: la curva ajustada será lineal o cercana a la lineal, respectivamente.)0.2 0.20.8pags
( 3 ) es un modelo lineal generalizado binomial . Debe ajustarse minimizando numéricamente . El procedimiento en (que se muestra al final de esta publicación) da la soluciónΛglm
R
(β^0 0,β^1)GLM= ( 31.498711 , - 0.0163568 ) .
Los datos en esta figura se trazan con discos cuyas áreas son proporcionales a los tamaños de muestra. El ajuste GLM es curvilíneo. En comparación, en gris, se muestra la línea que obtendríamos simplemente volcando los datos que se muestran en la pregunta en un solucionador de mínimos cuadrados ordinarios. Ambos ajustes están influenciados por las mayores proporciones en años anteriores, a pesar de los pequeños tamaños de muestra en ese momento. Sin embargo, el ajuste GLM hace un mejor trabajo al aproximar las proporciones en las muestras más grandes obtenidas en 1970 y 1980. La línea azul punteada se describe a continuación.( Año , proporción )
Al agregar un término cuadrático, podemos probar la bondad del ajuste. Mejora significativamente el ajuste GLM (aunque visualmente la diferencia no es grande), proporcionando evidencia de que este modelo no describe bien la variación en los resultados. Mirar la gráfica indica que el resultado en 1990 fue mucho más bajo de lo que predice el modelo.
Un enfoque alternativo, pero comparable, es estimar individualmente para cada año , tal vez como (aunque son posibles otros estimadores). Una regresión lineal de las probabilidades de registro de estas estimaciones con respecto al año, ponderada por los tamaños de muestra , o regresión de mínimos cuadrados ponderados, arrojapagstyoki/nini
(β^0,β^1)WLS=(36.12744,−0.018706).
Los errores estándar de estas estimaciones son y , respectivamente, lo que indica que las estimaciones de WLS no son significativamente diferentes del GLM binomial. (Sin embargo, los errores estándar de GLM son considerablemente menores: "sabe" que estos tamaños de muestra son bastante grandes, mientras que la regresión lineal "no sabe" nada sobre los tamaños de muestra: solo tiene una secuencia de diez observaciones separadas). Tenga en cuenta que esto La alternativa podría no estar disponible si o , a menos que se use un estimador diferente de las probabilidades (que no produce valores de o ).15.550.00787ki=niki=001
Finalmente, podríamos simplemente realizar una regresión ponderada de mínimos cuadrados de las estimaciones de probabilidad bruta contra el año, inversamente ponderada por una estimación de la varianza de la muestra. La varianza de una variable binomial , reexpresada como una proporción es . Eso puede estimarse a partir de una muestra comok/n(n,p)XX/np(1−p)/n
p(1−p)n≈knn−kn/n=k(n−k)n3.
Su resultado aparece en la figura como una línea azul punteada. En este caso, parece haber un compromiso entre los ajustes GLM y OLS.
El siguiente R
código realizó los análisis y produjo la figura.
year <- seq(1910, 2000, by=10)
total <- c(40, 200, 7, 3, 1, 14, 5000, 7000, 150, 500) * 10
blue <- c(250, 1000, 40, 14, 4, 52, 15400, 22000, 80, 800)
X <- data.frame(Year=year, Success=blue, Failure=total-blue,
Proportion=blue/total, Total=total)
#
# GLM
#
fit <- glm(cbind(Success, Failure) ~ Year, X, family="binomial")
summary(fit)
#
# WLS of the log odds (an alternative)
#
fit.WLS <- lm(log(Success/Failure) ~ Year, X, weights=Total)
summary(fit.WLS)
#
# Plot the results.
#
X.more <- data.frame(Year=1901:2010)
X.more$Prediction <- predict(fit, X.more, type="response")
plot(X$Year, X$Proportion, ylim=0:1,
type="p", pch=21, bg="Red", cex=sqrt(X$Total/2000),
xlab="Year", ylab="Proportion",
main="GLM and OLS Fits", sub="GLM: solid line; OLS: dotted line")
lines(X.more, lwd=2)
abline(lm(Proportion ~ Year, X),
lty=3, lwd=3, col="Gray") #The OLS fit
abline(lm(Proportion ~ Year, X, weights=Total^3/(Success*Failure)),
lty=3, lwd=3, col="Blue") #The weighted OLS fit to the proportions