Los modelos lineales logarítmicos podrían ser otra opción a considerar, si desea estudiar su estructura de datos bidireccional.
Si supone que las dos muestras coinciden (es decir, existe algún tipo de dependencia entre las dos series de locuciones) y tiene en cuenta que los datos son en realidad recuentos que pueden considerarse como puntuaciones o respuestas ordenadas (como sugiere @caracal ), también puede observar modelos marginales para pares coincidentes, que generalmente implican el análisis de una tabla de contingencia cuadrada. Puede que no sea necesariamente el caso que termine con una tabla tan cuadrada, pero también podemos decidir un límite superior para el número de, por ejemplo, oraciones pasivas. De todos modos, los modelos para pares coincidentes se explican bien en el Capítulo 10 de Agresti, Análisis de datos categóricos ; los modelos relevantes para categorías ordinales en tablas cuadradas están probando cuasi-simetría(la diferencia en el efecto de una categoría de un caso a otro sigue una tendencia lineal en los puntajes de la categoría), simetría condicional ( o , ) y asociación cuasi uniforme ( asociación lineal por lineal fuera de la diagonal principal, que en el caso de puntajes de intervalos iguales significa una asociación local uniforme). La cuasi-simetría ordinal (OQS) es un caso especial del modelo logit lineal, y se puede comparar con un modelo más simple donde solo la homogeneidad marginal se mantiene con una prueba LR, porque la cuasi-simetría ordinal + homogeneidad marginal simetría.πab<πabπab>πab∀a,b=
Siguiendo la notación de Agresti (p. 429), consideramos puntuaciones ordenadas para la variable (en filas) y la variable (en columnas); o denota cualquier fila o columna. El modelo OQS se lee como el siguiente modelo log-lineal:u1≤⋯≤uIXYab
logμab=λ+λa+λb+βub+λab
donde para todos . En comparación con el modelo QS habitual para datos nominales que es , donde significaría independencia entre las dos variables , en el modelo OQS imponemos (introduciendo así la idea de una tendencia lineal). La representación de logit equivalente es , para .λab=λbaa<blogμab=λ+λXa+λYb+λabλab=0λYb−λXb=βublog(πab/πba)=β(ub−ua)a≤b
Si , entonces tenemos simetría como un caso especial de este modelo. Si , entonces tenemos márgenes estocásticamente ordenados, es decir, significa que la media de la columna es mayor en comparación con la media de la fila (y cuanto mayor es , mayores son las diferencias entre las dos distribuciones de probabilidades conjuntas y son, lo que se reflejará en las diferencias entre las distribuciones marginales de fila y columna). Una prueba de corresponde a una prueba de homogeneidad marginal. La interpretación de la estimada es sencilla: la probabilidad estimada de que la puntuación en la variable seaβ ≠ 0 β > 0 | β | π un b π b una β = 0 β X x Y exp ( β x ) ββ=0β≠0β>0|β|πabπbaβ=0βXx unidades más positivas que la puntuación en es multiplicado por la probabilidad inversa. En su caso particular, significa que podría permitir cuantificar la influencia que un hablante en particular ejerce sobre el otro.Yexp(β^x)β^
Cabe destacar que Laura Thompson puso a disposición todo el código R en su Manual S para Acompañar el Análisis de Datos Categóricos de Agresti .
En lo sucesivo, proporciono un código R de ejemplo para que pueda jugar con sus propios datos. Entonces, intentemos generar algunos datos primero:
set.seed(56)
d <- as.data.frame(replicate(2, rpois(420, 1.5)))
colnames(d) <- paste("S", 1:2, sep="")
d.tab <- table(d$S1, d$S2, dnn=names(d)) # or xtabs(~S1+S2, d)
library(vcdExtra)
structable(~S1+S2, data=d)
# library(ggplot2)
# ggfluctuation(d.tab, type="color") + labs(x="S1", y="S2") + theme_bw()
Visualmente, la clasificación cruzada se ve así:
S2 0 1 2 3 4 5 6
S1
0 17 35 31 8 7 3 0
1 41 41 30 23 7 2 0
2 19 43 18 18 5 0 1
3 11 21 9 15 2 1 0
4 0 3 4 1 0 0 0
5 1 0 0 2 0 0 0
6 0 0 0 1 0 0 0
Ahora, podemos adaptarnos al modelo OQS. A diferencia de Laura Thompson, que utilizó la glm()
función base y una matriz de diseño personalizado para la simetría, podemos confiar en el paquete gnm ; sin embargo, necesitamos agregar un vector para puntajes numéricos para estimar en el modelo anterior.β
library(gnm)
d.long <- data.frame(counts=c(d.tab), S1=gl(7,1,7*7,labels=0:6),
S2=gl(7,7,7*7,labels=0:6))
d.long$scores <- rep(0:6, each=7)
summary(mod.oqs <- gnm(counts~scores+Symm(S1,S2), data=d.long,
family=poisson))
anova(mod.oqs)
β^=0.123exp(0.123)=1.13
Recientemente me encontré con el paquete catspec R que parece ofrecer instalaciones similares, pero no lo probé. ¡Hubo un buen tutorial en UseR! 2009 sobre todo esto: Introducción a los modelos no lineales generalizados en R , pero vea también la viñeta de acompañamiento, Modelos no lineales generalizados en R: una descripción general del paquete gnm .
β^
table.10.5 <- data.frame(expand.grid(PreSex=factor(1:4),
ExSex=factor(1:4)),
counts=c(144,33,84,126,2,4,14,29,0,2,6,25,0,0,1,5))
table.10.5$scores <- rep(1:4,each=4)
summary(mod.oqs <- gnm(counts~scores+Symm(PreSex,ExSex), data=table.10.5,
family=poisson)) # beta = -2.857
anova(mod.oqs) # G^2(5)=2.10