Prueba de frecuencias emparejadas para la independencia

Espero que esto no sea demasiado básico o redundante. He estado buscando orientación, pero hasta ahora todavía no estoy seguro de cómo proceder.

Mis datos consisten en conteos de una estructura particular utilizada en conversaciones entre pares de interlocutores. La hipótesis que quiero probar es la siguiente: el uso más frecuente de esta estructura por parte de un hablante tenderá a aumentar la frecuencia de la estructura por parte del otro hablante (es decir, esto podría ser evidencia de un efecto de cebado).

Así que solo tengo dos vectores, los recuentos para el hablante A y los recuentos para el hablante B son las columnas, y si están alineados cada fila representa una conversación particular, como esta:

AB
0 1
0 2
1 0
3 1
0 2
2 0
2 1

Hay alrededor de 420 conversaciones (filas). Hay muchos ceros en estos datos.

¿Cuál sería la mejor manera de analizar estos datos? Estoy usando R, si eso hace la diferencia.

Aquí hay una gráfica de las frecuencias (conteos). El eje x es el número de usos del hablante A, el número de usos del eje y por el hablante B. La distinción entre hablantes significa solo que el hablante A habló primero, y no hay ninguna razón especial por la que lo hicieron. De lo contrario, la distinción entre el hablante A y el hablante B básicamente no tiene sentido:

XHTML válido http://phonematic.com/convplot.jpg

Y esta es la frecuencia relativa al número de oraciones pronunciadas por cada hablante en cada conversación. :

XHTML válido http://phonematic.com/rs_plot.jpg

(Debo mencionar que he descartado conversaciones sin ningún resultado, es decir, {0,0}).

categorical-data independence

— Alan H.
fuente

¿Es cada fila el recuento de una estructura diferente para la misma conversación, o el recuento de la misma estructura para diferentes períodos de tiempo?

— RockScience

Cada fila es el número total de usos de la misma estructura por dos personas diferentes que hablan entre sí. Entonces, por ejemplo, si estaba contando oraciones pasivas, entonces el número en la columna A sería el número de oraciones pasivas utilizadas por el hablante A, y el número en la columna B el número de oraciones pasivas utilizadas por el hablante B. Entonces cada fila es Una conversación diferente. Cada conversación tiene exactamente dos participantes.

— Alan H.

También tengo los mismos datos calculados en relación con el número de oraciones pronunciadas por cada hablante en cada conversación, si eso marca la diferencia.

— Alan H.

Lo siento si soy un poco lento, pero todavía tengo algunas dificultades para comprender su estructura de datos. ¿Hay solo 2 oradores, con 420 mediciones repetidas recogidas en cada una (quiero decir una fila = un tipo de conversación, pero se registra el mismo resultado, por ejemplo, No. oraciones pasivas)? Pregunto esto porque tiene algún tipo de emparejamiento o emparejamiento (entre los sujetos A y B), pero en este último caso, también tendría que lidiar con mediciones repetidas, y esto hace que los modelos marginales para pares emparejados sean menos relevantes.

— chl

No, estos son todos diferentes altavoces también. Estos datos fueron tomados de un corpus de conversaciones telefónicas grabadas. Entonces el orador A en la conversación 1 no es la misma persona que el orador A en la conversación 2.

— Alan H.

Respuestas:

Los modelos lineales logarítmicos podrían ser otra opción a considerar, si desea estudiar su estructura de datos bidireccional.

Si supone que las dos muestras coinciden (es decir, existe algún tipo de dependencia entre las dos series de locuciones) y tiene en cuenta que los datos son en realidad recuentos que pueden considerarse como puntuaciones o respuestas ordenadas (como sugiere @caracal ), también puede observar modelos marginales para pares coincidentes, que generalmente implican el análisis de una tabla de contingencia cuadrada. Puede que no sea necesariamente el caso que termine con una tabla tan cuadrada, pero también podemos decidir un límite superior para el número de, por ejemplo, oraciones pasivas. De todos modos, los modelos para pares coincidentes se explican bien en el Capítulo 10 de Agresti, Análisis de datos categóricos ; los modelos relevantes para categorías ordinales en tablas cuadradas están probando cuasi-simetría(la diferencia en el efecto de una categoría de un caso a otro sigue una tendencia lineal en los puntajes de la categoría), simetría condicional ( o , ) y asociación cuasi uniforme ( asociación lineal por lineal fuera de la diagonal principal, que en el caso de puntajes de intervalos iguales significa una asociación local uniforme). La cuasi-simetría ordinal (OQS) es un caso especial del modelo logit lineal, y se puede comparar con un modelo más simple donde solo la homogeneidad marginal se mantiene con una prueba LR, porque la cuasi-simetría ordinal + homogeneidad marginal simetría. $\pi_{ab}<\pi_{ab}$ $\pi_{ab}>\pi_{ab}$ $\forall a,b$ $=$

Siguiendo la notación de Agresti (p. 429), consideramos puntuaciones ordenadas para la variable (en filas) y la variable (en columnas); o denota cualquier fila o columna. El modelo OQS se lee como el siguiente modelo log-lineal: $u_1\leq\dots\leq u_I$ $X$ $Y$ $a$ $b$

\log μ_{a b} = λ + λ_{a} + λ_{b} + β u_{b} + λ_{a b}

$\log\mu_{ab}=\lambda+\lambda_a+\lambda_b+\beta u_b +\lambda_{ab}$

donde para todos . En comparación con el modelo QS habitual para datos nominales que es , donde significaría independencia entre las dos variables , en el modelo OQS imponemos (introduciendo así la idea de una tendencia lineal). La representación de logit equivalente es , para . $\lambda_{ab}=\lambda_{ba}$ $a<b$ $\log\mu_{ab}=\lambda+\lambda_a^X+\lambda_b^Y+\lambda_{ab}$ $\lambda_{ab}=0$ $\lambda_b^Y-\lambda_b^X=\beta u_b$ $\log(\pi_{ab}/\pi_{ba})=\beta(u_b-u_a)$ $a\leq b$

Si , entonces tenemos simetría como un caso especial de este modelo. Si , entonces tenemos márgenes estocásticamente ordenados, es decir, significa que la media de la columna es mayor en comparación con la media de la fila (y cuanto mayor es , mayores son las diferencias entre las dos distribuciones de probabilidades conjuntas y son, lo que se reflejará en las diferencias entre las distribuciones marginales de fila y columna). Una prueba de corresponde a una prueba de homogeneidad marginal. La interpretación de la estimada es sencilla: la probabilidad estimada de que la puntuación en la variable sea $\beta=0$ $\beta\neq 0$ $\beta>0$ $|\beta|$ $\pi_{ab}$ $\pi_{ba}$ $\beta=0$ $\beta$ $X$ $x$ unidades más positivas que la puntuación en es multiplicado por la probabilidad inversa. En su caso particular, significa que podría permitir cuantificar la influencia que un hablante en particular ejerce sobre el otro. $Y$ $\exp(\hat\beta x)$ $\hat\beta$

Cabe destacar que Laura Thompson puso a disposición todo el código R en su Manual S para Acompañar el Análisis de Datos Categóricos de Agresti .

En lo sucesivo, proporciono un código R de ejemplo para que pueda jugar con sus propios datos. Entonces, intentemos generar algunos datos primero:

set.seed(56)
d <- as.data.frame(replicate(2, rpois(420, 1.5)))
colnames(d) <- paste("S", 1:2, sep="")
d.tab <- table(d$S1, d$S2, dnn=names(d)) # or xtabs(~S1+S2, d)
library(vcdExtra)
structable(~S1+S2, data=d)
# library(ggplot2)
# ggfluctuation(d.tab, type="color") + labs(x="S1", y="S2") + theme_bw()

Visualmente, la clasificación cruzada se ve así:

   S2  0  1  2  3  4  5  6
S1                        
0     17 35 31  8  7  3  0
1     41 41 30 23  7  2  0
2     19 43 18 18  5  0  1
3     11 21  9 15  2  1  0
4      0  3  4  1  0  0  0
5      1  0  0  2  0  0  0
6      0  0  0  1  0  0  0

Ahora, podemos adaptarnos al modelo OQS. A diferencia de Laura Thompson, que utilizó la glm()función base y una matriz de diseño personalizado para la simetría, podemos confiar en el paquete gnm ; sin embargo, necesitamos agregar un vector para puntajes numéricos para estimar en el modelo anterior. $\beta$

library(gnm)
d.long <- data.frame(counts=c(d.tab), S1=gl(7,1,7*7,labels=0:6),
                     S2=gl(7,7,7*7,labels=0:6))
d.long$scores <- rep(0:6, each=7)
summary(mod.oqs <- gnm(counts~scores+Symm(S1,S2), data=d.long, 
                       family=poisson))
anova(mod.oqs)

$\hat\beta=0.123$ $\exp(0.123)=1.13$

Recientemente me encontré con el paquete catspec R que parece ofrecer instalaciones similares, pero no lo probé. ¡Hubo un buen tutorial en UseR! 2009 sobre todo esto: Introducción a los modelos no lineales generalizados en R , pero vea también la viñeta de acompañamiento, Modelos no lineales generalizados en R: una descripción general del paquete gnm .

$\hat\beta$

table.10.5 <- data.frame(expand.grid(PreSex=factor(1:4),
                                     ExSex=factor(1:4)),
                         counts=c(144,33,84,126,2,4,14,29,0,2,6,25,0,0,1,5))
table.10.5$scores <- rep(1:4,each=4)
summary(mod.oqs <- gnm(counts~scores+Symm(PreSex,ExSex), data=table.10.5, 
                       family=poisson)) # beta = -2.857
anova(mod.oqs) # G^2(5)=2.10

— chl
fuente

Wow, esto se ve realmente útil. Obtendré una copia de este libro tan pronto como pueda, ya que todo el mundo parece estarlo citando. Mientras tanto, solo una pregunta ingenua: ¿pueden estos modelos lidiar con un número arbitrario de efectos aleatorios? Creo que necesito 3 en mi modelo.

— Alan H.

@Alan Tenga en cuenta que nosotros (@caracal y yo) no estamos citando el mismo libro. El CDA es el más completo, pero el libro de texto de Laura Thompson ya incluye aproximadamente 10 páginas de resumen para cada capítulo. Mira su libro de texto primero. ICDA está disponible en los libros de Google, creo.

— chl

π_{a b} < π_{b a}

$\pi_{ab}<\pi_{ba}$

π_{a b} > π_{b a}

$\pi_{ab}>\pi_{ba}$

\forall a < b

$\forall a<b$

Parece que ha ordenado datos categóricos, por lo tanto, sugiero una prueba lineal por lineal según lo descrito por Agresti (2007, p229 y siguientes). La función lbl_test()del paquete lo coinimplementa en R.

Agresti, A. (2007). Introducción al análisis de datos categóricos. 2da ed. Hoboken, Nueva Jersey: John Wiley & Sons. Hoboken, Nueva Jersey: Wiley.

— lince
fuente

Quizás comenzaría con un análisis de correlación de rango .
El problema es que puede tener correlaciones muy bajas ya que los efectos que intenta capturar son pequeños.

Los coeficientes de correlación de Kendall y Spearman se implementan en R en

cor(x=A, y=B, method = "spearman")  
cor(x=A, y=B, method = "kendall")

— RockScience
fuente

0

$0$

Intenté esto. Pero con tantos ceros no estoy seguro de qué hacer con él. Intenté excluir cualquier conversación en la que ninguno de los oradores usara ninguna de estas construcciones (es decir, el punto de datos caería a lo largo de cualquiera de los ejes), pero la correlación de Spearman resultante no fue significativa (y el coeficiente fue muy pequeño) ...

— Alan H.