Prueba estadística para tablas de contingencia nxm


12

Tengo un conjunto de datos compuesto por elementos de tres grupos, llamémoslos G1, G2 y G3. Analicé ciertas características de estos elementos y los dividí en 3 tipos de "comportamiento" T1, T2 y T3 (utilicé el análisis de conglomerados para hacerlo).

Entonces, ahora tengo una tabla de contingencia de 3 x 3 como esta con los recuentos de elementos en los tres grupos divididos por tipo:

      |    T1   |    T2   |    T3   |
------+---------+---------+---------+---
  G1  |   18    |   15    |   65    | 
------+---------+---------+---------+---
  G2  |   20    |   10    |   70    |
------+---------+---------+---------+---
  G3  |   15    |   55    |   30    |

Ahora, puedo ejecutar una prueba de Fisher en estos datos en R

data <- matrix(c(18, 20, 15, 15, 10, 55, 65, 70, 30), nrow=3)
fisher.test(data)

y consigo

   Fisher's Exact Test for Count Data

data:  data 
p-value = 9.028e-13
alternative hypothesis: two.sided     

Entonces mis preguntas son:

  • ¿Es correcto utilizar la prueba de Fisher de esta manera?

  • ¿Cómo sé quién es diferente de quién? ¿Hay alguna prueba post-hoc que pueda usar? En cuanto a los datos que diría el 3 er grupo tiene un comportamiento diferente de los dos primeros, ¿cómo demuestro que estadísticamente?

  • alguien me señaló los modelos logit: ¿son una opción viable para este tipo de análisis?

  • ¿Alguna otra opción para analizar este tipo de datos?

Muchas gracias

nico

Respuestas:


13

Al principio creo que la prueba de Fisher se usa correctamente.

Los datos de recuento se manejan mejor utilizando modelos log-lineales (no logit, para garantizar que los valores ajustados estén limitados a continuación). En R puede especificar family=poisson(que establece errores = Poisson y link = log). El enlace de registro asegura que todos los valores ajustados son positivos, mientras que los errores de Poisson tienen en cuenta el hecho de que los datos son enteros y tienen variaciones que son iguales a sus medias. por ejemplo, glm(y~x,poisson)y el modelo está equipado con un enlace de registro y errores de Poisson (para tener en cuenta la no normalidad).

En los casos en que hay una sobredispersión (la desviación residual debe ser igual a los grados residuales de libertad, si el supuesto de los errores de Poisson es apropiado), en lugar de utilizarlo quasipoissoncomo la familia del error, podría ajustarse a un modelo binomial negativo. (Esto implica la función glm.nbdel paquete MASS)

En su caso, podría ajustar y comparar modelos utilizando comandos como el siguiente:

observed <- as.vector(data)
Ts<-factor(rep(c("T1","T2","T3"),each=3))
Gs<-factor(rep(c("G1","G2","G3"),3))

model1<-glm(observed~Ts*Gs,poisson)

#or and a model without the interaction terms
model2<-glm(observed~Ts+Gs,poisson)


#you can compare the two models using anova with a chi-squared test
anova(model1,model2,test="Chi")
summary(model1)

Siempre asegúrese de que su modelo mínimo contenga todas las variables molestas.

En cuanto a cómo sabemos quién es diferente de quién, hay algunas tramas que pueden ayudarlo. La función R assocplotproduce un gráfico de asociación que indica desviaciones de la independencia de filas y columnas en una tabla de contingencia bidimensional.

Aquí están los mismos datos trazados como un diagrama de mosaico

mosaicplot(data, shade = TRUE)

Gracias, eso es exactamente lo que necesitaba. No estoy completamente seguro de lo que quieres decir cuando hablas de la sobredispersión (lo siento, no soy un estadístico, tal vez sea algo muy básico) ... Dices que la desviación residual debería ser igual a los grados residuales de libertad ... ¿cómo comprobaría eso?
nico

Si das summary(model1), verás algo comoResidual deviance: -2.7768e-28 on 0 degrees of freedom
George Dontas

4

Puede usar el paquete multinom de nnet para la regresión multinomial. Pruebas post hoc puede usar hipótesis lineal del paquete del automóvil. Puede realizar una prueba de independencia utilizando hipótesis lineal (prueba de Wald) o anova (prueba de LR).

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.