Introducción
Tengo una tabla de contingencia categórica con muchas filas y un resultado binario, que cuento:
name outcome1 outcome2
---- -------- --------
A 14 5
B 17 2
C 6 5
D 11 8
E 18 14
Todo esto está bien, porque aún ambas categorías (nombre y resultado) son independientes entre sí, es decir , la persona A no puede ser la persona B al mismo tiempo, y el resultado1 no ocurre al mismo tiempo que el resultado2.
Agregar problemas
Sin embargo, ahora quiero enriquecer mi conjunto de datos asignando clases a los agentes. Las clases no son exclusivas, y algunas incluso pueden depender unas de otras. Para el ejemplo anterior, con cuatro clases C x :
name C1 C2 C3 C4
---- --- --- --- ---
A 0 0 1 1
B 1 0 1 0
C 1 1 0 1
D 1 1 0 0
E 1 1 1 0
Ahora quiero saber si hay una dependencia de una clase en el resultado del experimento.
Posible solución (ingenua)
Mi idea era inicialmente agregar según la clase y luego realizar las pruebas de independencia, de modo que la tabla se vería así:
class outcome1 outcome2
------ -------- --------
C3 49 21
not_C3 17 13
Sin embargo, se me ocurrió que oculto la influencia de las otras clases con este método, porque aislo según la clase, lo que puede darme malos resultados si algunas de las clases dependen mucho unas de otras.
Además, mi conjunto de datos reales contiene alrededor de 200 agentes y 30 categorías, por lo que mi método daría muchos resultados que ahora sé interpretar.
La pregunta
Con esto en mente, me dirijo a usted: ¿Qué método estadístico es aplicable para probar la (in) dependencia de un conjunto de datos con una variable categórica no exclusiva y una variable categórica binaria?
Me gustaría obtener algún resultado en la línea de "Categoría 1 es el predictor más fuerte para el resultado ( p <0.01). También se correlaciona con la Categoría 2".
Las soluciones que usan Python o R son más que bienvenidas, pero no necesito código. Necesito saber qué método es aplicable.