Tengo un conjunto de datos que es estrictamente binario. El conjunto de valores de cada variable está en el dominio: verdadero, falso.
La propiedad "especial" de este conjunto de datos es que una abrumadora mayoría de los valores son "falsos".
Ya he usado un algoritmo de aprendizaje de red bayesiano para aprender una red a partir de los datos. sin embargo, para uno de mis nodos objetivo (el más importante, la muerte), el resultado de AUC no es muy bueno; es un poco mejor que el azar. Incluso el valor predictivo positivo (VPP), que me han sugerido en CV, no era competitivo con lo que se informa en la literatura con otros enfoques. tenga en cuenta que el AUC (análisis ROC) es el punto de referencia típico informado en esta área de investigación clínica, pero también estoy abierto a sugerencias sobre cómo comparar de manera más apropiada el modelo de clasificación si hay alguna otra idea.
Entonces, me preguntaba qué otros modelos de clasificación puedo probar para este tipo de conjunto de datos con esta propiedad (en su mayoría valores falsos).
- apoyaría la ayuda de la máquina de vectores? Por lo que sé, SVM solo trata con variables continuas como predictores (aunque se ha adaptado a varias clases). pero mis variables son todas binarias.
- ayudaría un bosque al azar?
- ¿se aplicaría aquí la regresión logística? Hasta donde yo sé, los predictores en regresión logística también son continuos. ¿Existe una versión generalizada para las variables binarias como predictores?
Además del rendimiento de la clasificación, sospecho que la SVM y el bosque aleatorio podrían superar a la red bayesiana, pero el problema se centra en cómo explicar las relaciones en estos modelos (especialmente a los médicos).