Estás haciendo la pregunta equivocada.
En lugar de preguntar "qué algoritmo", debería preguntarse "qué es una categoría / clúster significativo en su aplicación".
No me sorprende que los algoritmos anteriores no funcionen, están diseñados para casos de uso muy diferentes. k-means no funciona con otras distancias arbitrarias. No lo use con la distancia de Hamming. Hay una razón por la que se llama k- medias , solo tiene sentido usarla cuando la media aritmética es significativa (que no es para datos binarios).
Es posible que desee probar los modos k, IIRC, esta es una variante que en realidad está destinada a ser utilizada con datos categoriales, y los datos binarios son algo categoriales (pero la dispersión aún puede matarlo).
Pero antes que nada, ¿ha eliminado duplicados para simplificar sus datos, y ha eliminado columnas únicas / vacías, por ejemplo?
Quizás APRIORI o enfoques similares también sean más significativos para su problema.
De cualquier manera, primero descubra lo que necesita, luego qué algoritmo puede resolver este desafío. Trabaje basado en datos , no probando algoritmos aleatorios.