Estoy considerando usar bibliotecas de Python para hacer mis experimentos de Machine Learning. Hasta ahora, había estado confiando en WEKA, pero en general he estado bastante insatisfecho. Esto se debe principalmente a que he encontrado que WEKA no está tan bien respaldado (muy pocos ejemplos, la documentación es escasa y el apoyo de la comunidad es menos que deseable en mi experiencia), y me he encontrado en situaciones difíciles sin ayuda. Otra razón por la que estoy considerando este movimiento es porque realmente me gusta Python (soy nuevo en Python) y no quiero volver a la codificación en Java.
Entonces mi pregunta es, ¿cuáles son los más
- exhaustivo
- escalable (100k características, 10k ejemplos) y
- bibliotecas bien soportadas para hacer ML en Python por ahí?
Estoy particularmente interesado en hacer una clasificación de texto, por lo que me gustaría utilizar una biblioteca que tenga una buena colección de clasificadores, métodos de selección de características (Ganancia de información, Chi-Sqaured, etc.) y capacidades de preprocesamiento de texto (derivación, eliminación de palabras vacías , tf-idf, etc.).
Basado en los hilos de correo electrónico pasados aquí y en otros lugares, hasta ahora he estado mirando PyML, scikits-learn y Orange. ¿Cómo han sido las experiencias de las personas con respecto a las 3 métricas anteriores que menciono?
¿Cualquier otra sugerencia?