Aprendizaje de última generación en streaming

Últimamente he estado trabajando con grandes conjuntos de datos y encontré muchos documentos sobre métodos de transmisión. Para nombrar unos pocos:

Follow-the-Regularized-Leader and Mirror Descent: Equivalence Theorems and L1 Regularization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
Aprendizaje continuo: SVM de un solo paso ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
Pegasos: Primal Estimado sub-GrAdient SOlver para SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
o aquí: ¿Puede SVM hacer streaming de aprendizaje un ejemplo a la vez?
Streaming Random Forests ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )

Sin embargo, no he podido encontrar ninguna documentación sobre cómo se comparan entre sí. Cada artículo que leo parece ejecutar experimentos en diferentes conjuntos de datos.

Sé sobre sofia-ml, votepal wabbit, pero parecen implementar muy pocos métodos, en comparación con la gran cantidad de métodos existentes.

¿Los algoritmos menos comunes no son lo suficientemente eficaces? ¿Hay algún documento tratando de revisar tantos métodos como sea posible?

— RUser4512
fuente

Si no lo hay, debe escribirlo usted mismo :)

— Chris C

entiendes que la gente en la academia tiene que escribir artículos / elaborar nuevos algoritmos, y buscarán los conjuntos de datos en los que su algoritmo funciona mejor. Le recomendaría que se asegure de comprender cómo funciona una biblioteca como votpal-wabbit (es decir, todos los parámetros, etc.).

— seanv507

Eso es realmente lo contrario! Comprendí que las personas eligieron el mejor conjunto de datos y, en general, son relativamente silenciosas sobre cómo validaron de forma cruzada los algoritmos (tanto los suyos como los de la competencia). Estoy buscando una versión de transmisión de jmlr.org/papers/volume15/delgado14a/delgado14a.pdf

— RUser4512

Realmente me gusta el papel JMLR que vinculó. Yo mismo no conozco una comparación similar para los algoritmos de transmisión. Probablemente porque la transmisión es más específica y también porque aunque ya es difícil comparar clasificadores para conjuntos de datos estáticos, es aún más complicado hacer una comparación justa para la transmisión de datos.

— stats0007

Aunque estos no responden específicamente a su pregunta, dos recursos relacionados son: Evaluación de algoritmos que aprenden de los flujos de datos por Gama et al., Que analiza las técnicas de evaluación, y MOA (Análisis masivo en línea) , un marco de código abierto para la minería de flujos de datos que incorpora La capacidad de evaluar el rendimiento.

— user77876

Hasta donde yo sé, no está disponible una encuesta rigurosa de múltiples algoritmos similar al documento de Delgado que vinculó, pero se han realizado esfuerzos para recopilar resultados para familias de algoritmos.

Aquí hay algunas fuentes que encuentro útiles (descargo de responsabilidad: publico en el área, por lo que es probable que esté sesgado en mi selección):

Una encuesta sobre Ensemble Learning para la Clasificación de flujo de datos (Encuesta)
Aprendizaje en línea y optimización convexa en línea (Informe técnico)
Aprendizaje automático en línea en grandes flujos de datos (encuesta)
Aprendizaje automático para flujos de datos (libro)
Algoritmos para aprender árboles y conjuntos de regresión en flujos de datos en evolución (Tesis doctoral)
Aprendizaje bajo deriva conceptual: una visión general (encuesta)
Aprendizaje en línea óptimo y adaptativo (tesis doctoral)
Aprendizaje adaptativo y minería para flujos de datos y patrones frecuentes (Tesis doctoral)

Algunos paquetes de software:

Puedo agregar más información y fuentes si es necesario. Como otros han dicho, el campo podría usar una encuesta integral.

— Bar
fuente