Supongamos que estoy trabajando en algún problema de clasificación. (La detección de fraude y comentarios no deseados son dos problemas en los que estoy trabajando en este momento, pero tengo curiosidad sobre cualquier tarea de clasificación en general).
¿Cómo sé qué clasificador debo usar?
- Árbol de decisión
- SVM
- Bayesiano
- Red neuronal
- K-vecinos más cercanos
- Q-learning
- Algoritmo genético
- Procesos de decisión de Markov
- Redes neuronales convolucionales
- Regresión lineal o regresión logística.
- Impulso, ensacado, ensamble
- Escalada aleatoria o recocido simulado
- ...
¿En qué casos es una de estas la primera opción "natural", y cuáles son los principios para elegirla?
Ejemplos del tipo de respuestas que estoy buscando (del libro Introducción a la recuperación de información de Manning et al. ):
a. Si sus datos están etiquetados, pero solo tiene una cantidad limitada, debe usar un clasificador con alto sesgo (por ejemplo, Naive Bayes) .
Supongo que esto se debe a que un clasificador de mayor sesgo tendrá una varianza más baja, lo cual es bueno debido a la pequeña cantidad de datos.
si. Si tiene una tonelada de datos, entonces el clasificador realmente no importa tanto, por lo que probablemente debería elegir un clasificador con buena escalabilidad.
¿Cuáles son otras pautas? Incluso las respuestas como "si tendrá que explicar su modelo a alguna persona de la alta gerencia, entonces tal vez debería usar un árbol de decisión, ya que las reglas de decisión son bastante transparentes" son buenas. Sin embargo, me importan menos los problemas de implementación / biblioteca.
Además, para una pregunta un tanto separada, además de los clasificadores Bayesianos estándar, ¿existen métodos 'estándar de vanguardia' para la detección de comentarios no deseados (a diferencia del correo no deseado)?