Estamos estudiando el aprendizaje automático a través del aprendizaje automático: una perspectiva probabilística (Kevin Murphy). Si bien el texto explica la base teórica de cada algoritmo, rara vez dice en qué caso qué algoritmo es mejor, y cuando lo hace, no dice cómo saber en qué caso estoy.
Por ejemplo, para la elección del kernel, me dijeron que hiciera un análisis de datos exploratorio para evaluar la complejidad de mis datos. En datos bidimensionales simples, puedo trazar y ver si un núcleo lineal o radial es apropiado. ¿Pero qué hacer en la dimensión superior?
En términos más generales, ¿qué quieren decir las personas cuando dicen "conocer sus datos" antes de elegir un algoritmo? En este momento solo puedo distinguir el algoritmo de clasificación vs regresión, y el algoritmo lineal versus no lineal (que no puedo verificar).
EDITAR: Aunque mi pregunta original es sobre la regla general, me han pedido que brinde más información sobre mi problema particular.
Datos: un panel con cada fila siendo un país-mes (~ 30,000 filas en total, cubriendo ~ 165 países durante ~ 15 años).
Respuesta: 5 variables binarias de interés (es decir, si la protesta / golpe / crisis, etc. suceden en ese mes).
Características: ~ 400 variables (una combinación de continuo, categórico, binario) que detalla un conjunto de características de los 2 meses-país anteriores (se puede crear un retraso más largo). Solo usamos variables rezagadas ya que el objetivo es la predicción.
Los ejemplos incluyen, tipo de cambio, crecimiento del PIB (continuo), nivel de prensa libre (categórico), democracia, si el vecino tiene conflicto (binario). Tenga en cuenta que muchas de estas 400 características son variables rezagadas.