Cuando tiene un conjunto de datos tan grande, puede jugar con cualquiera de las técnicas de modelado estadístico y de aprendizaje automático y eso es muy recomendable. Como otros han sugerido, también recomendaría tomar algunos millones de muestras aleatorias de datos y jugar con eso. Como se trata de un problema de clasificación, primero seguiría las técnicas de clasificación simples y luego seguiría con las más complejas. La regresión logística es excelente para comenzar.
Quería agregar que los modelos generativos también deben probarse. El clasificador Naive Bayes es uno de los clasificadores probabilísticos más simples y supera a muchos métodos complejos como máquinas de vectores de soporte en muchas tareas. Puede ver esta implementación simple de NB y este enlace para comparar NB con regresión logística.
Uno puede construir un clasificador Naive bayes (NB) como modelo de referencia y luego optar por cualquier técnica de aprendizaje automático como máquinas de vectores de soporte (SVM) o perceptrones multicapa (MLP). Una compensación aquí es que NB es computacionalmente menos costoso que MLP, por lo que se desea un mejor rendimiento de MLP.
Llegando a su consulta exacta: el aprendizaje profundo y el impulso del árbol de gradientes son técnicas muy poderosas que pueden modelar cualquier tipo de relación en los datos. Pero, ¿qué pasa si en su caso una simple regresión logística o NB está dando la precisión deseada? Por lo tanto, siempre es mejor probar primero las técnicas simples y tener un rendimiento básico. Entonces uno puede ir a los modelos complejos y comparar con la línea de base.