¿Es racional (teórico, sustancial, estadístico) optar por el aprendizaje automático o los modelos de peligro al modelar la rotación de clientes (o más general, eventos)?
¿Es racional (teórico, sustancial, estadístico) optar por el aprendizaje automático o los modelos de peligro al modelar la rotación de clientes (o más general, eventos)?
Respuestas:
Creo que su pregunta podría definirse mejor. La primera distinción para los modelos de abandono es entre crear
(1) un modelo binario (o multiclase si hay varios tipos de abandono) para estimar la probabilidad de que un cliente abandone un determinado punto futuro (por ejemplo, los próximos 3 meses)
(2) un modelo de tipo de supervivencia que crea una estimación del riesgo de desgaste cada período (digamos cada mes para el próximo año)
Cuál de los dos es correcto para su situación depende del uso del modelo. Si realmente desea comprender el riesgo de desgaste con el tiempo y tal vez comprender cómo las variables (posiblemente variables en el tiempo) interactúan con el tiempo, entonces es apropiado un modelo de supervivencia. Para muchos modelos de clientes, prefiero usar modelos de riesgo de tiempo discreto para este propósito porque el tiempo a menudo es discreto en las bases de datos y la estimación de riesgo es una probabilidad del evento. La regresión de Cox es otra opción popular, pero el tiempo se trata como continuo (o mediante ajuste por vínculos), pero el peligro no es técnicamente una probabilidad.
Para la mayoría de los modelos de abandono, donde una compañía está interesada en apuntar a ese x% de los clientes que están en mayor riesgo y la base de datos se califica cada vez que se lanza una campaña de apuntado, la opción binaria (o de clase múltiple) es normalmente lo que se necesita.
La segunda opción es cómo estimar los modelos. ¿Utiliza un modelo estadístico tradicional como la regresión logística para el modelo binario (multiclase) o un algoritmo de aprendizaje automático (por ejemplo, bosque aleatorio). La elección se basa en cuál da el modelo más preciso y qué nivel de interpretabilidad se requiere. Para modelos de riesgo de tiempo discreto, una regresión logística se usa típicamente con splines para introducir efectos no lineales del tiempo. Esto también se puede hacer con redes neuronales y muchos otros tipos de algoritmos ML, ya que la configuración es simplemente aprendizaje supervisado con un conjunto de datos de "período de persona". Además, la regresión de Cox puede ajustarse a algoritmos tradicionales como SAS proc phreg o R coxph (). El algoritmo de aprendizaje automático GBM también se ajusta a la regresión de Cox con una función de pérdida seleccionada. Como se ha mencionado,
En primer lugar, aclararía exactamente dónde se hace la distinción entre el aprendizaje automático y los modelos de peligro. Según tengo entendido, la literatura ml distingue entre modelos paramétricos y no paramétricos (entre otros).
Y segundo, ¿para qué necesitas el modelo? ¿Es para investigación científica o algo más? En cualquier caso, elegir el modelo apropiado para describir sus datos depende en primer lugar de para qué necesita el modelo.
A su pregunta: depende de cuánto sepa sobre el proceso de generación de datos.
Si, por ejemplo, toma el famoso lanzamiento de moneda o tirada de dados, tiene una muy buena idea sobre el proceso que genera el resultado esperado de un experimento.
En ese caso, realmente desea utilizar una estimación paramétrica (bayesiana o frecuentista) porque le proporcionarán una muy buena estimación del parámetro desconocido. Además, estos modelos se entienden muy bien, lo que tiene muchas ventajas.
Si no conoce el proceso de generación de datos, o no está seguro de ello, no tiene muchas opciones, tendrá que estimar los parámetros que describen los datos de los datos en sí. Si decide este enfoque, debe aceptar que estos modelos tienen inconvenientes (dependiendo del modelo específico, etc.)
Según tengo entendido, cuanto menos sepa sobre un proceso, más tendrá que estimar a partir de los datos en sí, lo que sin duda tendrá un precio.