Para el modelado predictivo, ¿debemos preocuparnos por conceptos estadísticos como los efectos aleatorios y la no independencia de las observaciones (medidas repetidas)? Por ejemplo....
Tengo datos de 5 campañas de correo directo (ocurridas en el transcurso de un año) con varios atributos y una bandera de compra. Idealmente, usaría todos estos datos combinados para construir un modelo para la compra dados los atributos del cliente al momento de la campaña. La razón es que el evento de compra es raro y me gustaría utilizar la mayor cantidad de información posible. Existe la posibilidad de que un cliente determinado pueda estar entre 1 y 5 de las campañas, lo que significa que no hay independencia entre los registros.
¿Importa esto al usar:
1) Un enfoque de aprendizaje automático (por ejemplo, árbol, MLP, SVM)
2) ¿Un enfoque estadístico (regresión logística)?
**ADD:**
Mi pensamiento sobre el modelado predictivo es si el modelo funciona, úselo. De modo que nunca he considerado realmente la importancia de los supuestos. Pensar en el caso que describo arriba me hizo preguntarme.
Tome algoritmos de aprendizaje automático como a MLP and SVM
. Estos se utilizan con éxito para modelar un evento binario, como mi ejemplo anterior, pero también datos de series temporales que están claramente correlacionados. Sin embargo, muchos usan funciones de pérdida que son probabilidades y derivadas suponiendo que los errores son iid. Por ejemplo, los árboles impulsados por gradiente en R gbm
utilizan funciones de pérdida de desviación que se derivan del binomio ( Página 10 ).