Modelado predictivo: ¿debería importarnos el modelado mixto?


19

Para el modelado predictivo, ¿debemos preocuparnos por conceptos estadísticos como los efectos aleatorios y la no independencia de las observaciones (medidas repetidas)? Por ejemplo....

Tengo datos de 5 campañas de correo directo (ocurridas en el transcurso de un año) con varios atributos y una bandera de compra. Idealmente, usaría todos estos datos combinados para construir un modelo para la compra dados los atributos del cliente al momento de la campaña. La razón es que el evento de compra es raro y me gustaría utilizar la mayor cantidad de información posible. Existe la posibilidad de que un cliente determinado pueda estar entre 1 y 5 de las campañas, lo que significa que no hay independencia entre los registros.

¿Importa esto al usar:

1) Un enfoque de aprendizaje automático (por ejemplo, árbol, MLP, SVM)

2) ¿Un enfoque estadístico (regresión logística)?

**ADD:**

Mi pensamiento sobre el modelado predictivo es si el modelo funciona, úselo. De modo que nunca he considerado realmente la importancia de los supuestos. Pensar en el caso que describo arriba me hizo preguntarme.

Tome algoritmos de aprendizaje automático como a MLP and SVM. Estos se utilizan con éxito para modelar un evento binario, como mi ejemplo anterior, pero también datos de series temporales que están claramente correlacionados. Sin embargo, muchos usan funciones de pérdida que son probabilidades y derivadas suponiendo que los errores son iid. Por ejemplo, los árboles impulsados ​​por gradiente en R gbmutilizan funciones de pérdida de desviación que se derivan del binomio ( Página 10 ).


1
Importará para los enfoques estadísticos que asuman la independencia entre los registros, porque entonces se trata de medidas repetidas.
Michelle

44
Me parece que una de las principales diferencias entre el aprendizaje automático centrado en la predicción y las estadísticas centradas en la inferencia es exactamente lo que usted dice, B_Miner. El aprendizaje automático está más preocupado por lo que funciona, mientras que las estadísticas tradicionales prestan especial atención a los supuestos. En ambos casos, debe conocer las suposiciones / propiedades de sus enfoques y luego tomar una decisión informada sobre si son importantes o no. Es posible que se esté engañando a sí mismo en el modelado predictivo sobre si su modelo funciona si no comprende las suposiciones / propiedades del enfoque.
Anne Z.

2
@ AnneZ. Si sigue el enfoque de validación recomendado del conjunto de entrenamiento, prueba y validación (todas las muestras lo suficientemente grandes) en el modelado predictivo y encuentra algo que funciona, ¿hay que preocuparse si se cumplen los supuestos subyacentes? Ciertamente no recomiendo la aplicación sin sentido de ML, me preguntaba ...
steffen

2
En este contexto, el documento "Modelado estadístico: las dos culturas" podría ser interesante, discutido en el tercer club de revistas con validación cruzada
steffen

Respuestas:


14

Me he estado preguntando esto yo mismo , y aquí están mis conclusiones tentativas. Sería feliz si alguien pudiera complementar / corregir esto con su conocimiento y cualquier referencia sobre este tema.

Si desea probar hipótesis sobre los coeficientes de regresión logística al verificar la significancia estadística, debe modelar la correlación a través de las observaciones (o corregir de otro modo la no independencia) porque de lo contrario sus errores estándar serán demasiado pequeños, al menos cuando esté considerando efectos de racimo. Pero los coeficientes de regresión son insesgados incluso con observaciones correlacionadas, por lo que debería estar bien usar dicho modelo para la predicción.

En el modelado predictivo, no debería tener que explicar explícitamente la correlación al entrenar su modelo, ya sea que esté utilizando la regresión logística o algún otro enfoque. Sin embargo, si desea utilizar un conjunto de reserva para la validación o el cálculo del error fuera de la muestra, debe asegurarse de que las observaciones para cada individuo aparecieron solo en un conjunto, ya sea entrenamiento o validación, pero no ambos. De lo contrario, su modelo estará prediciendo para las personas sobre las que ya tiene información y no está obteniendo una verdadera lectura sobre la capacidad de clasificación fuera de la muestra.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.