Estoy desarrollando una aplicación de pronóstico cuyo propósito es permitir que un importador pronostique la demanda de sus productos de su red de distribuidores de clientes. Las cifras de ventas son un buen proxy de la demanda, siempre que haya un inventario adecuado para satisfacer la demanda. Sin embargo, cuando el inventario se reduce a cero (la situación que estamos buscando para ayudar a nuestros clientes a evitar), no sabemos mucho por lo que hemos perdido el objetivo. ¿Cuántas ventas habría realizado el cliente si hubiera tenido un suministro suficiente? Los enfoques de LD basados en la regresión estándar que usan ventas como una variable objetivo simple producirán estimaciones inconsistentes de la relación entre el tiempo, mis variables descriptivas y la demanda.
El modelado de Tobit es la forma más obvia de abordar el problema: http://en.wikipedia.org/wiki/Tobit_model . Me pregunto acerca de las adaptaciones de ML de bosques aleatorios, GBMS, SVM y redes neuronales que también representan una estructura censurada de datos zurda.
En resumen, ¿cómo aplico las herramientas de aprendizaje automático a los datos de regresión censurados a la izquierda para obtener estimaciones consistentes de las relaciones entre mis variables dependientes e independientes? La primera preferencia sería para las soluciones disponibles en R, seguido de Python.
Salud,
Aaron