No puedo ser específico sobre la naturaleza de los datos, ya que son propietarios, pero supongamos que tenemos datos como este: cada mes, algunas personas se suscriben a un servicio. Luego, en cada mes posterior, esas personas pueden actualizar el servicio, descontinuar el servicio o se les puede negar el servicio (por ejemplo, por falta de pago). Para la primera cohorte en nuestros datos, tenemos aproximadamente 2 años de datos (24 meses).
El número de personas que se unen cada mes es grande (en el rango de 100,000) y el número que hace cualquiera de las tres cosas es de miles. Sin embargo, no estamos utilizando los datos de nivel individual (que serían millones de filas) sino datos agregados por mes y cohorte (qué proporción de cada cohorte hace cada cosa cada mes).
Hemos estado modelando datos existentes utilizando splines de regresión adaptativa multivariante (MARS) y encontrando algunos resultados interesantes. Sin embargo, me preocupa usarlos para extrapolar o predecir en el futuro. Mis preocupaciones son porque las predicciones en el futuro están necesariamente fuera del espacio muestral (en términos de tiempo) y las splines pueden volverse inestables para la extrapolación.
¿Es este un método legítimo? ¿Qué preocupaciones hay y pueden abordarse?