Estoy trabajando en un problema de clasificación de series temporales en el que la entrada son datos de uso de voz de series temporales (en segundos) durante los primeros 21 días de una cuenta de teléfono celular. La variable objetivo correspondiente es si esa cuenta se canceló o no en el rango de 35-45 días. Por lo tanto, es un problema de clasificación binaria.
Estoy obteniendo resultados muy pobres de todos los métodos que he probado hasta ahora (en diversos grados). Primero probé la clasificación k-NN (con varias modificaciones) y obtuve resultados extremadamente malos. Esto me llevó a extraer características de la serie de tiempo, es decir, media, varianza, máximo, mínimo, días de ceros totales, días cero finales totales, diferencia entre el promedio de la primera mitad y el promedio de la segunda mitad, etc. y las características más predictivas parecían ser totales días ceros y días cero finales totales (utilizando varios algoritmos de clasificación). Esto funcionó mejor, pero el rendimiento aún no fue muy bueno.
Mi siguiente estrategia fue sobremuestrear las instancias negativas en mi conjunto de entrenamiento ya que había muy pocas. Esto resultó en una predicción de cancelación más correcta pero a expensas de más falsos positivos.
Estoy empezando a pensar que tal vez los datos de uso de series temporales en sí mismos simplemente no son muy predictivos (aunque el sentido común dice que debería serlo). Quizás haya alguna variable latente que no estoy considerando. Mirar los datos también muestra un comportamiento extraño. es decir, algunos ejemplos muestran un uso muy pequeño o decreciente (o, a veces, ninguno) y no se cancelan, y algunos muestran un aumento en el uso que sí se cancela. Quizás este comportamiento contradictorio no genera un límite de decisión muy claro para un clasificador.
Otra posible fuente de error es el hecho de que muchos ejemplos de capacitación son muy escasos (es decir, muchos días con 0 de uso). Una idea que aún no he probado es dividir las series de tiempo en segmentos y generar algunas características de esa manera, pero no tengo muchas esperanzas.