No , no utilizar k-medias para la serie de tiempo.
DTW no se minimiza por la media; Es posible que k-means no converja e incluso si converge no producirá un resultado muy bueno. La media es un estimador de mínimos cuadrados en las coordenadas. Minimiza la varianza, no las distancias arbitrarias, y k-means está diseñado para minimizar la varianza, no las distancias arbitrarias .
Suponga que tiene dos series de tiempo. Dos ondas sinusoidales, de la misma frecuencia, y un período de muestreo bastante largo; pero están compensados por . Dado que DTW realiza deformaciones de tiempo, puede alinearlas para que coincidan perfectamente, excepto para el principio y el final. DTW asignará una distancia bastante pequeña a estas dos series. Sin embargo, si calcula la media de las dos series, será un 0 plano: se cancelan. La media no hace una deformación dinámica del tiempo y pierde todo el valor que obtuvo DTW. En tales datos, k-means puede no converger , y los resultados no tendrán sentido. Las medias K solo deberían usarse con varianza (= Euclidiana al cuadrado), o algunos casos que son equivalentes (como el coseno, en datos normalizados L2, donde la similitud del coseno es2 -πlo mismo que distancia euclidiana al cuadrado)2 -
En su lugar, calcule una matriz de distancia usando DTW, luego ejecute la agrupación jerárquica como un enlace simple. A diferencia de k-means, la serie puede incluso tener una longitud diferente.