¿Cómo agrupar series de tiempo?


22

Tengo una pregunta sobre el análisis de conglomerados. Hay 3000 empresas, que deben agruparse de acuerdo con su consumo de energía durante 5 años. Cada empresa tiene valores por cada hora durante 5 años. Me gustaría saber si algunas empresas tienen el mismo patrón en el poder de uso durante el período de tiempo. Los resultados deben usarse para la predicción diaria del uso de energía. Si tiene algunas ideas sobre cómo agrupar series temporales en SPSS, comparta conmigo.


1
Le sugiero que consulte los enlaces relacionados en el lado derecho de la página. Hay bastantes preguntas de naturaleza muy similar, vea ¿Es posible hacer agrupaciones de series de tiempo basadas en la forma de la curva? y Modelar datos longitudinales donde el efecto del tiempo varía en forma funcional entre individuos para solo dos ejemplos.
Andy W

La similitud de proceso en SAS puede agrupar series de tiempo.
pronosticador

Respuestas:


11

A) Dedique mucho tiempo a preprocesar los datos. El preprocesamiento es el 90% de su trabajo.

B) Elija una medida de similitud apropiada para la serie temporal. Por ejemplo, la distancia de cruce del umbral puede ser una buena opción aquí. Probablemente no desee una distancia de deformación dinámica del tiempo, a menos que tenga diferentes zonas horarias. El cruce del umbral puede ser más apropiado para detectar patrones temporales, sin prestar atención a la magnitud real (que probablemente será muy diferente de una compañía a otra).

C) Agrupe la matriz de disimilitud resultante utilizando métodos como la agrupación jerárquica o DBSCAN que pueden funcionar con funciones de distancia arbitrarias.


¿Puede explicar por qué la distancia de deformación dinámica del tiempo no es una buena opción para la agrupación de series temporales?
Hardik Gupta

Esa no fue una declaración general. Si es bueno o no depende de si desea permitir la deformación del tiempo o no.
Anony-Mousse -Reinstalar a Monica el

7

Es posible que desee ver la previsión de series de tiempo por hora con periodicidad diaria, semanal y anualpara una discusión de datos por hora que involucran datos diarios y días festivos / regresores. Tiene 5 años de datos, mientras que la otra discusión involucró 883 valores diarios. Lo que sugeriría es que podría crear un pronóstico por hora incorporando regresores como el día de la semana; semana del año y feriados usando totales diarios como un predictor adicional. De esta forma, tendría 24 modelos para cada una de las 3.000 empresas. Ahora, lo que desea hacer es por hora, estimar los 3.000 modelos utilizando una estructura ARIMAX común que representa el patrón de respuesta alrededor de cada uno de los regresores, el día de la semana, los cambios en el día de la semana. parámetros e indicadores semanales mientras se aíslan los valores atípicos. Luego, podría estimar los parámetros a nivel mundial utilizando las 3000 empresas. Realice una prueba de Chow http://en.wikipedia.org/wiki/Chow_testpara la constancia de los parámetros y al rechazar agrupar a las empresas en grupos homogéneos. Me he referido a esto como análisis de clúster de dimensión única. Dado que SPSS tiene capacidades muy limitadas en series de tiempo, es posible que desee buscar software en otro lugar.


1
"vainilla" parece una palabra extraña para usar sobre R; no está claro en la traducción en la terminología R más habitual. Cualquier distinción entre base R y paquetes contribuidos adicionales de CRAN realmente no afecta a los usuarios experimentados, ni siquiera a los novatos, ya que son igualmente gratuitos e igualmente accesibles. Mi impresión es que alguien que tuvo acceso a SPSS puede decir con bastante facilidad que algo no es posible en SPSS actualmente sin programación; decir lo mismo sobre R requiere familiaridad con todos los paquetes de series de tiempo.
Nick Cox
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.