Regresión logística para series de tiempo.


21

Me gustaría usar un modelo de regresión logística binaria en el contexto de la transmisión de datos (series temporales multidimensionales) para predecir el valor de la variable dependiente de los datos (es decir, la fila) que acaba de llegar, dadas las observaciones pasadas. Hasta donde sé, la regresión logística se usa tradicionalmente para el análisis post mortem, donde cada variable dependiente ya se ha establecido (ya sea por inspección o por la naturaleza del estudio).

Sin embargo, lo que sucede en el caso de series de tiempo, donde queremos hacer una predicción (sobre la marcha) sobre la variable dependiente en términos de datos históricos (por ejemplo, en una ventana de tiempo de los últimos segundos) y, por supuesto, la anterior estimaciones de la variable dependiente?t

Y si ve el sistema anterior a lo largo del tiempo, ¿cómo debería construirse para que la regresión funcione? ¿Tenemos que entrenarlo primero etiquetando, digamos, las primeras 50 filas de nuestros datos (es decir, estableciendo la variable dependiente en 0 o 1) y luego usar la estimación actual del vector para estimar la nueva probabilidad de la ¿la variable dependiente es 0 o 1 para los datos que acaban de llegar (es decir, la nueva fila que se acaba de agregar al sistema)?β

Para aclarar mi problema, estoy tratando de construir un sistema que analice un conjunto de datos fila por fila e intente hacer una predicción de un resultado binario (variable dependiente), dado el conocimiento (observación o estimación) de todos los dependientes o explicativos anteriores variables que han llegado a una ventana de tiempo fijo. Mi sistema está en Rerl y usa R para la inferencia.


55
¿Puedes asumir una estructura de correlación en tus datos? Su caso es un caso especial de GLMM con enlace logit, pero la estructura de correlación en los datos de la serie temporal debe modelarse correctamente para obtener una respuesta razonable.
suncoolsu

1
cuando dices series temporales, tendría algún tipo de relación con . ¿O se puede suponer que es independiente? ytyt-1
suncoolsu

2
¿podría dar una descripción concisa de sus datos para que yo pueda dar una solución concreta? su problema puede resolverse de manera similar a esta estadística.ethz.ch
pipermail

2
Tengo una serie temporal de tráfico de red de la siguiente forma: Protocolo, SrcIP SrcPort, DestIP, DestPort, TimeSec, Timeusec, PackLength TCP, 200.80.199.105,3523,207.216.233.144,9658,11223344,941818,62 UDP, 142.144.155.120 , 1751,244.72.151.2,1935, 11223344,941843,60 Quiero estimar si un paquete (o grupo de paquetes) es malicioso usando el conocimiento de conjuntos de datos etiquetados para construir un modelo autodidacta. El promedio del que hablaba se aplica a las métricas anteriores para proporcionar un nivel de agregación y hacer que el sistema sea más práctico para el tráfico de alto volumen.
Regresor

2
Esto realmente suena como un trabajo para una máquina de vectores de soporte. ¿Me estoy perdiendo de algo? Si realmente le preocupa la autocorrelación o la estructura de series de tiempo de sus datos, puede probar ARIMA y / o un modelo longitudinal multinivel. En los modelos longitudinales, recomiendo el Análisis de datos longitudinales aplicados de Willet y Singer , para el cual el sitio UCTS ATS tiene ejemplos de código R.
ashaw

Respuestas:


6

Hay dos métodos a considerar:

  1. Solo use las últimas N muestras de entrada. Suponiendo que su señal de entrada es de dimensión D, entonces tiene muestras N * D por etiqueta de verdad de tierra. De esta forma, puede entrenar utilizando cualquier clasificador que desee, incluida la regresión logística. De esta manera, cada salida se considera independiente de todas las demás salidas.

  2. Use las últimas N muestras de entrada y las últimas N salidas que ha generado. El problema es entonces similar a la decodificación de viterbi . Puede generar una puntuación no binaria basada en las muestras de entrada y combinar la puntuación de varias muestras utilizando un decodificador viterbi. Esto es mejor que el método 1. si ahora tiene algo sobre la relación temporal entre las salidas.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.