Me gustaría un consejo sobre un método de análisis que estoy usando, para saber si es estadísticamente correcto.
He medido procesos de dos puntos y y quiero determinar si los eventos en están de alguna manera correlacionados con los eventos en .
Uno de los métodos que he encontrado en la literatura es el de construir un histograma de correlación cruzada: para cada encontramos el retraso de todos los eventos de que caen en una ventana de tiempo dada (antes y después ), y luego construimos un histograma de todos estos retrasos.
Si los dos procesos no están correlacionados, esperaría un histograma plano, ya que la probabilidad de tener un evento en después (o antes) de un evento en es igual en todos los retrasos. Por otro lado, si hay un pico en el histograma, esto sugiere que los procesos de dos puntos se influyen entre sí (o, al menos, tienen una entrada común).
Ahora, esto es bueno y bueno, pero ¿cómo puedo determinar si los histogramas tienen un pico? (Tengo que decir que para mi conjunto particular de datos son claramente planos, pero aún así sería bueno tener una forma estadística de confirmando eso)?
Entonces, aquí lo que he hecho: he repetido el proceso de generar el histograma durante varias (1000) veces manteniendo como está y usando una versión "barajada" de . Para barajar Calculo los intervalos entre todos los eventos, los barajo y los sumo para reconstituir un nuevo proceso de puntos. En RI simplemente haga esto con:
times2.swp <- cumsum(sample(diff(times2)))
Entonces, termino con 1000 nuevos histogramas, que me muestran la densidad de eventos en comparación con .
Para cada contenedor de estos histogramas (todos están agrupados de la misma manera) calculo la densidad del 95% del histograma. En otras palabras, digo, por ejemplo: en un retraso de tiempo de 5 ms, en el 95% de los procesos de punto aleatorio hay una probabilidad x de encontrar un evento en después de un evento en .
Luego tomaría este valor del 95% para todos los retrasos y lo usaría como un "límite de confianza" (probablemente este no sea el término correcto) para que cualquier cosa que supere este límite en el histograma original pueda considerarse "verdadero" pico".
Pregunta 1 : ¿es este método estadísticamente correcto? Si no, ¿cómo abordarías este problema?
Pregunta 2 : otra cosa que quiero ver es si existe un tipo de correlación "más larga" de mis datos. Por ejemplo, puede haber cambios similares en la tasa de eventos en los procesos de dos puntos (tenga en cuenta que pueden tener tasas bastante diferentes), pero no estoy seguro de cómo hacerlo. Pensé en crear un "sobre" de cada proceso de puntos utilizando algún tipo de núcleo de suavizado y luego realizar un análisis de correlación cruzada de los dos sobres. ¿Podría sugerir algún otro tipo de análisis posible?
Gracias y perdón por esta larga pregunta.