Prueba de hipótesis y significado para series de tiempo

Una prueba habitual de importancia cuando se observan dos poblaciones es la prueba t, prueba t pareada si es posible. Esto supone que la distribución es normal.

¿Existen supuestos simplificadores similares que producen una prueba de significación para una serie de tiempo? Específicamente tenemos dos poblaciones bastante pequeñas de ratones que están siendo tratados de manera diferente, y estamos midiendo el peso una vez por semana. Ambos gráficos muestran funciones que aumentan sin problemas, con un gráfico definitivamente por encima del otro. ¿Cómo cuantificamos la "definición" en este contexto?

La hipótesis nula debería ser que los pesos de las dos poblaciones "se comportan de la misma manera" a medida que pasa el tiempo. ¿Cómo se puede formular esto en términos de un modelo simple que sea bastante común (al igual que las distribuciones normales son comunes) con solo un pequeño número de parámetros? Una vez que se ha hecho eso, ¿cómo se puede medir la significancia o algo análogo a los valores p? ¿Qué pasa con el emparejamiento de los ratones, que coinciden con tantas características como sea posible, con cada par con un representante de cada una de las dos poblaciones?

Agradecería un puntero a algún libro o artículo relevante, bien escrito y fácil de entender sobre series de tiempo. Empiezo como un ignorante. Gracias por tu ayuda.

David Epstein

time-series hypothesis-testing statistical-significance

— David Epstein
fuente

Es posible que desee lanzar una red más amplia, porque esto no es necesariamente una pregunta de serie temporal. De hecho, tal vez la pregunta más fundamental aquí se refiere a la mejor o al menos correcta forma de cuantificar un "punto final" del tratamiento: ¿es el crecimiento medio en una población después de un cierto tiempo, las tasas de crecimiento promedio en el tiempo, etc.? Si no sabía esto antes de comenzar el experimento y de repente nota diferencias consistentes en las curvas de crecimiento, entonces está trabajando en un modo exploratorio , no confirmatorio, y los valores p de prueba de hipótesis serán engañosamente buenos.

— whuber

El resultado es cualitativamente como se esperaba, y una prueba unilateral parece apropiada. La razón por la que pregunté acerca de las series de tiempo es que si uno mide solo el peso final (que es la medida más relevante), entonces está tirando toda la información de los puntos de tiempo anteriores, y eso parece incorrecto.

— David Epstein el

Tienes razón: no quieres tirar esos datos. Pero las técnicas de series de tiempo se destacan para los modelos de datos donde las correlaciones temporales de las desviaciones de las curvas idealizadas son importantes, ya sea por su propio interés o porque podrían interferir con una buena estimación. Es probable que su situación no caiga en ninguno de estos casos. Métodos más simples y con mayor sentido científico están disponibles.

— whuber

@whuber, ¿no es el peso en el tiempo del conjunto de ratones de control una "curva idealizada" en algún sentido? ¿O al menos, un modelo teórico ajustado a esos datos?

— naught101

Sí, @naught, esa es una forma razonable de verlo. Pero "curva" no es lo mismo que "series de tiempo". Por ejemplo, la regresión lineal puede verse (y a menudo se ve) como curvas de ajuste a los datos, pero es independiente del análisis de series de tiempo, que enfatiza la estructura de correlaciones entre las desviaciones entre los datos y la curva idealizada.

— whuber

Respuestas:

Hay muchas maneras de hacerlo si piensa en las variaciones de peso como un proceso dinámico.

$\dot x(t) = \theta x(t) + v(t)$

$x(t)$ $\theta$ $v(t)$ $v(t)$ $\mathcal N(0,Q)$ $Q$

$\theta$ $\theta$ $\theta_1$ $\theta_2$

Como referencia, puedo sugerir este libro .

— andrecb
fuente

Sugeriría identificar un modelo ARIMA para cada ratón por separado y luego revisarlos en busca de similitudes y generalización. Por ejemplo, si los primeros ratones tienen un AR (1) y el segundo tiene un AR (2), el modelo más general (más grande) sería un AR (2). Estime este modelo a nivel mundial, es decir, para las series de tiempo combinadas. Compare la suma de cuadrados de error para el conjunto combinado con la suma de las dos sumas de cuadrados de error individuales para generar un valor F para probar la hipótesis de parámetros constantes entre grupos. Desearía poder publicar sus datos e ilustraré esta prueba con precisión.

COMENTARIOS ADICIONALES:

Dado que el conjunto de datos se correlaciona automáticamente, no se aplica la normalidad. Si las observaciones son independientes a lo largo del tiempo, entonces uno podría aplicar algunos de los métodos conocidos de series no temporales. En términos de su solicitud sobre un libro fácil de leer sobre series de tiempo, sugiero el texto Wei de Addison-Wesley. Los científicos sociales encontrarán que el enfoque no matemático de Mcleary y Hay (1980) es más intuitivo pero carece de rigor.

— IrishStat
fuente

Esto realmente no parece abordar los problemas fundamentales. (1) ¿Por qué es apropiado este modelo? (2) ¿Por qué debería modelarse cada ratón y no, por ejemplo, el peso medio de la población o el aumento de peso? (3) ¿Por qué es relevante una prueba de parámetros constantes? La pregunta pide una prueba de una cola. La mayoría de los parámetros que menciona no parecen científicamente relevantes, ni cuantifican directamente la sensación de que un gráfico esté consistentemente por encima del otro. (4) ¿Cómo controla las posibles diferencias en las características de las dos poblaciones al comienzo del experimento?

— whuber

: whuber La prueba de la constancia de los parámetros es relevante porque tiene un conjunto de coeficientes para el primer grupo de lecturas para el mouse 1 y un segundo conjunto de coeficientes para el segundo mouse. La pregunta es "¿existe una diferencia colectivamente significativa entre los coeficientes". Ahora continúe con su comentario, dado que uno de los coeficientes del modelo podría ser una constante y, si es así, la diferencia entre los coeficientes podría deberse a que las constantes son estadísticamente diferentes entre sí.Tenga en cuenta que el modelo ARIMA subyacente no necesariamente tiene constantes, podría ser un modelo de diferencia.

— IrishStat

Creo que en parte tiene razón, pero necesita refinar su caracterización del problema. Muchos de los coeficientes ARIMA pueden ser científicamente irrelevantes. Por ejemplo, si uno de ellos actúa como un término cuadrático a lo largo del tiempo, una diferencia podría decir algo sobre la forma de las curvas de crecimiento, pero eso podría ser de poca utilidad. Si uno elige los coeficientes para reflejar los puntos finales experimentales y los prueba solo , podría lograrse algo bueno. Sin embargo, en general, los modelos de series temporales introducen coeficientes (por ejemplo, autocorrelación) que probablemente no sean de interés científico directo aquí.

— whuber

whuber: "Si uno elige coeficientes para reflejar los puntos finales experimentales y solo los prueba, podría lograrse algo bueno", no tiene mucho sentido para mí, ya que ignora los puntos intermedios. Por el contrario a su comentario, el modo de serie temporal y los coeficientes que lo acompañan son de gran interés científico, ya que caracteriza la distribución de las lecturas y las convierte en un proceso aleatorio (el término de error) que está libre de estructura autocorrelativa y luego susceptible de pruebas. que requiere normalidad La prueba que propongo requiere que esa suposición se mantenga.

— IrishStat el

La autocorrelación puede ser de poca importancia aquí. El interés se centra explícitamente en las tendencias: ¿cómo tienden a diferir las curvas de crecimiento subyacentes entre las dos poblaciones? Los parámetros de autocorrelación son parámetros molestos, que se introducirán y tratarán solo en la medida en que puedan ayudar a mejorar la estimación de esas curvas de crecimiento. La primera prioridad es adoptar un modelo científico del crecimiento, representar ese modelo con parámetros que sean interpretables y de interés, y estimarlos . La aplicación automática de técnicas de series temporales es poco probable que lo logre.

— whuber