¿Prueba de asociación para un DV normalmente distribuido por variables direccionales independientes?

¿Existe una prueba de hipótesis de si una variable dependiente distribuida normalmente está asociada con una variable distribuida direccionalmente ?

Por ejemplo, si la variable explicativa es la hora del día (y asumiendo que cosas como el día de la semana, el mes del año, etc. son irrelevantes), esa es la forma de tener en cuenta el hecho de que las 11 p.m. es 22 horas antes de la 1 a.m., y también 2 horas detrás de la 1 de la madrugada en una prueba de asociación? ¿Puedo probar si la hora continua del día explica la variable dependiente sin suponer que las 12:00 de la medianoche no siguen un minuto después de las 11:59 pm?

¿Esta prueba también se aplica a variables explicativas direccionales discretas ( ¿ modulares ?)? ¿O eso requiere una prueba por separado? Por ejemplo, cómo probar si la variable dependiente se explica por mes del año (suponiendo que el día y la estación del año, y el año o década específicos son irrelevantes). El mes de tratamiento del año ignora categóricamente el orden. Pero tratar el mes del año como una variable ordinal estándar (digamos Jan = 1 ... Dec = 12) ignora que enero llega dos meses después de noviembre.

hypothesis-testing modeling circular-statistics

— Alexis
fuente

La respuesta podría llenar un libro (y hay varios de ellos por ahí). Hacer su pregunta más específica podría ayudar a enfocar las respuestas en lo que le importa.

— whuber

@whuber Um ... Dios mío ... ¿puedes ayudarme a reducir? ¿Especificando una distribución para el DV? ¿Limitando a una sola prueba, en lugar de regresión? Estoy un poco perplejo y no sé por dónde empezar ...

— Alexis

@whuber He intentado reducir un poco la pregunta, y agradecería cualquier sugerencia para hacerla más útil (realmente solo quiero un punto de partida para pensar en predictores modulares). Si ahora está en forma decente, es probable que haga un seguimiento con una pregunta similar sobre dicha prueba que no tiene distribución en el DV.

— Alexis

@whuber Reflexionando sobre el IV modular discreto en un contexto de regresión: sería un modelo mixto de dos niveles con el IV modular discreto como el identificador de nivel 2 con cada unidad de nivel 2 que tiene una variable de efecto pre y post aleatorio igual al ¿El valor anterior y posterior en el sistema numérico está en el camino correcto?

— Alexis

Vea aquí jstatsoft.org/article/view/v031i10/v31i10.pdf , página 16.

— ameba

Respuestas:

En general, creo que es más fructífero científica y estadísticamente comenzar haciendo una pregunta más amplia y diferente, que es hasta qué punto se puede predecir una respuesta de un predictor circular. Digo circular aquí en lugar de direccional , en parte porque este último incluye espacios esféricos y aún más fabulosos, que no se pueden cubrir en una sola respuesta; y en parte porque sus ejemplos, la hora del día y la época del año , son circulares. Otro ejemplo importante es la dirección de la brújula (relevante para vientos, movimientos de animales o humanos, alineaciones, etc.), que se presenta en muchos problemas circulares: de hecho, para algunos científicos es un punto de partida más obvio.

Siempre que pueda salirse con la suya, usar las funciones de seno y coseno del tiempo en algún tipo de modelo de regresión es un método de modelado simple y fácil de implementar. Es el primer puerto de escala para muchos ejemplos biológicos y / o ambientales. (Los dos tipos a menudo se mezclan, porque los fenómenos bióticos que muestran estacionalidad generalmente responden directa o indirectamente al clima o al clima).

Para concreción, imagine mediciones de tiempo de más de 24 horas o 12 meses, de modo que, por ejemplo,

$\sin [2\pi (\text{hour}/24)],\ \ \cos [2\pi (\text{hour}/24)]$

$\sin [2\pi (\text{month}/12)],\ \ \cos [2\pi (\text{month}/12)]$

cada uno describe un ciclo durante todo el día o año. Una prueba formal de no relación entre una respuesta medida o contada y algún tiempo circular sería una prueba estándar de si los coeficientes de seno y coseno son conjuntamente cero en un modelo lineal generalizado con seno y coseno como predictores, un vínculo apropiado y familia ser elegido de acuerdo con la naturaleza de la respuesta.

La cuestión de la distribución marginal de la respuesta (normal u otra) es secundaria en este enfoque y / o debe ser manejada por elección familiar.

El mérito de los senos y cosenos es, naturalmente, que son periódicos y se envuelven automáticamente, por lo que los valores al principio y al final de cada día o año son necesariamente uno y el mismo. No hay problema con las condiciones de contorno, porque no hay límite.

Este enfoque se ha denominado regresión circular, periódica, trigonométrica y de Fourier. Para una revisión introductoria del tutorial, vea aquí

En la práctica,

Tales pruebas generalmente muestran resultados abrumadoramente significativos a niveles convencionales siempre que esperamos estacionalidad. La pregunta más interesante es entonces la curva estacional precisa estimada, y si necesitamos un modelo más complicado con otros términos sinusoidales también.
Nada descarta también otros predictores, en cuyo caso simplemente necesitamos modelos más completos con otros predictores incluidos, digamos senos y cosenos para la estacionalidad y otros predictores para todo lo demás.
En algún momento, dependiendo de los datos, el problema y los gustos y la experiencia del investigador, puede ser más natural enfatizar el aspecto de la serie temporal del problema y construir un modelo con dependencia explícita del tiempo. De hecho, algunas personas con mentalidad estadística negarían que haya otra forma de abordarlo.

Lo que se denomina fácilmente tendencia (pero no siempre es tan fácil de identificar) se encuentra en el # 2 o # 3, o incluso en ambos.

Muchos economistas y otros científicos sociales preocupados por la estacionalidad en los mercados, las economías nacionales e internacionales u otros fenómenos humanos generalmente están más impresionados con las posibilidades de una variabilidad más complicada dentro de cada día o (más comúnmente) año. A menudo, aunque no siempre, la estacionalidad es una molestia que debe eliminarse o ajustarse, en contraste con los científicos biológicos y ambientales que con frecuencia consideran que la estacionalidad es interesante e importante, incluso el foco principal de un proyecto. Dicho esto, los economistas y otros también a menudo adoptan un enfoque de tipo de regresión, pero con municiones un conjunto de variables indicadoras (ficticias), más simplemente variables para cada mes o cada trimestre del año. $0, 1$ . Esta puede ser una forma práctica de tratar de captar los efectos de las vacaciones nombradas, los períodos de vacaciones, los efectos secundarios de los años escolares, etc., así como las influencias o los choques de origen climático o climático. Con esas diferencias notadas, la mayoría de los comentarios anteriores también se aplican en economía y ciencias sociales.

Las actitudes y los enfoques de los epidemiólogos y estadísticos médicos preocupados por las variaciones en la morbilidad, la mortalidad, los ingresos hospitalarios, las visitas clínicas y similares, tienden a caer entre estos dos extremos.

En mi opinión, dividir días o años en mitades para comparar suele ser arbitrario, artificial y, en el mejor de los casos, incómodo. También está ignorando el tipo de estructura suave típicamente presente en los datos.

EDITAR La cuenta hasta ahora no aborda la diferencia entre tiempo discreto y continuo, pero desde mi experiencia no lo considero un gran problema en la práctica.

Pero las elecciones precisas dependen de cómo llegan los datos y del patrón de cambio.

Si los datos fueran trimestrales y humanos, tendería a utilizar variables indicadoras (por ejemplo, los trimestres 3 y 4 son a menudo diferentes). Si es mensual y humano, la elección no está clara, pero tendrías que trabajar duro para vender senos y cosenos a la mayoría de los economistas. Si es mensual o más fino y biológico o ambiental, definitivamente peca y cosenos.

EDITAR 2 Más detalles sobre regresión trigonométrica

Un detalle distintivo de la regresión trigonométrica (nombrada de cualquier otra manera si lo prefiere) es que casi siempre los términos seno y coseno se presentan mejor a un modelo en pares. Primero escalamos la hora del día, la hora del año o la dirección de la brújula para que se represente como un ángulo en el círculo en radianes, por lo tanto, en el intervalo . Luego usamos tantos pares como se necesitan en un modelo. (En las estadísticas circulares, las convenciones trigonométricas tienden a prevalecer sobre las convenciones estadísticas, de modo que los símbolos griegos como se usan para variables y parámetros). $\theta$ $[0, 2\pi]$ $\sin k\theta, \cos k\theta, k = 1, 2, 3, \dots$ $\theta, \phi, \psi$

Si ofrecemos un par de predictores como para un modelo similar a la regresión, entonces tenemos estimaciones de coeficientes, digamos , para términos en el modelo, a saber, . Esta es una forma de ajustar la fase y la amplitud de una señal periódica. En otras palabras, una función como puede reescribirse como $\sin \theta, \cos \theta$ $b_1, b_2$ $b_1 \sin \theta, b_2 \cos \theta$ $\sin (\theta + \phi)$

\sin θ \cos ϕ + \cos θ \sin ϕ,

$\sin \theta \cos \phi + \cos \theta \sin \phi,$

pero y representan la fase se estiman en el ajuste del modelo. De esa forma evitamos un problema de estimación no lineal. $\cos \phi$ $\sin \phi$

Si usamos para modelar la variación circular, entonces automáticamente el máximo y el mínimo de esa curva están separados por medio círculo. Esa es a menudo una muy buena aproximación de las variaciones biológicas o ambientales, pero a la inversa, bien podríamos necesitar varios términos más para captar la estacionalidad económica en particular. Esa podría ser una muy buena razón para usar variables indicadoras, que conducen inmediatamente a interpretaciones simples de los coeficientes. $b_1 \sin \theta + b_2 \cos \theta$

— Nick Cox
fuente

Noto una superposición poco sorprendente con la respuesta de @Kelvin.

— Nick Cox

+1 (¡Esp. Por usar "fabuloso" como lo hiciste! :) Nick Cox, ¿sería tan amable de hacer explícito el caso de variables circulares discretas también, según mi pregunta? ¿Sería tan simple como el enfoque de "modelado trigonométrico" que describe utilizando una medida de tiempo discreta? ¿O tendría que haber "correcciones de continuidad" de algún tipo?

— Alexis

Hasta donde sé, la única diferencia entre variables circulares discretas y continuas está en el redondeo de valores a puntos discretos (por ejemplo, 2pm vs 14.12345hrs), al igual que con las variables no circulares, por lo que no habrá mucha diferencia siempre que aplique menos redondeo con pequeños pasos en relación con el período general. Básicamente, es solo cuestión de tener algún error de redondeo o no. Mejor no, si puedes evitarlo.

— Kelvin

Estoy de acuerdo en que discreto y continuo no son muy diferentes. En la práctica, muchas mediciones son más o menos groseras al informar solo en trimestres, medios años, meses, días, etc. o como cualquier cosa que vaya desde (N. S) hasta (N, E, S, W) hasta una resolución más fina para direcciones de brújula. En detalle, existen diferencias entre las mediciones puntuales (la temperatura en un momento preciso) y las mediciones de intervalo (por ejemplo, ventas mensuales totales). No agruparía todos esos detalles como error de redondeo, ya que a veces no hay tanto error como la agregación o el promedio.

— Nick Cox

Aquí hay una opción sin distribución, ya que parece que eso es lo que estás buscando de todos modos. No es particular en el campo de las estadísticas circulares, de las cuales soy bastante ignorante, pero es aplicable aquí y en muchos otros entornos.

$X$

$Y$ $\mathbb R^d$ $d \ge 1$

$Z := (X, Y)$ $m$ $z_i = (x_i, y_i)$

Ahora, realice una prueba utilizando el Criterio de Independencia de Hilbert Schmidt (HSIC), como en el siguiente documento:

Gretton, Fukumizu, Teo, Song, Schölkopf y Smola. Una prueba estadística de independencia del núcleo. NIPS 2008. ( pdf )

Es decir:

$k$ $X$
- $X$ $\mathbb R^2$ $k(x, x') = \exp\left( - \frac{1}{2 \sigma^2} \lVert x - x' \rVert^2 \right)$ $\sigma$ $X$
- Otra opción es representar como un ángulo, digamos en , y usar el núcleo de von Mises . Aquí es un parámetro de suavidad. ¹ $X$ $[-\pi, \pi]$ $k(x, x') = \exp\left( \kappa \cos(x - x') \right)$ $\kappa$
Definir un núcleo $l$ $Y$ $Y$ $\mathbb R^n$
$H$ $K$ $L$ $m \times m$ $K_{ij} = k(x_i, x_j)$ $L_{ij} = l(y_i, y_j)$ $H$ $H = I - \frac1m 1 1^T$ $\frac{1}{m^2} \mathrm{tr}\left( K H L H \right)$ tiene algunas buenas propiedades cuando se usa como prueba de independencia. Su distribución nula se puede aproximar ya sea por coincidencia de momentos con una distribución gamma (computacionalmente eficiente) o por bootstrapping (más preciso para tamaños de muestra pequeños).

El código de Matlab para llevar esto a cabo con los núcleos RBF está disponible desde el primer autor aquí .

Este enfoque es bueno porque es general y tiende a funcionar bien. Los principales inconvenientes son:

$m^2$
$m$ $m$
$k$ $l$

^{$k(x - x')$ $[-\pi, \pi]$}

— Dougal
fuente

Puede ejecutar una prueba t entre la media de las "mitades" opuestas del período, por ejemplo, comparando el valor medio de 12 a.m. a 12 p.m. con el valor medio de 12 p.m. a 12 a.m. Y luego compare el valor medio de 6pm a 6am con el valor medio de 6am a 6pm.

O si tiene suficientes datos, puede dividir el período en segmentos más pequeños (por ejemplo, por hora) y realizar una prueba t entre cada par de segmentos, mientras corrige las comparaciones múltiples.

Alternativamente, para un análisis más "continuo" (es decir, sin segmentación arbitraria), puede ejecutar regresiones lineales contra las funciones seno y coseno de su variable direccional (con el período correcto), que "circularizará" automáticamente sus datos:

x^{'} = s i n (x * 2 π / p e r i o d)

$x' = sin(x * 2\pi/period)$

x^{″} = c o s (x * 2 π / p e r i o d)

$x'' = cos(x * 2\pi/period)$

$a$

x^{‴} = s i n ((x + a) * 2 π / p e r i o d)

$x''' = sin((x+a) * 2\pi/period)$

$a$

$y$ $x'$ $x''$

En cualquier caso, creo que debe hacer algunas suposiciones con respecto al período y luego probar en consecuencia.

— Kelvin
fuente

Kelvin, "romper" los datos circulares como lo describe parecería ignorar precisamente el problema que planteé sobre el pedido modular.

— Alexis

¿Leíste la segunda mitad de mi respuesta, que describe el análisis continuo por regresión múltiple?

— Kelvin

Tienes razón sobre seno y coseno juntos. Esto se explica más adelante en mi respuesta y en el documento de 2006 que cita y en referencias adicionales que cita.

— Nick Cox

@Nick: no había visto tu respuesta cuando publicaste después de mi última edición, pero es bueno que hayamos llegado a la misma respuesta de forma independiente, ya que solo estaba siendo creativo (prácticamente pensando en voz alta) y nunca antes había visto esto.

— Kelvin