La dirección del viento (aquí medida en grados, presumiblemente como una dirección de la brújula en sentido horario desde el norte) es una variable circular. La prueba es que el comienzo convencional de la escala es el mismo que el final, es decir, . Cuando se trata como un predictor, probablemente se asigne mejor al seno y al coseno. Cualquiera sea su software, es probable que los ángulos se midan en radianes, por lo que la conversión será un equivalente de0∘=360∘
sin(π direction/180),cos(π direction/180)
dado que radianes . Del mismo modo, la hora del día medida en horas desde la medianoche se puede asignar a seno y coseno utilizando2π=360∘
sin(π time/12),cos(π time/12)
o
sin(π( tiempo +0.5)/12),cos(π( tiempo + 0.5 )/12)
dependiendo exactamente de cómo se grabó el tiempo o se debe interpretar.
Algunas veces la naturaleza o la sociedad son complacientes y la dependencia de la variable circular toma la forma de que una dirección sea óptima para la respuesta y la dirección opuesta (la mitad del círculo de distancia) sea pesimista. En ese caso, un solo término seno y coseno puede ser suficiente; para patrones más complicados puede que necesite otros términos. Para obtener más detalles , aquí se puede encontrar un tutorial sobre esta técnica de regresión trigonométrica circular, Fourier, periódica , con referencias adicionales. La buena noticia es que una vez que ha creado los términos seno y coseno, son solo predictores adicionales en su regresión.
Existe una gran literatura sobre estadísticas circulares, en sí misma vista como parte de estadísticas direccionales. Curiosamente, esta técnica a menudo no se menciona, ya que el enfoque en esa literatura es comúnmente en variables de respuesta circular. Resumir las variables circulares por sus medias vectoriales es un método descriptivo estándar, pero no es obligatorio ni directamente útil para la regresión.
Algunos detalles sobre la terminología La dirección del viento y la hora del día están en términos estadísticos variables, no parámetros, cualquiera sea el uso en su rama de la ciencia.
La regresión lineal se define por la linealidad en los parámetros, es decir, para un vector predicho por , es el vector de parámetros , no la matriz de predictores , lo que es más crucial. Entonces, en este caso, el hecho de que los predictores como el seno y el coseno se midan en escalas circulares y también se restrinjan a no es una barrera para su aparición en la regresión lineal.yXββX[ - 1 , 1 ]
Comentario incidental Para una variable de respuesta como la concentración de partículas, esperaría usar un modelo lineal generalizado con enlace logarítmico para asegurar predicciones positivas.