Tengo un conjunto de datos que contiene 365 observaciones de tres variables pm
, a saber , temp
y rain
. Ahora quiero verificar el comportamiento de pm
en respuesta a los cambios en otras dos variables. Mis variables son:
pm10
= Respuesta (dependiente)temp
= predictor (independiente)rain
= predictor (independiente)
La siguiente es la matriz de correlación para mis datos:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
El problema es que cuando estaba estudiando la construcción de modelos de regresión, se escribió que el método aditivo es comenzar con la variable que está más relacionada con la variable de respuesta. En mi conjunto de datos rain
está altamente correlacionado con pm
(en comparación con temp
), pero al mismo tiempo es una variable ficticia (lluvia = 1, sin lluvia = 0), por lo que ahora tengo una pista desde dónde debo comenzar. He adjuntado dos imágenes con la pregunta: El primero es un diagrama de dispersión de los datos, y la segunda imagen es un diagrama de dispersión de pm10
frente rain
, yo también soy incapaz de interpretar diagrama de dispersión de pm10
frente rain
. ¿Alguien puede ayudarme a comenzar?