En primer lugar, me doy cuenta de que la regresión múltiple no ofrece realmente inferencias "causales" sobre los datos. Déjame explicarte mi caso actual:
Tengo cuatro variables independientes que espero (pero no estoy seguro) están involucradas en la conducción de lo que estoy midiendo. Quería usar la regresión múltiple para ver cuánto contribuyen cada una de estas variables a mi variable dependiente, y lo hice. Supuestamente, la variable "Número cuatro" está influyendo en mi medida de resultado muy fuertemente (peso beta cercano a 0.7).
Sin embargo, me han dicho que esto no es suficiente, porque algunas de mis variables "independientes" de hecho pueden estar correlacionadas entre sí. En ese caso, podría pensar que la "Variable cuatro" está impulsando mi variable dependiente, cuando realmente tres y cuatro podrían estar contribuyendo por igual. Esto parece correcto, pero como soy nuevo en esto, no estoy seguro.
¿Cómo puedo evitar sistemáticamente este problema en el futuro? ¿Qué procedimientos específicos recomendaría al usar la regresión múltiple para asegurarse de que sus datos "independientes" no contengan correlaciones ocultas?
Editar: Los datos en sí son una serie de modelos de red (gráfico) de un estado neurológico particular. Mido el "coeficiente de agrupación" que describe la topología de cada red como un todo (variable dependiente aquí), y luego veo si las conectividades individuales de cuatro nodos en la red más grande de 100+ están impulsando los valores de agrupación global (cuatro independientes variables). Sin embargo, estos nodos son parte de una red, por lo que, por definición, es posible que estén correlacionados en cierta medida.