B y E se derivan de V. B y E claramente no son variables verdaderamente "independientes" entre sí. La variable subyacente que realmente importa aquí es V. Probablemente debería ignorar tanto B como E en este caso y mantener solo V.
En una situación más general, cuando tiene dos variables independientes que están altamente correlacionadas, definitivamente debe eliminar una de ellas porque se encuentra con el enigma de multicolinealidad y los coeficientes de regresión de su modelo de regresión relacionados con las dos variables altamente correlacionadas no serán confiables. Además, en inglés simple si dos variables están tan altamente correlacionadas que obviamente transmitirán casi exactamente la misma información a su modelo de regresión. Pero, al incluir ambos, en realidad estás debilitando el modelo. No está agregando información incremental. En cambio, está infundiendo ruido a su modelo. No es algo bueno
Una forma de mantener variables altamente correlacionadas dentro de su modelo es usar en lugar de regresión un modelo de Análisis de Componentes Principales (PCA). Los modelos PCA están hechos para eliminar la multicolinealidad. La compensación es que terminas con dos o tres componentes principales dentro de tu modelo que a menudo son solo construcciones matemáticas y son prácticamente incomprensibles en términos lógicos. Por lo tanto, la PCA se abandona con frecuencia como método cada vez que tiene que presentar sus resultados a una audiencia externa, como la administración, los reguladores, etc. Los modelos de PCA crean cuadros negros crípticos que son muy difíciles de explicar.