Una suposición para el análisis de regresión es que e no están entrelazados. Sin embargo, cuando lo pienso, me parece que tiene sentido.
Aquí hay un ejemplo. Si tenemos una prueba con 3 secciones (AB y C). El puntaje general de la prueba es igual a la suma de los puntajes individuales para las 3 secciones. Ahora tiene sentido decir que se puede puntuar en la sección A e la puntuación general de la prueba. Entonces, la regresión lineal puede responder a esta pregunta: ¿cuál es la variabilidad en el puntaje general de la prueba que es atribuible a la sección A? Aquí, varios escenarios son posibles:
- La Sección A es la más difícil de las 3 secciones y los estudiantes siempre obtienen la calificación más baja. En tal caso, intuitivamente sería bajo. Debido a que la mayoría de la puntuación general de la prueba estaría determinada por B y C.
- La Sección A fue muy fácil para los estudiantes. En este caso también la correlación no sería alta. Porque los estudiantes siempre obtienen el 100% de esta sección y, por lo tanto, esta sección no nos dice nada sobre el puntaje general de la prueba.
- La sección A tiene dificultad intermedia. En este caso, la correlación sería más fuerte (pero esto también depende de los otros puntajes (B y C).
Otro ejemplo es este: analizamos el contenido total de un oligoelemento en la orina. Y analizamos independientemente las especies individuales (formas químicas) de ese oligoelemento en la orina. Puede haber muchas formas químicas. Y si nuestros análisis son correctos, la suma de las formas químicas debería darnos lo mismo que el contenido total de un elemento (analizado por una técnica diferente). Sin embargo, tiene sentido preguntar si una forma química está correlacionada con el contenido total del elemento en la orina, ya que este contenido total es un indicador de la ingesta total de alimentos de ese elemento. Entonces, si decimos que es el elemento total en la orina y es la forma química A en la orina, entonces al estudiar la correlación podemos explorar si esta forma química es la principal que contribuye a la variabilidad general o no.
Me parece que a veces tiene sentido incluso cuando e no son independientes y que en algunos casos esto puede ayudar a responder preguntas científicas.
¿Pensarías que puede ser útil o significativo en los ejemplos anteriores? Si consideramos el ejemplo de puntaje de la prueba anterior, ya diría que habría una contribución del 33% de cada sección si la dificultad hubiera sido exactamente la misma para los estudiantes. Pero en la práctica esto no es necesariamente cierto. Entonces, pensé que quizás el uso del análisis de regresión puede ayudarnos a conocer la verdadera variabilidad atribuida a cada sección de un examen. Entonces, me parece que sería significativo a pesar de que ya sabemos que la hipótesis nula no es cierta.
¿Existen métodos alternativos de regresión modificada para dar cuenta de tales situaciones y proporcionarnos parámetros significativos?