La mayoría de las respuestas han ayudado a aclarar qué son los modelos de explicación y los modelos de predicción y por qué difieren. Lo que no está claro, hasta ahora, es cómo difieren. Entonces, pensé que ofrecería un ejemplo que podría ser útil.
Supongamos que estamos interesados en modelar el GPA de la universidad en función de la preparación académica. Como medidas de preparación académica, tenemos:
- Puntajes de prueba de aptitud;
- HS GPA; y
- Número de pruebas AP aprobadas.
Estrategia para la predicción
Si el objetivo es la predicción, podría usar todas estas variables simultáneamente en un modelo lineal y mi principal preocupación sería la precisión predictiva. Cualquiera de las variables que resulte más útil para predecir el GPA universitario se incluiría en el modelo final.
Estrategia para la explicación
Si el objetivo es la explicación, podría estar más preocupado por la reducción de datos y pensar cuidadosamente sobre las correlaciones entre las variables independientes. Mi principal preocupación sería interpretar los coeficientes.
Ejemplo
En un problema multivariado típico con predictores correlacionados, no sería raro observar coeficientes de regresión que son "inesperados". Dadas las interrelaciones entre las variables independientes, no sería sorprendente ver coeficientes parciales para algunas de estas variables que no están en la misma dirección que sus relaciones de orden cero y que pueden parecer contrarias a la intuición y difíciles de explicar.
Por ejemplo, suponga que el modelo sugiere que (teniendo en cuenta los puntajes de las pruebas de aptitud y el número de pruebas AP completadas con éxito), los GPA más altos de la escuela secundaria están asociados con los GPA más bajos de la universidad. Este no es un problema para la predicción, pero plantea problemas para un modelo explicativo donde tal relación es difícil de interpretar . Este modelo podría proporcionar lo mejor de las predicciones de la muestra, pero hace poco para ayudarnos a comprender la relación entre la preparación académica y el GPA universitario.
En cambio, una estrategia explicativa podría buscar alguna forma de reducción variable, como componentes principales, análisis factorial o SEM para:
- enfóquese en la variable que es la mejor medida del "rendimiento académico" y modele el GPA de College en esa variable; o
- use puntajes de factores / variables latentes derivadas de la combinación de las tres medidas de preparación académica en lugar de las variables originales.
Estrategias como estas podrían reducir el poder predictivo del modelo, pero pueden proporcionar una mejor comprensión de cómo se relaciona la preparación académica con el GPA universitario.