Esta pregunta hace referencia al artículo de Galit Shmueli "Explicar o predecir" .
Específicamente, en la sección 1.5, "Explicación y predicción son diferentes", el profesor Shmueli escribe:
En el modelado explicativo, el objetivo es minimizar el sesgo para obtener la representación más precisa de la teoría subyacente.
Esto me ha intrigado cada vez que leo el periódico. ¿En qué sentido minimizar el sesgo en las estimaciones da la representación más precisa de la teoría subyacente?
También vi la charla del profesor Shmueli aquí , pronunciada en JMP Discovery Summit 2017, y ella dice:
... cosas que son como modelos de contracción, conjuntos, nunca los verás. Debido a que esos modelos, por diseño, introducen sesgo para reducir el sesgo / varianza general. Es por eso que no estarán allí, no tiene ningún sentido teórico hacer eso. ¿Por qué harías tu modelo sesgado a propósito?
Esto realmente no arroja luz sobre mi pregunta, simplemente reiterando la afirmación que no entiendo.
Si la teoría tiene muchos parámetros, y tenemos datos escasos para estimarlos, el error de estimación estará dominado por la varianza. ¿Por qué sería inapropiado usar un procedimiento de estimación sesgado como la regresión de cresta (que resulta en estimaciones sesgadas de menor varianza) en esta situación?