Estoy realizando un análisis en el que el objetivo principal es comprender los datos. El conjunto de datos es lo suficientemente grande para la validación cruzada (10k), y los predictores incluyen variables continuas y ficticias, y el resultado es continuo. El objetivo principal era ver si tiene sentido eliminar algunos predictores, para que el modelo sea más fácil de interpretar.
Preguntas:
Mi pregunta es "qué variables explican el resultado y son una parte 'suficientemente fuerte' de esa explicación". Pero para seleccionar el parámetro lambda para lazo, utiliza la validación cruzada, es decir, la validez predictiva como criterio. Al hacer inferencia, ¿es la validez predictiva un proxy suficiente para la pregunta general que hago?
Digamos que LASSO mantuvo solo 3 de 8 predictores. Y ahora me pregunto: "qué efecto tienen estos en el resultado". Por ejemplo, encontré una diferencia de género. Después de la contracción del lazo, el coeficiente sugiere que las mujeres obtienen 1 punto más que los hombres. Pero sin la contracción (es decir, en el conjunto de datos real), obtienen 2.5 puntos más.
- ¿Cuál tomaría como mi efecto de género "real"? Yendo solo por validez predictiva, sería el coeficiente reducido.
- O en un contexto, digamos que estoy escribiendo un informe para personas que no conocen bien las estadísticas. ¿Qué coeficiente les informaría?