Tengo un conjunto de datos con aproximadamente 5,000 características / covariables a menudo correlacionadas y una respuesta binaria. Me dieron los datos, no los recolecté. Utilizo Lasso y el refuerzo de gradiente para construir modelos. Utilizo validación cruzada anidada iterada. Reporto los 40 coeficientes más grandes (absolutos) de Lasso y las 40 características más importantes en los árboles impulsados por gradiente (no había nada especial sobre 40; solo parecía ser una cantidad razonable de información). También informo sobre la variación de estas cantidades en los pliegues e iteraciones de CV.
Me gusta reflexionar sobre las características "importantes", sin hacer afirmaciones sobre los valores p o la causalidad ni nada, sino que considero este proceso como una idea, aunque imperfecta y aleatoria, de algún fenómeno.
Suponiendo que he hecho todo esto correctamente (p. Ej., Ejecuté la validación cruzada correctamente, escalado por lazo), ¿es razonable este enfoque? ¿Hay problemas con, por ejemplo, pruebas de hipótesis múltiples, análisis post hoc, descubrimiento falso? U otros problemas?
Objetivo
Predecir la probabilidad de un evento adverso
- Ante todo, estimar la probabilidad con precisión
- Más pequeño, como un control de cordura, pero también para revelar algunos predictores novedosos que podrían investigarse más a fondo, inspeccionar los coeficientes e importancias como se mencionó anteriormente.
Consumidor
- Los investigadores interesados en predecir este evento y las personas que terminan teniendo que arreglar el evento si ocurre
Lo que quiero que saquen de eso
Déles la capacidad de predecir el evento, si desean repetir el proceso de modelado, como se describe, con sus propios datos.
Arrojar algo de luz sobre predictores inesperados. Por ejemplo, podría resultar que algo completamente inesperado sea el mejor predictor. Los modeladores en otros lugares, por lo tanto, podrían considerar más seriamente dicho predictor.