Estoy tratando de hacer una selección de modelo en algunos predictores candidatos que usan LASSO con un resultado continuo. El objetivo es seleccionar el modelo óptimo con el mejor rendimiento de predicción, que generalmente se puede hacer mediante validación cruzada K-fold después de obtener una ruta de solución de los parámetros de ajuste de LASSO. El problema aquí es que los datos provienen de un complejo diseño de encuestas en varias etapas (NHANES), con muestreo y estratificación por conglomerados. La parte de estimación no es difícil ya que glmnet
en R puede tomar pesos de muestreo. Pero la parte de validación cruzada es menos clara para mí, ya que las observaciones ahora ya no son válidas, y ¿cómo puede el procedimiento tener en cuenta los pesos de muestreo que representan una población finita?
Entonces mis preguntas son:
1) ¿Cómo llevar a cabo la validación cruzada K-fold con datos de encuestas complejas para seleccionar el parámetro de ajuste óptimo? Más específicamente, ¿cómo dividir adecuadamente los datos de muestra en conjuntos de capacitación y validación? ¿Y cómo definir la estimación del error de predicción?
2) ¿Hay alguna forma alternativa de seleccionar el parámetro de ajuste óptimo?