Me gustaría encontrar predictores para una variable dependiente continua de un conjunto de 30 variables independientes. Estoy usando la regresión Lasso como se implementa en el paquete glmnet en R. Aquí hay un código ficticio:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
Mi pregunta es cómo interpretar el resultado:
¿Es correcto decir que en el resultado final todos los predictores que muestran un coeficiente diferente de cero están relacionados con la variable dependiente?
¿Sería un informe suficiente en el contexto de una publicación de revista? ¿O se espera que proporcione estadísticas de prueba para la importancia de los coeficientes? (El contexto es la genética humana)
¿Es razonable calcular valores p u otro estadístico de prueba para reclamar significancia? ¿Cómo sería eso posible? ¿Se implementa un procedimiento en R?
¿Sería una forma adecuada de visualizar estos datos una gráfica de regresión simple (puntos de datos trazados con un ajuste lineal) para cada predictor?
¿Quizás alguien pueda proporcionar algunos ejemplos fáciles de artículos publicados que muestren el uso de Lasso en el contexto de algunos datos reales y cómo informar esto en una revista?
cv
para el paso de predicción?