Estoy empezando a incursionar con el uso de glmnet
la LASSO regresión donde mi resultado de interés es dicotómica. He creado un pequeño marco de datos simulados a continuación:
age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7)
gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0)
bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88)
m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1)
p_edu <- c(0, 2, 2, 2, 2, 3, 2, 0, 0)
f_color <- c("blue", "blue", "yellow", "red", "red", "yellow", "yellow",
"red", "yellow")
asthma <- c(1, 1, 0, 1, 0, 0, 0, 1, 1)
# df is a data frame for further use!
df <- data.frame(age, gender, bmi_p, m_edu, p_edu, f_color, asthma)
Las columnas (variables) en el conjunto de datos anterior son las siguientes:
age
(edad del niño en años) - continuogender
- binario (1 = masculino; 0 = femenino)bmi_p
(Percentil de IMC) - continuom_edu
(nivel de educación más alto de la madre) - ordinal (0 = menos que la escuela secundaria; 1 = diploma de escuela secundaria; 2 = título de bachiller; 3 = título de posgrado)p_edu
(nivel de educación más alto del padre) - ordinal (igual que m_edu)f_color
(color primario favorito) - nominal ("azul", "rojo" o "amarillo")asthma
(estado de asma infantil) - binario (1 = asma; 0 = sin asma)
El objetivo de este ejemplo es hacer uso de LASSO para crear un modelo de predicción de la condición de asma infantil de la lista de 6 posibles variables de predicción ( age
, gender
, bmi_p
, m_edu
, p_edu
, y f_color
). Obviamente, el tamaño de la muestra es un problema aquí, pero espero obtener más información sobre cómo manejar los diferentes tipos de variables (es decir, continua, ordinal, nominal y binaria) dentro del glmnet
marco cuando el resultado es binario (1 = asma ; 0 = sin asma).
Como tal, ¿estaría alguien dispuesto a proporcionar un R
script de muestra junto con explicaciones para este ejemplo simulado usando LASSO con los datos anteriores para predecir el estado del asma? Aunque es muy básico, lo sé, y probablemente muchos otros en CV, ¡lo agradecería enormemente!
glmnet
en acción con un resultado binario.
dput
de un real objeto R; ¡no hagas que los lectores pongan glaseado encima ni te horneen un pastel! Si genera el marco de datos apropiado en R, por ejemplofoo
, edite en la pregunta la salida dedput(foo)
.