Mi situación:
- pequeño tamaño de muestra: 116
- variable de resultado binaria
- larga lista de variables explicativas: 44
- las variables explicativas no vinieron de la parte superior de mi cabeza; su elección se basó en la literatura.
- La mayoría de los casos en la muestra y la mayoría de las variables tienen valores faltantes.
Enfoque para la selección de características elegidas: LASSO
El paquete glmnet de R no me permite ejecutar la rutina glmnet, aparentemente debido a la existencia de valores faltantes en mi conjunto de datos. Parece que hay varios métodos para manejar los datos faltantes, por lo que me gustaría saber:
- ¿LASSO impone alguna restricción en términos del método de imputación que puedo usar?
- ¿Cuál sería la mejor apuesta para el método de imputación? Idealmente, necesito un método que pueda ejecutar en SPSS (preferiblemente) o R.
ACTUALIZACIÓN1: De algunas de las respuestas a continuación se hizo evidente que he tratado con problemas más básicos antes de considerar los métodos de imputación. Me gustaría agregar aquí nuevas preguntas al respecto. En la respuesta que sugiere la codificación como valor constante y la creación de una nueva variable para tratar los valores 'no aplicables' y el uso del lazo grupal:
- ¿Diría que si uso LASSO grupal, podría usar el enfoque sugerido para predictores continuos y también para predictores categóricos? Si es así, supongo que sería equivalente a crear una nueva categoría; desconfío de que esto pueda introducir un sesgo.
- ¿Alguien sabe si el paquete glmnet de R admite el grupo LASSO? Si no, ¿alguien sugeriría otro que lo haga en combinación con la regresión logística? Se pueden encontrar varias opciones que mencionan el grupo LASSO en el repositorio de CRAN, ¿alguna sugerencia de la más adecuada para mi caso? Tal vez SGL?
Este es un seguimiento de una pregunta mía anterior ( ¿Cómo seleccionar un subconjunto de variables de mi larga lista original para realizar un análisis de regresión logística? ).
OBS: No soy un estadístico.