Tengo una pregunta sobre la selección del modelo y el rendimiento del modelo en regresión logística. Tengo tres modelos que se basan en tres hipótesis diferentes. Los primeros dos modelos (vamos a nombrarlos z y x) solo tienen una variable explicativa en cada modelo, y el tercero (vamos a llamarlo w) es más complicado. Estoy usando AIC para la selección de variables para el modelo w y luego AIC para comparar cuál de los tres modelos que explican mejor la variable dependiente. Descubrí que el modelo w tiene el AIC más bajo y ahora quiero hacer algunas estadísticas de rendimiento en ese modelo para tener una idea sobre el poder predictivo del modelo. Como todo lo que sé es que este modelo es mejor que los otros dos, pero no lo bueno que es.
Dado que he usado todos los datos para aprender el modelo (para poder comparar los tres modelos), ¿cómo hago con el rendimiento del modelo? Por lo que he reunido, no puedo simplemente hacer una validación cruzada de k-fold en el modelo final que obtuve de la selección del modelo usando AIC, pero necesito comenzar desde el principio con todas las variables explicativas incluidas, ¿es correcto? Creo que es el modelo final que he elegido con AIC que quiero saber qué tan bien funciona, pero me doy cuenta de que he entrenado en todos los datos para que el modelo pueda estar sesgado. Entonces, si debo comenzar desde el principio con todas las variables explicativas en todos los pliegues, obtendré diferentes modelos finales para algunos pliegues, ¿puedo elegir el modelo del pliegue que proporcionó el mejor poder predictivo y aplicarlo al conjunto de datos completo para comparar AIC con los otros dos modelos (z y x)? ¿O cómo funciona?
La segunda parte de mi pregunta es una pregunta básica sobre sobre-parametrización. Tengo 156 puntos de datos, 52 son 1's, el resto son 0's. Tengo 14 variables explicativas para elegir para el modelo w, me doy cuenta de que no puedo incluir todas debido a una sobre parametrización, he leído que solo debe usar el 10% del grupo de la variable dependiente con la menor cantidad de observaciones que Solo serían 5 para mí. Estoy tratando de responder una pregunta en ecología, ¿está bien seleccionar las variables iniciales que creo que explican la mejor dependencia simplemente basada en la ecología? ¿O cómo elijo las variables explicativas iniciales? No se siente bien excluir por completo algunas variables.
Entonces realmente tengo tres preguntas:
- ¿Podría estar bien probar el rendimiento en un modelo capacitado en el conjunto de datos completo con validación cruzada?
- Si no, ¿cómo elijo el modelo final al hacer la validación cruzada?
- ¿Cómo elijo las variables de inicio para que quiera sobre-parametrizar?
Perdón por mis preguntas desordenadas y mi ignorancia. Sé que se han hecho preguntas similares, pero todavía me siento un poco confundido. Agradezco cualquier pensamiento y sugerencia.