Creo que este enfoque está equivocado, pero quizás sea más útil si explico por qué. Querer conocer el mejor modelo dada cierta información sobre una gran cantidad de variables es bastante comprensible. Además, es una situación en la que las personas parecen encontrarse regularmente. Además, muchos libros de texto (y cursos) sobre regresión cubren métodos de selección por pasos, lo que implica que deben ser legítimos. Sin embargo, lamentablemente no lo son, y el emparejamiento de esta situación y objetivo es bastante difícil de navegar con éxito. La siguiente es una lista de problemas con los procedimientos automatizados de selección de modelos por pasos (atribuidos a Frank Harrell y copiados desde aquí ):
- Produce valores de R cuadrado que están muy sesgados para ser altos.
- Las pruebas F y chi-cuadrado citadas junto a cada variable en la impresión no tienen la distribución reclamada.
- El método produce intervalos de confianza para efectos y valores pronosticados que son falsamente estrechos; ver Altman y Andersen (1989).
- Produce valores p que no tienen el significado adecuado, y la corrección adecuada para ellos es un problema difícil.
- Proporciona coeficientes de regresión sesgados que necesitan contracción (los coeficientes para las variables restantes son demasiado grandes; ver Tibshirani [1996]).
- Tiene problemas graves en presencia de colinealidad.
- Se basa en métodos (p. Ej., Pruebas F para modelos anidados) que se utilizaron para probar hipótesis previamente especificadas.
- Aumentar el tamaño de la muestra no ayuda mucho; ver Derksen y Keselman (1992).
- Nos permite no pensar en el problema.
- Utiliza mucho papel.
La pregunta es, ¿qué tienen de malo estos procedimientos / por qué ocurren estos problemas? La mayoría de las personas que han tomado un curso básico de regresión están familiarizados con el concepto de regresión a la media , así que esto es lo que uso para explicar estos problemas. (Aunque esto puede parecer fuera de tema al principio, tenga paciencia conmigo, prometo que es relevante).
Imagine un entrenador de atletismo de la escuela secundaria en el primer día de pruebas. Aparecen treinta niños. Estos niños tienen un nivel subyacente de capacidad intrínseca a la que ni el entrenador ni ninguna otra persona tienen acceso directo. Como resultado, el entrenador hace lo único que puede hacer, que es que todos corran una carrera de 100 metros. Los tiempos son presumiblemente una medida de su capacidad intrínseca y se toman como tales. Sin embargo, son probabilísticos; cierta proporción de lo bien que alguien lo hace se basa en su capacidad real y otra proporción es aleatoria. Imagine que la verdadera situación es la siguiente:
set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)
Los resultados de la primera carrera se muestran en la siguiente figura junto con los comentarios del entrenador a los niños.
Tenga en cuenta que dividir a los niños por sus tiempos de carrera deja superposiciones en su capacidad intrínseca; este hecho es crucial. Después de alabar a algunos y gritarles a otros (como suelen hacer los entrenadores), los hace correr nuevamente. Aquí están los resultados de la segunda carrera con las reacciones del entrenador (simuladas a partir del mismo modelo anterior):
Tenga en cuenta que su capacidad intrínseca es idéntica, pero los tiempos rebotaban en relación con la primera raza. Desde el punto de vista del entrenador, aquellos a los que gritó tendieron a mejorar, y los que elogió tendieron a empeorar (adapté este ejemplo concreto de la cita de Kahneman que aparece en la página wiki), aunque en realidad la regresión a la media es una simple matemática consecuencia del hecho de que el entrenador está seleccionando atletas para el equipo basándose en una medición que es en parte aleatoria.
Ahora, ¿qué tiene esto que ver con las técnicas de selección de modelo automatizadas (por ejemplo, paso a paso)? El desarrollo y la confirmación de un modelo basado en el mismo conjunto de datos a veces se denomina dragado de datos.. Aunque existe una relación subyacente entre las variables, y se espera que las relaciones más fuertes produzcan puntajes más fuertes (por ejemplo, estadísticas t más altas), estas son variables aleatorias y los valores realizados contienen error. Por lo tanto, cuando selecciona variables basadas en tener valores realizados más altos (o más bajos), pueden ser tales debido a su valor verdadero subyacente, error o ambos. Si continúa de esta manera, se sorprenderá tanto como el entrenador después de la segunda carrera. Esto es cierto si selecciona variables basadas en tener estadísticas t altas o intercorrelaciones bajas. Es cierto que usar el AIC es mejor que usar los valores p, porque penaliza la complejidad del modelo, pero el AIC es en sí mismo una variable aleatoria (si ejecuta un estudio varias veces y se ajusta al mismo modelo, el AIC rebotará como todo lo demas). Desafortunadamente,
Espero que esto sea útil.