Tengo un gran conjunto de datos que consta de los valores de varios cientos de variables financieras que podrían usarse en una regresión múltiple para predecir el comportamiento de un fondo indexado a lo largo del tiempo. Me gustaría reducir el número de variables a diez más o menos y al mismo tiempo conservar la mayor potencia predictiva posible. Agregado: El conjunto reducido de variables debe ser un subconjunto del conjunto de variables original para preservar el significado económico de las variables originales. Así, por ejemplo, no debería terminar con combinaciones lineales o agregados de las variables originales.
Algunas ideas (probablemente ingenuas) sobre cómo hacer esto:
- Realice una regresión lineal simple con cada variable y elija las diez con los valores más grandes . Por supuesto, no hay garantía de que las diez mejores variables individuales combinadas sean el mejor grupo de diez.
- Realice un análisis de componentes principales e intente encontrar las diez variables originales con las asociaciones más grandes con los primeros ejes principales.
No creo que pueda realizar una regresión jerárquica porque las variables no están realmente anidadas. Probar todas las combinaciones posibles de diez variables es computacionalmente inviable porque hay demasiadas combinaciones.
¿Existe un enfoque estándar para abordar este problema de reducir el número de variables en una regresión múltiple?
Parece que este sería un problema suficientemente común que habría un enfoque estándar.
Una respuesta muy útil sería aquella que no solo menciona un método estándar, sino que también ofrece una visión general de cómo y por qué funciona. Alternativamente, si no hay un enfoque estándar, sino más bien múltiples con diferentes fortalezas y debilidades, una respuesta muy útil sería una que discuta sus pros y sus contras.
El comentario de whuber a continuación indica que la solicitud en el último párrafo es demasiado amplia. En cambio, aceptaría como buena respuesta una lista de los principales enfoques, tal vez con una breve descripción de cada uno. Una vez que tenga los términos, puedo desenterrar los detalles de cada uno.