Estoy trabajando en una tarea donde mi profesor quisiera que creáramos un verdadero modelo de regresión, simulemos una muestra de datos e intentará encontrar nuestro verdadero modelo de regresión utilizando algunas de las técnicas que hemos aprendido en clase. También tendremos que hacer lo mismo con un conjunto de datos que nos ha proporcionado.
Él dice que ha sido capaz de producir un modelo bastante preciso para todos los intentos pasados de tratar de engañarlo. Ha habido algunos estudiantes que crearon algún modelo de locura, pero posiblemente pudo producir un modelo más simple que era suficiente.
¿Cómo puedo desarrollar un modelo difícil de encontrar? ¿No quiero ser súper barato haciendo 4 términos cuadráticos, 3 observaciones y una varianza masiva? ¿Cómo puedo producir un conjunto de datos aparentemente inocuo que tenga un pequeño modelo resistente debajo?
Simplemente tiene 3 reglas a seguir:
Su conjunto de datos debe tener una variable "Y" y 20 variables "X" etiquetadas como "Y", "X1", ..., "X20".
Su variable de respuesta debe provenir de un modelo de regresión lineal que satisfaga: donde y .Y ′ i = β 0 + β 1 X ′ i 1 + … + β p - 1 X ′ i , p - 1 + ϵ i ϵ i ∼ N ( 0 , σ 2 ) p ≤ 21
Todas las variables que se usaron para crear están contenidas en su conjunto de datos.Y
Cabe señalar que no todas las 20 variables X deben estar en su modelo real
Estaba pensando en usar algo como el Modelo Fama-French de 3 factores y que comenzara con los datos de stock (SPX y AAPL) y tuviera que transformar esas variables a los rendimientos continuamente compuestos para obscurecerlo un poco más. Pero eso me deja con valores perdidos en la primera observación y son series de tiempo (que aún no hemos discutido en clase).
No estoy seguro de si este es el lugar adecuado para publicar algo como esto. Sentí que podría generar una buena discusión.
Editar: Tampoco estoy pidiendo modelos "preconstruidos" en particular. Tengo más curiosidad sobre los temas / herramientas en Estadísticas que permitirían a alguien abordar esto.