No estoy seguro de a dónde pertenece esta pregunta: Cross Validated o The Workplace. Pero mi pregunta está vagamente relacionada con las estadísticas.
Esta pregunta (o supongo que preguntas) surgió durante mi trabajo como "pasante de ciencia de datos". Estaba construyendo este modelo de regresión lineal y examinando la gráfica residual. Vi signos claros de heterocedasticidad. Recuerdo que la heterocedasticidad distorsiona muchas estadísticas de prueba, como el intervalo de confianza y la prueba t. Así que usé el mínimo cuadrado ponderado, siguiendo lo que aprendí en la universidad. Mi gerente lo vio y me aconsejó que no lo hiciera porque "estaba complicando las cosas", lo cual no fue una razón muy convincente para mí.
Otro ejemplo sería "eliminar una variable explicativa ya que su valor p es insignificante". Para ser, este consejo simplemente no tiene sentido desde un punto de vista lógico. Según lo que he aprendido, un valor p insignificante podría deberse a diferentes razones: azar, usar el modelo incorrecto, violar los supuestos, etc.
Otro ejemplo más es que utilicé la validación cruzada k-fold para evaluar mi modelo. Según el resultado, es mucho mejor que . Pero tenemos un para el modelo 1, y la razón tiene algo que ver con la intercepción . Sin embargo, mi supervisor parece preferir el modelo 2 porque tiene un más alto . Sus razones (como es robusta, o la validación cruzada es un enfoque de aprendizaje automático, no un enfoque estadístico) simplemente no parecen ser lo suficientemente convincentes como para cambiar de opinión. C V m o d e l 2 R 2 R 2 R 2
Como alguien que acaba de graduarse de la universidad, estoy muy confundido. Me apasiona aplicar estadísticas correctas para resolver problemas del mundo real, pero no sé cuál de las siguientes afirmaciones es verdadera:
- Las estadísticas que aprendí por mí mismo son simplemente incorrectas, así que solo estoy cometiendo errores.
- Hay una gran diferencia entre las estadísticas teóricas y los modelos de construcción en las empresas. Y aunque la teoría estadística es correcta, la gente simplemente no la sigue.
- El gerente no está utilizando las estadísticas correctamente.
Actualización al 17/04/2017: he decidido buscar un doctorado. en estadísticas Gracias a todos por su respuesta.