El papel de la "limpieza de datos" es identificar cuándo "nuestras leyes (modelo) no funcionan". Ajustar valores atípicos o puntos de datos anormales nos permite obtener "estimaciones sólidas" de los parámetros en el modelo actual que estamos entreteniendo. Estos "valores atípicos", si no se tratan, permiten una distorsión no deseada en los parámetros del modelo, ya que la estimación se "impulsa a explicar estos puntos de datos" que "no se comportan de acuerdo con nuestro modelo hipotético". En otras palabras, hay una gran recompensa en términos de Suma de cuadrados explicada al centrarse en los "malos". Los puntos identificados empíricamente que requieren limpieza deben examinarse cuidadosamente para desarrollar / sugerir factores de causa que no están en el modelo actual.
¿Cómo evaluar el efecto de la intervención en un estado versus otro utilizando la tasa de letalidad anual?
Hacer ciencia es buscar patrones repetidos.
Detectar anomalías es identificar valores que no siguen patrones repetidos. ¿De qué otra forma sabrías que un punto violó ese modelo? De hecho, el proceso de crecimiento, comprensión, búsqueda y examen de valores atípicos debe ser iterativo. Este no es un pensamiento nuevo.
Sir Frances Bacon, escribiendo en Novum Organum hace unos 400 años, dijo: “Los errores de la naturaleza, los deportes y los monstruos corrigen la comprensión con respecto a las cosas ordinarias y revelan formas generales. Porque quien conozca los caminos de la Naturaleza notará más fácilmente sus desviaciones; y, por otro lado, quien conoce sus desviaciones describirá con mayor precisión sus formas ".
Cambiamos nuestras reglas al observar cuándo fallan las reglas actuales.
Si, de hecho, los valores atípicos identificados son todos pulsos y tienen efectos similares (tamaño), entonces sugerimos lo siguiente (citado en otro póster)
Una forma "rápida y sucia" de hacer esto en un entorno de regresión es incluir un indicador para los años / períodos epidémicos como una variable regresora. Esto le dará una estimación promedio del efecto de las epidemias (e implícitamente asume que el efecto es lo mismo para cada epidemia). Sin embargo, este enfoque solo funciona para describir el efecto, porque en el pronóstico, su variable de regresión es desconocida (no sabe qué períodos en el futuro serán epidémicos) ".
Esto si el curso requiere que las anomalías individuales (años de pulso) tengan efectos similares. Si difieren, una variable de portmanteau descrita anteriormente sería incorrecta.