¿Puede la limpieza de datos empeorar los resultados del análisis estadístico?

17

Se produce un aumento en el número de casos y muertes durante las epidemias (aumento repentino en el número) debido a la circulación de virus (como el Virus del Nilo Occidental en EE. UU. En 2002) o la disminución de la resistencia de las personas o la contaminación de alimentos o agua o el aumento en el número de mosquitos Estas epidemias se presentarán como valores atípicos que pueden ocurrir cada 1 a 5 años. Al eliminar estos valores atípicos, eliminamos la evidencia de epidemias que forman una parte importante del pronóstico y la comprensión de la enfermedad.

¿Es necesaria la limpieza de datos cuando se trata de valores atípicos causados por epidemias?

¿Va a mejorar los resultados o empeorar los resultados del análisis estadístico?

— Dr. quien
fuente

12

De hecho, depende del propósito de su investigación. En mi opinión, podría haber varios:

Desea comprender cuáles son los factores típicos que causan casos y muertes y que no se ven afectados por los períodos epidémicos y los factores que causan epidemias (por lo que está interesado en las probabilidades típicas de no forzar mayores), en este caso obviamente necesita eliminar la epidemia períodos de los datos, ya que son con el propósito de investigar los valores atípicos a lo que le gustaría concluir
Es posible que desee incluir cambios epidémicos en sus modelos (los modelos de cambio de régimen, por ejemplo, cualquier enlace bueno y sugerencias de modelos de la comunidad son bienvenidos aquí), porque desea saber la probabilidad de que ocurra un período epidémico (y también cuánto tiempo durará), para probar la estabilidad y pronosticar , en este caso no excluye los períodos epidémicos, sino que busca modelos más complicados en lugar de buscar la herramienta econométrica de martillo o algo similar $OLS$
Su objetivo principal es detectar períodos epidémicos y monitorearlos en tiempo real: es un campo especial en econometría con el que varios de mis colegas están trabajando en la Universidad de Vilna (definitivamente, le gustaría tener muchas observaciones epidémicas para tratar )

Por lo tanto, si su objetivo principal es algo así como 2, la eliminación de los datos generará conclusiones erróneas sobre los pronósticos futuros, es decir, el rendimiento impreciso del pronóstico. También es cierto que el segundo caso no necesariamente proporciona mejores pronósticos, pero al menos podría sacar conclusiones sobre las probabilidades de períodos epidémicos y su duración. Esto ES de vital importancia para los matemáticos actuariales, entonces ¿puede ser usted el indicado?

— Dmitrij Celov
fuente

Gran y simple respuesta. Tienes un conocimiento apreciable a una edad temprana.

— DrWho

15

Yo personalmente no llamaría a esto "limpieza de datos". Pienso en la limpieza de datos más en el sentido de la edición de datos: limpieza de inconsistencias en el conjunto de datos (por ejemplo, un registro ha informado una edad de 1000, o una persona de 4 años es madre soltera, etc.).

La presencia de un efecto real en sus datos no lo hace "desordenado" (por el contrario, la presencia de efectos reales lo enriquecería), aunque puede hacer que su tarea matemática sea más complicada. Sugeriría que los datos se "limpien" de esta manera si es la única forma factible de obtener una predicción. Si hay una manera factible que no arroja información, entonces úsela.

Parece que puede beneficiarse de algún tipo de análisis cíclico, dado que usted dice que este efecto se produce periódicamente (algo así como un "ciclo económico").

Desde mi punto de vista, si está buscando pronosticar algo, eliminar un efecto genuino de esa fuente solo puede empeorar sus predicciones. ¡Esto se debe a que efectivamente ha "desechado" la información que desea predecir!

El otro punto es que puede ser difícil determinar cuánto de un conjunto de muertes se debió a la epidemia y cuánto fue causado por las fluctuaciones ordinarias.

En terminología estadística, la epidemia suena así, desde su punto de vista, es una "molestia" a lo que realmente quiere analizar. Por lo tanto, no está particularmente interesado en él, pero debe tenerlo en cuenta de alguna manera en su análisis. Una forma "rápida y sucia" de hacer esto en un entorno de regresión es incluir un indicador para los años / períodos epidémicos como una variable regresora. Esto le dará una estimación promedio del efecto de las epidemias (y asume implícitamente que el efecto es el mismo para cada epidemia). Sin embargo, este enfoque solo funciona para describir el efecto, porque en el pronóstico, su variable de regresión es desconocida (no sabe qué períodos en el futuro serán epidémicos).

Otra forma de explicar la epidemia es utilizar un modelo de mezcla con dos componentes: un modelo para la parte epidémica y un modelo para la parte "ordinaria". Luego, el modelo procede en dos pasos: 1) clasifica un período como epidémico o normal, luego 2) aplica el modelo al que se clasificó.

— probabilidadislogica
fuente

(+1) buenas sugerencias, aunque probablemente sean posibles más trucos no tan sucios.

— Dmitrij Celov

+1; Para la posteridad, quiero hacer el siguiente comentario: Usted dice "eliminar un efecto genuino ... solo puede empeorar sus predicciones". En contexto, tiene toda la razón, sin embargo, en el caso general esto no es necesariamente cierto. (Estoy pensando en el 'compromiso de varianza de sesgo', que es un gran problema en el modelado predictivo). Nuevamente, creo que estás aquí, y sé que sabes sobre el compromiso de varianza de sesgo; Quiero mencionarlo para cualquiera que encuentre esta respuesta en el futuro y pueda malinterpretar esa declaración.

— gung - Restablece a Monica

5

Para darle una respuesta general a su pregunta, permítame parafrasear a uno de mis antiguos gerentes generales: las oportunidades de investigación se encuentran en los valores atípicos del modelo que está ajustando.

La situación es similar al experimento realizado por mi Robert Millikan para determinar la carga de un electrón. Décadas después de ganar el premio Nobel por su experimento, se examinaron sus notas y se descubrió que arrojó una gran cantidad de puntos de datos porque no estaban de acuerdo con los resultados que estaba buscando. ¿Eso es mala ciencia?

Si encuentra algunos valores atípicos, quizás se deban a "aberraciones estadísticas". Sin embargo, si encuentra más de unos pocos valores atípicos, debe explorar sus datos más de cerca. Si no puede atribuir una causa para las aberraciones, entonces no comprende el proceso y un modelo estadístico no resolverá su problema. El propósito de un modelo es resumir un proceso, el modelo no resumirá mágicamente un proceso que el experimentador no comprende.

— Schenectady
fuente

Es la tendencia humana. Robert Millikan no fue la excepción. Estoy muy feliz de que se hayan iluminado tantas cosas nuevas y se enfatice la filosofía detrás de un modelo estadístico.

— DrWho

5

El papel de la "limpieza de datos" es identificar cuándo "nuestras leyes (modelo) no funcionan". Ajustar valores atípicos o puntos de datos anormales nos permite obtener "estimaciones sólidas" de los parámetros en el modelo actual que estamos entreteniendo. Estos "valores atípicos", si no se tratan, permiten una distorsión no deseada en los parámetros del modelo, ya que la estimación se "impulsa a explicar estos puntos de datos" que "no se comportan de acuerdo con nuestro modelo hipotético". En otras palabras, hay una gran recompensa en términos de Suma de cuadrados explicada al centrarse en los "malos". Los puntos identificados empíricamente que requieren limpieza deben examinarse cuidadosamente para desarrollar / sugerir factores de causa que no están en el modelo actual.

¿Cómo evaluar el efecto de la intervención en un estado versus otro utilizando la tasa de letalidad anual?

Hacer ciencia es buscar patrones repetidos.

Detectar anomalías es identificar valores que no siguen patrones repetidos. ¿De qué otra forma sabrías que un punto violó ese modelo? De hecho, el proceso de crecimiento, comprensión, búsqueda y examen de valores atípicos debe ser iterativo. Este no es un pensamiento nuevo.

Sir Frances Bacon, escribiendo en Novum Organum hace unos 400 años, dijo: “Los errores de la naturaleza, los deportes y los monstruos corrigen la comprensión con respecto a las cosas ordinarias y revelan formas generales. Porque quien conozca los caminos de la Naturaleza notará más fácilmente sus desviaciones; y, por otro lado, quien conoce sus desviaciones describirá con mayor precisión sus formas ".

Cambiamos nuestras reglas al observar cuándo fallan las reglas actuales.

Si, de hecho, los valores atípicos identificados son todos pulsos y tienen efectos similares (tamaño), entonces sugerimos lo siguiente (citado en otro póster)

Una forma "rápida y sucia" de hacer esto en un entorno de regresión es incluir un indicador para los años / períodos epidémicos como una variable regresora. Esto le dará una estimación promedio del efecto de las epidemias (e implícitamente asume que el efecto es lo mismo para cada epidemia). Sin embargo, este enfoque solo funciona para describir el efecto, porque en el pronóstico, su variable de regresión es desconocida (no sabe qué períodos en el futuro serán epidémicos) ".

Esto si el curso requiere que las anomalías individuales (años de pulso) tengan efectos similares. Si difieren, una variable de portmanteau descrita anteriormente sería incorrecta.

— IrishStat
fuente

@IrishStat: Gran explicación y una cita memorable. Mantuvo su antigüedad y experiencia. ¿Puede ampliar amablemente su declaración "conocimiento esperando ser descubierto" con referencia a mi pregunta anterior stats.stackexchange.com/questions/8358/…

— DrWho

1

@DrWHO: La identificación del CAMBIO DE NIVEL en 2014 que solucionó una trama residual de muy mal aspecto es un ejemplo de "conocimiento a la espera de ser descubierto", ya que reveló la aparente demora entre una fecha de cambio de política y su fecha completa de implementación / realización. La declaración de que un cambio de nivel permanente (escalón) se realizó por completo en 2004 (año 11 de 17) refleja la fecha de facto donde la fecha de jure fue unos años antes.

— IrishStat

@IrishStat: Gracias por la aclaración. Es muy difícil convencer a los responsables políticos, a los médicos y al público de que un tratamiento en particular puede tener cambios drásticos en el resultado de la enfermedad. Lleva décadas. Este cambio de nivel que se vio en 2004 refleja la demora en aceptar algo nuevo. ¿Es mejor dejar el cambio de nivel o tratarlo como un valor atípico para los cálculos de las tasas de fatalidad de caso del estado 1 al tratar con la pregunta stats.stackexchange.com/questions/8358/…

— DrWho

1

mi comentario anterior debería haber sido LEVEL SHIFT en 2004. Perdón por la confusión.

— IrishStat

1

@DrWHO: En respuesta a su pregunta "¿Es mejor dejar el cambio de Nivel o tratarlo como un valor atípico para los cálculos de Tasas de Fatalidad de Casos del Estado 1 al tratar la pregunta". Si no lo trata, entonces uno simplemente puede decir que ESTADO1 tuvo un cambio de cambio de nivel en 2004, mientras que ESTADO2 no lo hizo, por lo tanto, son diferentes, pero uno no puede colocar una probabilidad en esa declaración. Después de tratar a STATE1 para el cambio de nivel, uno ha normalizado los datos para un cambio de estado en 2004. Los datos normalizados (datos limpios) se pueden comparar con los datos normalizados de STATE2 sin pérdida de generalidad.

— IrishStat

5

Uno de los métodos más utilizados para encontrar epidemias en datos retrospectivos es en realidad buscar valores atípicos: muchos investigadores de la gripe, por ejemplo, se centran principalmente en los residuos de sus modelos ajustados, en lugar de los modelos en sí, para ver los lugares donde el "día" adentro, día a día ", las predicciones del modelo fallan: una de las formas en que el modelo puede fallar es con la aparición de una epidemia.

Sin embargo, es imperativo que distingas entre buscar valores atípicos en tus resultados, probablemente no es la mejor idea, y lo que la mayoría de la gente llama "limpieza de datos". Aquí, busca valores atípicos no porque representen un problema estadístico, sino porque plantean problemas de calidad de datos.

Por ejemplo, en un conjunto de datos que tengo, hay una variable para el inicio de la enfermedad. Para un tema, esta fecha es noviembre de 1929. ¿Creo que esto es correcto? No. Esto indica un problema de calidad de datos que debe corregirse, en este caso corregir la fecha en función de otra información sobre el tema. Este tipo de limpieza de datos mejorará activamente la calidad de sus resultados estadísticos.

— Fomite
fuente