Valor de corte de distancia del cocinero

He estado leyendo sobre la distancia del cocinero para identificar valores atípicos que tienen una gran influencia en mi regresión. En el estudio original de Cook, dice que una tasa de corte de 1 debería ser comparable para identificar personas influyentes. Sin embargo, varios otros estudios usan o como punto de corte. $\frac{4}{n}$ $\frac{4}{n-k-1}$

En mi estudio, ninguno de mis residuos tiene una D superior a 1. Sin embargo, si uso como punto de corte , entonces hay varios datos puntos que se consideran influenciadores. Decidí probar si eliminar estos puntos de datos haría una diferencia en mi regresión lineal general. Todas mis vías intravenosas conservaron su importancia y no fue evidente ningún cambio evidente. $\frac{4}{n}$ $(\frac{4}{149}= .026)$

¿Debo conservar todos mis puntos de datos y usar la tasa de corte de 1? O eliminarlos?

outliers cooks-distance

— disertación
fuente

Ver Baltagi (2011) Econometría, 5e. En el Capítulo 8, sección 8.1. Sugiere otra medida derivada de la distancia de Cook, y también comprueba las distorsiones / influencias de obs influyentes en la matriz Var-Covar, que también podría necesitar, ya que sus estimadores no cambian mucho ...

— SirAlex

No debe eliminar ningún dato sobre la base de este diagnóstico. Su propósito es ayudarlo a pensar sobre ellos y sus efectos en su análisis.

— whuber

Probablemente iría con su modelo original con su conjunto de datos completo. En general, considero que estas cosas facilitan los análisis de sensibilidad. Es decir, lo señalan hacia qué verificar para asegurarse de que no tenga un resultado dado solo por algo estúpido. En su caso, tiene algunos puntos potencialmente influyentes, pero si vuelve a ejecutar el modelo sin ellos, obtiene sustancialmente la misma respuesta (al menos con respecto a los aspectos que presumiblemente le interesan). En otras palabras, use el umbral que desee: solo está reajustando el modelo como un cheque, no como la versión 'verdadera'. Si cree que otras personas estarán lo suficientemente preocupadas por los posibles valores atípicos, podría informar ambos ajustes del modelo. Lo que dirías es como,

Aquí están mis resultados. Uno podría estar preocupado de que esta imagen solo surja debido a un par de observaciones inusuales, pero muy influyentes. Estos son los resultados del mismo modelo, pero sin esas observaciones. No hay diferencias sustantivas.

También es posible eliminarlos y usar el segundo modelo como resultado principal. Después de todo, permanecer con el conjunto de datos original equivale a suponer qué datos pertenecen al modelo tanto como ir con el subconjunto. Pero es probable que las personas sean muy escépticas con respecto a sus resultados informados porque psicológicamente es demasiado fácil para alguien convencerse, sin ninguna intención corrupta real, de seguir el conjunto de ajustes post-hoc (como dejar caer algunas observaciones) que les da el resultado que más esperaban ver. Al ir siempre con el conjunto de datos completo, evita esa posibilidad y asegura a las personas (por ejemplo, revisores) que eso no es lo que está sucediendo en su proyecto.

Otro problema aquí es que las personas terminan " persiguiendo la burbuja ". Cuando elimina algunos valores atípicos potenciales y vuelve a ejecutar su modelo, termina con resultados que muestran observaciones nuevas y diferentes como valores atípicos potenciales. ¿Por cuántas iteraciones se supone que debes pasar? La respuesta estándar a esto es que debe permanecer con su conjunto de datos original y completo y, en su lugar, ejecutar una regresión sólida . Esto nuevamente puede entenderse como un análisis de sensibilidad.

— gung - Restablece a Monica
fuente