Probablemente iría con su modelo original con su conjunto de datos completo. En general, considero que estas cosas facilitan los análisis de sensibilidad. Es decir, lo señalan hacia qué verificar para asegurarse de que no tenga un resultado dado solo por algo estúpido. En su caso, tiene algunos puntos potencialmente influyentes, pero si vuelve a ejecutar el modelo sin ellos, obtiene sustancialmente la misma respuesta (al menos con respecto a los aspectos que presumiblemente le interesan). En otras palabras, use el umbral que desee: solo está reajustando el modelo como un cheque, no como la versión 'verdadera'. Si cree que otras personas estarán lo suficientemente preocupadas por los posibles valores atípicos, podría informar ambos ajustes del modelo. Lo que dirías es como,
Aquí están mis resultados. Uno podría estar preocupado de que esta imagen solo surja debido a un par de observaciones inusuales, pero muy influyentes. Estos son los resultados del mismo modelo, pero sin esas observaciones. No hay diferencias sustantivas.
También es posible eliminarlos y usar el segundo modelo como resultado principal. Después de todo, permanecer con el conjunto de datos original equivale a suponer qué datos pertenecen al modelo tanto como ir con el subconjunto. Pero es probable que las personas sean muy escépticas con respecto a sus resultados informados porque psicológicamente es demasiado fácil para alguien convencerse, sin ninguna intención corrupta real, de seguir el conjunto de ajustes post-hoc (como dejar caer algunas observaciones) que les da el resultado que más esperaban ver. Al ir siempre con el conjunto de datos completo, evita esa posibilidad y asegura a las personas (por ejemplo, revisores) que eso no es lo que está sucediendo en su proyecto.
Otro problema aquí es que las personas terminan " persiguiendo la burbuja ". Cuando elimina algunos valores atípicos potenciales y vuelve a ejecutar su modelo, termina con resultados que muestran observaciones nuevas y diferentes como valores atípicos potenciales. ¿Por cuántas iteraciones se supone que debes pasar? La respuesta estándar a esto es que debe permanecer con su conjunto de datos original y completo y, en su lugar, ejecutar una regresión sólida . Esto nuevamente puede entenderse como un análisis de sensibilidad.