¿Debemos preocuparnos por los valores atípicos cuando utilizamos pruebas basadas en rango?

Disculpas si esta es una pregunta muy básica.

Si tenemos datos que no se distribuyen normalmente (por ejemplo, sesgada, la prueba de Shapiro-Wilk es significativa) y recurrimos a métodos basados en rangos (por ejemplo, la prueba de rangos con signo de Wilcoxon), ¿debemos preocuparnos por los valores atípicos?

Imagine, por ejemplo, que graficamos los datos usando un diagrama de caja y una minoría de puntos de datos están marcados como valores atípicos. ¿Deberíamos transformar esos puntos? O eliminarlos? Me parece que muchos libros de texto hablan de tratar con valores atípicos, pero solo porque ejercen una influencia importante en los parámetros como la media y la desviación estándar. Sin embargo, cuando usamos una prueba basada en el rango, ya serán 'transformados' para ser el próximo valor en el rango y, por lo tanto, no ejercerán una influencia importante en la prueba. Hasta ahora no he visto esto explícitamente en un libro de estadísticas, así que pensé en hacer la pregunta aquí.

outliers ranks

— trev
fuente

Las pruebas basadas en el rango estadístico son robustas frente a valores atípicos. Pero un valor atípico es un valor atípico, en el nivel operativo el analista aún debe examinar ese caso. Entonces, yo diría que todavía debemos preocuparnos "parcialmente" por los valores atípicos.

— Penguin_Knight

Está bien incluso si la pregunta puede ser muy básica. Mientras la pregunta no se haga en este sitio, incluso las preguntas básicas son buenas preguntas

— Hotaka

No. Cuando se clasifican los datos, un valor atípico simplemente se reconocerá como un caso que se clasifica uno por encima (o por debajo) del siguiente caso menos extremo. Independientemente de si hay 0,01 o 5 desviaciones estándar entre el valor más extremo y el segundo más extremo, ese grado de diferencia se descarta cuando se clasifican los datos.

De hecho, una de las muchas razones por las cuales alguien podría usar una prueba basada en rango (o no paramétrica) es debido a los valores atípicos.

— Hotaka
fuente

Y la excelente eficiencia de los métodos no paramétricos y semiparamétricos es una razón para no realizar una prueba previa de normalidad (además del poder inadecuado de la prueba de normalidad).

— Frank Harrell

No sé si aceptar esta gran respuesta concisa o la sugerente y detallada de @NickCox. ¡Esperaré un par de días para ver cuál termina con más votos!

— trev

La respuesta de @ Hotaka es bastante correcta. La clasificación hace innecesaria la transformación; Es en sí una transformación que ignora los valores exactos, excepto en la medida en que conducen a diferencias de rango. De hecho, un poco de reflexión, o algunos cálculos de ejemplo, mostrarán que los resultados después de clasificar logaritmos o raíces cuadradas o cualquier otra transformación monotónica son exactamente los mismos que después de clasificar los datos originales.

Pero se puede decir más. El o-o el pensamiento

O mis datos se distribuyen normalmente, y puedo usar procedimientos estándar o clásicos.
O necesito recurrir a pruebas basadas en rango.

es un poco rígido y (puede sugerirse) simplificado en exceso. Aunque es difícil sugerir exactamente lo que debe hacer sin ver sus datos y sus objetivos precisos, existen otras perspectivas:

Muchos usuarios de estadísticas observan distribuciones marginales (univariadas) y evalúan si están cerca de la normalidad, pero eso puede no ser relevante. Por ejemplo, la normalidad marginal no es necesaria para los procedimientos de tipo regresión. Para muchos procedimientos, lo que es más importante y más cercano a los supuestos principales es cómo se comportan los medios, no cómo se comportan los datos.
Incluso (digamos) un resultado significativo a niveles convencionales para una prueba de Shapiro-Wilk es equívoco en términos de guiar el análisis posterior. Simplemente dice "su distribución es detectablemente diferente de una distribución normal". Eso en sí mismo no implica que el grado de no normalidad que tenga haga que lo que tenga en mente sea inválido o absurdo. Solo puede significar: ve con cuidado, ya que los supuestos subyacentes no se cumplen exactamente. (En la práctica, nunca están exactamente satisfechos, de ninguna manera.) El hábito de cultivar es pensar que todos los valores P son aproximaciones. (Incluso cuando no se hacen suposiciones sobre las distribuciones, las suposiciones sobre el muestreo o la independencia o la medición libre de errores suelen ser implícitas).
Aunque muchos textos y cursos implican lo contrario, la estadística no paramétrica es un callejón sin salida glorioso: hay un paquete de pruebas a veces útiles, pero en la práctica renuncia a la mayoría de los modelos útiles que son centrales para las estadísticas modernas.
Aquí se mencionan los valores atípicos, y siempre merecen mucha atención. Nunca deben omitirse solo porque son inconvenientes o parecen ser la razón por la cual no se cumplen los supuestos. A veces, el análisis en una escala transformada es el mejor camino a seguir. A veces, algunos valores atípicos leves no son tan problemáticos como temen los usuarios menos experimentados de las estadísticas. Con muestras pequeñas, los datos a menudo se verán desiguales o irregulares, incluso si el proceso de generación se comporta bastante bien; con muestras grandes, un solo valor atípico no necesita dominar el resto de los datos.
Siempre existe la opción de realizar ambos tipos de pruebas, por ejemplo, Student's t y Mann-Whitney-Wilcoxon. No hacen exactamente la misma pregunta, pero a menudo es fácil ver si apuntan en la misma dirección. Es decir, si en la prueba y en la otra prueba ambos dan señales claras de que dos grupos son diferentes, tiene cierta seguridad de que su conclusión está bien respaldada (y cierta defensa contra el escéptico que desconfía de uno u otro procedimiento dado un poco de no normalidad). ) Si las dos pruebas dan respuestas muy diferentes, esto en sí mismo es una evidencia útil de que debe pensar cuidadosamente sobre la mejor manera de analizar los datos. (Quizás ese valor atípico masivo realmente determina de qué manera sale la respuesta).

Con experiencia, los usuarios de estadísticas suelen ser más informales de lo que los textos o cursos implican que deberían ser. Si hablaba de un análisis con ellos, a menudo encontraría que hacen juicios rápidos como "Claro, las gráficas de recuadros muestran algunos valores atípicos leves, pero con datos como este análisis de varianza debería funcionar bien" o "Con un sesgo marcado, una escala logarítmica es la única opción sensata ". No creo que a menudo los encuentren eligiendo técnicas basadas en si una prueba de Shapiro-Wilk es o no significativa en $P < 0.05$ . Decir algo así puede no ayudar mucho a los usuarios menos experimentados, pero parece más cierto que la idea de que las estadísticas ofrecen recetas exactas que siempre deben seguirse.

— Nick Cox
fuente

Gracias por tu respuesta detallada. Con respecto a la elección del método, puedo creer que la mayoría de los usuarios de estadísticas son bastante exploratorios durante el primer vistazo a sus datos. Pero cuando escriben un artículo, necesitan justificar qué método eligieron. Supongo que esto depende en parte del campo y de si estamos más interesados en modelar muchos datos o probar una hipótesis. Para este último, un Shapiro-Wilk, sin embargo, con poca potencia, debe verse mejor que informar asimetría sin una prueba, y luego realizar una prueba no paramétrica.

— trev

Me gusta bastante la idea de (5), haciendo pruebas tanto paramétricas como no paramétricas. Pero rara vez he visto un artículo (al menos en psicología) que dice "aquí están los resultados de varias pruebas estadísticas alternativas". Simplemente eligen un método e informan sobre eso, lo que puede ser problemático, porque pueden elegir el método que les da un resultado significativo, como se destaca en el artículo de ciencia psicológica aquí: bit.ly/15uTFlT

— trev

Por supuesto, la alternativa de informar múltiples métodos casi con certeza conducirá a cierta ambigüedad, es decir, algunos métodos son significativos y otros no. ¿Cuántos necesitarías para concluir que tienes un efecto? 4 de 5 significativo? ¿Qué pasa con 3 de 5?

— trev

Sus reflexivos comentarios merecen una discusión muy detallada. Mi experiencia confirma que las personas en muchos campos están muy preocupadas por mostrar que hay un único análisis correcto de un conjunto de datos dado, que es lo que hicieron.

— Nick Cox