La respuesta de @ Hotaka es bastante correcta. La clasificación hace innecesaria la transformación; Es en sí una transformación que ignora los valores exactos, excepto en la medida en que conducen a diferencias de rango. De hecho, un poco de reflexión, o algunos cálculos de ejemplo, mostrarán que los resultados después de clasificar logaritmos o raíces cuadradas o cualquier otra transformación monotónica son exactamente los mismos que después de clasificar los datos originales.
Pero se puede decir más. El o-o el pensamiento
O mis datos se distribuyen normalmente, y puedo usar procedimientos estándar o clásicos.
O necesito recurrir a pruebas basadas en rango.
es un poco rígido y (puede sugerirse) simplificado en exceso. Aunque es difícil sugerir exactamente lo que debe hacer sin ver sus datos y sus objetivos precisos, existen otras perspectivas:
Muchos usuarios de estadísticas observan distribuciones marginales (univariadas) y evalúan si están cerca de la normalidad, pero eso puede no ser relevante. Por ejemplo, la normalidad marginal no es necesaria para los procedimientos de tipo regresión. Para muchos procedimientos, lo que es más importante y más cercano a los supuestos principales es cómo se comportan los medios, no cómo se comportan los datos.
Incluso (digamos) un resultado significativo a niveles convencionales para una prueba de Shapiro-Wilk es equívoco en términos de guiar el análisis posterior. Simplemente dice "su distribución es detectablemente diferente de una distribución normal". Eso en sí mismo no implica que el grado de no normalidad que tenga haga que lo que tenga en mente sea inválido o absurdo. Solo puede significar: ve con cuidado, ya que los supuestos subyacentes no se cumplen exactamente. (En la práctica, nunca están exactamente satisfechos, de ninguna manera.) El hábito de cultivar es pensar que todos los valores P son aproximaciones. (Incluso cuando no se hacen suposiciones sobre las distribuciones, las suposiciones sobre el muestreo o la independencia o la medición libre de errores suelen ser implícitas).
Aunque muchos textos y cursos implican lo contrario, la estadística no paramétrica es un callejón sin salida glorioso: hay un paquete de pruebas a veces útiles, pero en la práctica renuncia a la mayoría de los modelos útiles que son centrales para las estadísticas modernas.
Aquí se mencionan los valores atípicos, y siempre merecen mucha atención. Nunca deben omitirse solo porque son inconvenientes o parecen ser la razón por la cual no se cumplen los supuestos. A veces, el análisis en una escala transformada es el mejor camino a seguir. A veces, algunos valores atípicos leves no son tan problemáticos como temen los usuarios menos experimentados de las estadísticas. Con muestras pequeñas, los datos a menudo se verán desiguales o irregulares, incluso si el proceso de generación se comporta bastante bien; con muestras grandes, un solo valor atípico no necesita dominar el resto de los datos.
Siempre existe la opción de realizar ambos tipos de pruebas, por ejemplo, Student's t y Mann-Whitney-Wilcoxon. No hacen exactamente la misma pregunta, pero a menudo es fácil ver si apuntan en la misma dirección. Es decir, si en la prueba y en la otra prueba ambos dan señales claras de que dos grupos son diferentes, tiene cierta seguridad de que su conclusión está bien respaldada (y cierta defensa contra el escéptico que desconfía de uno u otro procedimiento dado un poco de no normalidad). ) Si las dos pruebas dan respuestas muy diferentes, esto en sí mismo es una evidencia útil de que debe pensar cuidadosamente sobre la mejor manera de analizar los datos. (Quizás ese valor atípico masivo realmente determina de qué manera sale la respuesta).
Con experiencia, los usuarios de estadísticas suelen ser más informales de lo que los textos o cursos implican que deberían ser. Si hablaba de un análisis con ellos, a menudo encontraría que hacen juicios rápidos como "Claro, las gráficas de recuadros muestran algunos valores atípicos leves, pero con datos como este análisis de varianza debería funcionar bien" o "Con un sesgo marcado, una escala logarítmica es la única opción sensata ". No creo que a menudo los encuentren eligiendo técnicas basadas en si una prueba de Shapiro-Wilk es o no significativa enPAGS< 0.05. Decir algo así puede no ayudar mucho a los usuarios menos experimentados, pero parece más cierto que la idea de que las estadísticas ofrecen recetas exactas que siempre deben seguirse.