Cuando se resuelven problemas de negocios utilizando datos, es común que al menos una suposición clave de que las estadísticas clásicas no sean válidas. La mayoría de las veces, nadie se molesta en verificar esas suposiciones, por lo que nunca se sabe.
Por ejemplo, que muchas de las métricas web comunes son de "cola larga" (en relación con la distribución normal) está, por ahora, tan bien documentado que lo damos por sentado. Otro ejemplo, las comunidades en línea, incluso en comunidades con miles de miembros, está bien documentado que, con mucho, la mayor parte de la contribución a / participación en muchas de estas comunidades es atribuible a un grupo minúsculo de 'súper contribuyentes'. (Por ejemplo, hace unos meses, justo después de que la API SO estuviera disponible en versión beta, un miembro de StackOverflow publicó un breve análisis de los datos que recopiló a través de la API; su conclusión: menos del uno por ciento de los miembros SO representan la mayor parte de la actividad en SO (presumiblemente haciendo preguntas y respondiéndolas), otro 1-2% representó el resto, y la abrumadora mayoría de los miembros no hacen nada).
Las distribuciones de ese tipo, de nuevo más a menudo la regla que la excepción, a menudo se modelan mejor con una función de densidad de ley de potencia . Para este tipo de distribuciones, incluso el teorema del límite central es problemático de aplicar.
Entonces, dada la abundancia de poblaciones como esta de interés para los analistas, y dado que los modelos clásicos tienen un rendimiento demostrablemente pobre en estos datos, y dado que los métodos robustos y resistentes han existido durante un tiempo (creo que al menos 20 años) ¿No se usan con más frecuencia? (También me pregunto por qué yo no los uso más a menudo, pero eso no es realmente una cuestión de validación cruzada .)
Sí, sé que hay capítulos de libros de texto dedicados por completo a estadísticas robustas y sé que hay (unos pocos) paquetes R (la base robusta es la que estoy familiarizado y uso), etc.
Y sin embargo, dadas las ventajas obvias de estas técnicas, a menudo son claramente las mejores herramientas para el trabajo. ¿ Por qué no se usan con mucha más frecuencia ? ¿No deberíamos esperar ver estadísticas robustas (y resistentes) utilizadas con mucha más frecuencia (tal vez incluso presuntamente) en comparación con los análogos clásicos?
La única explicación sustantiva (es decir, técnica) que he escuchado es que las técnicas robustas (también para los métodos resistentes) carecen del poder / sensibilidad de las técnicas clásicas. No sé si esto es cierto en algunos casos, pero sí sé que no es cierto en muchos casos.
Una última palabra de preferencia: sí, sé que esta pregunta no tiene una única respuesta demostrablemente correcta; muy pocas preguntas en este sitio hacen. Además, esta pregunta es una investigación genuina; No es un pretexto para avanzar un punto de vista: no tengo un punto de vista aquí, solo una pregunta para la que espero algunas respuestas perspicaces.