¿Por qué las estadísticas robustas (y resistentes) no han reemplazado a las técnicas clásicas?


82

Cuando se resuelven problemas de negocios utilizando datos, es común que al menos una suposición clave de que las estadísticas clásicas no sean válidas. La mayoría de las veces, nadie se molesta en verificar esas suposiciones, por lo que nunca se sabe.

Por ejemplo, que muchas de las métricas web comunes son de "cola larga" (en relación con la distribución normal) está, por ahora, tan bien documentado que lo damos por sentado. Otro ejemplo, las comunidades en línea, incluso en comunidades con miles de miembros, está bien documentado que, con mucho, la mayor parte de la contribución a / participación en muchas de estas comunidades es atribuible a un grupo minúsculo de 'súper contribuyentes'. (Por ejemplo, hace unos meses, justo después de que la API SO estuviera disponible en versión beta, un miembro de StackOverflow publicó un breve análisis de los datos que recopiló a través de la API; su conclusión: menos del uno por ciento de los miembros SO representan la mayor parte de la actividad en SO (presumiblemente haciendo preguntas y respondiéndolas), otro 1-2% representó el resto, y la abrumadora mayoría de los miembros no hacen nada).

Las distribuciones de ese tipo, de nuevo más a menudo la regla que la excepción, a menudo se modelan mejor con una función de densidad de ley de potencia . Para este tipo de distribuciones, incluso el teorema del límite central es problemático de aplicar.

Entonces, dada la abundancia de poblaciones como esta de interés para los analistas, y dado que los modelos clásicos tienen un rendimiento demostrablemente pobre en estos datos, y dado que los métodos robustos y resistentes han existido durante un tiempo (creo que al menos 20 años) ¿No se usan con más frecuencia? (También me pregunto por qué yo no los uso más a menudo, pero eso no es realmente una cuestión de validación cruzada .)

Sí, sé que hay capítulos de libros de texto dedicados por completo a estadísticas robustas y sé que hay (unos pocos) paquetes R (la base robusta es la que estoy familiarizado y uso), etc.

Y sin embargo, dadas las ventajas obvias de estas técnicas, a menudo son claramente las mejores herramientas para el trabajo. ¿ Por qué no se usan con mucha más frecuencia ? ¿No deberíamos esperar ver estadísticas robustas (y resistentes) utilizadas con mucha más frecuencia (tal vez incluso presuntamente) en comparación con los análogos clásicos?

La única explicación sustantiva (es decir, técnica) que he escuchado es que las técnicas robustas (también para los métodos resistentes) carecen del poder / sensibilidad de las técnicas clásicas. No sé si esto es cierto en algunos casos, pero sí sé que no es cierto en muchos casos.

Una última palabra de preferencia: sí, sé que esta pregunta no tiene una única respuesta demostrablemente correcta; muy pocas preguntas en este sitio hacen. Además, esta pregunta es una investigación genuina; No es un pretexto para avanzar un punto de vista: no tengo un punto de vista aquí, solo una pregunta para la que espero algunas respuestas perspicaces.


12
The Black Swann de Nassim Nicholas Taleb explica por qué se han utilizado modelos simples en el mundo financiero y los peligros que esto ha provocado. ¡Una falla particular es equiparar probabilidades muy bajas con cero y aplicar ciegamente la distribución normal en la gestión de riesgos!
James

99
Las pruebas que se basan en muchos supuestos son más poderosas cuando se cumplen esos supuestos. Podemos comprobar la importancia de la desviación suponiendo que las observaciones son IID Gaussianas, lo que da la media como estadística. Un conjunto de suposiciones menos restrictivo nos dice que usemos la mediana. Podemos ir más allá y asumir que las observaciones están correlacionadas para obtener aún más robustez. Pero cada paso reduce el poder de nuestra prueba, y si no hacemos suposiciones, nuestra prueba es inútil. Las pruebas robustas implícitamente hacen suposiciones sobre los datos y son mejores que las clásicas solo cuando esas suposiciones coinciden mejor con la realidad
Yaroslav Bulatov

Respuestas:


69

Los investigadores quieren valores p pequeños, y puede obtener valores p más pequeños si utiliza métodos que hacen suposiciones de distribución más fuertes. En otras palabras, los métodos no robustos le permiten publicar más artículos. Por supuesto, más de estos documentos pueden ser falsos positivos, pero una publicación es una publicación. Esa es una explicación cínica, pero a veces es válida.


44
"a veces" es un eufemismo ... la lógica autores no es a menudo directamente pero el escenario de estímulo / recompensa es tal que la gente va a hacer esto como una cuestión de condicionamiento
John

2
No, los investigadores están siendo deshonestos tanto como actuando por ignorancia. No entienden qué significan las estadísticas o qué supuestos requieren, pero como usted dijo, entienden claramente el estímulo / recompensa: p> 0.05 => sin publicación.
John D. Cook, el

10
También debe presentar algo que entiendan los "en el poder" (tomadores de decisiones, supervisores, revisores). Por lo tanto, tiene que estar en el lenguaje común que evoluciona bastante lentamente, ya que esas personas tienden a ser mayores y más resistentes al cambio, ¡en gran medida, ya que puede invalidar sus carreras hasta ahora!
James

12
Buen punto. "Entiendo los valores p. Solo dame un valor p". Irónicamente, probablemente no entienden los valores p, pero ese es otro asunto.
John D. Cook, el

2
No creo que esto sea categóricamente cierto. Al menos, he oído que los no paramétricos modernos a menudo sacrifican muy poco poder, si es que lo hacen. AFAIK, la pérdida de potencia es más pronunciada en las pruebas que implican transformaciones de rango, que apenas son ubicuas entre los métodos robustos.
Nick Stauner

42

Entonces, los 'modelos clásicos' (sean lo que sean, supongo que se refiere a algo así como modelos simples enseñados en libros de texto y estimados por ML) fallan en algunos, tal vez muchos, conjuntos de datos del mundo real.

Si un modelo falla, existen dos enfoques básicos para solucionarlo:

  1. Hacer menos suposiciones (menos modelo)
  2. Hacer más suposiciones (más modelo)

Los enfoques estadísticos sólidos, cuasi-verosimilitud y GEE adoptan el primer enfoque cambiando la estrategia de estimación a una en la que el modelo no sea válido para todos los puntos de datos (robusto) o no necesite caracterizar todos los aspectos de los datos (QL y GEE).

La alternativa es tratar de construir un modelo que modele explícitamente la fuente de puntos de datos contaminantes, o los aspectos del modelo original que parecen ser falsos, manteniendo el método de estimación igual que antes.

Algunos prefieren intuitivamente el primero (es particularmente popular en economía), y algunos prefieren intuitivamente el último (es particularmente popular entre los bayesianos, que tienden a ser más felices con los modelos más complejos, particularmente una vez que se dan cuenta de que van a utilizar herramientas de simulación para inferencia de todos modos).

Los supuestos de distribución de cola gruesa, por ejemplo, usar el binomio negativo en lugar de Poisson o t en lugar de lo normal, pertenecen a la segunda estrategia. La mayoría de las cosas etiquetadas como 'estadísticas robustas' pertenecen a la primera estrategia.

Como cuestión práctica, derivar estimadores para la primera estrategia para problemas realistas complejos parece ser bastante difícil. No es que sea una razón para no hacerlo, pero tal vez sea una explicación de por qué no se hace con tanta frecuencia.


44
+1. Muy buena explicación. También creo que algunos métodos "robustos" son más bien ad hoc (medios truncados), y que "robusto" está vinculado a un aspecto particular de un método y no es una cualidad general, pero muchas personas interpretan "robusto" como "no No tengo que preocuparme por mis datos, ya que mi método es robusto ".
Wayne

Gran respuesta. Me molesta que tantas respuestas se centren en la dificultad de comprender estadísticas sólidas o en los incentivos para ignorar el incumplimiento de los supuestos. Ignoran a las personas que saben que hay casos en los que se necesitan estadísticas sólidas y cuando no se necesitan.
Kenji

29

Sugeriría que es un retraso en la enseñanza. La mayoría de las personas aprenden estadísticas en la universidad o la universidad. Si la estadística no es su primer título y, en cambio, obtuvo un título en matemática o informática, probablemente solo cubra los módulos de estadísticas fundamentales:

  1. Probabilidad
  2. Evaluación de la hipótesis
  3. Regresión

Esto significa que cuando se enfrenta a un problema, intenta usar lo que sabe para resolverlo.

  • Los datos no son normales: tome registros.
  • Los datos tienen valores atípicos molestos: elimínelos.

A menos que te encuentres con otra cosa, es difícil hacer algo mejor. ¡Es muy difícil usar Google para encontrar algo si no sabes cómo se llama!

Creo que con todas las técnicas pasará un tiempo antes de que las nuevas técnicas se filtren. ¿Cuánto tiempo tomaron las pruebas de hipótesis estándar para formar parte de un plan de estudios estadístico estándar?

Por cierto, con un título en estadística todavía habrá un retraso en la enseñanza, ¡solo uno más corto!


44
Pero esto plantea un problema pedagógico interesante, al menos en psicología, porque hasta donde yo sé, la mayoría de los libros introductorios de estadística que se utilizan en mi campo realmente no discuten medidas sólidas, excepto como un aparte.
russellpierce

3
Eso es muy cierto, y también en psicología, existe una molesta confusión entre lo no paramétrico y lo no normal, lo que parece dificultar la comprensión.
richiemorrisroe

2
¡Algunos de nosotros los psicólogos estamos confundidos acerca de todo lo estadístico! :)
Nick Stauner

21

Cualquier persona capacitada en análisis de datos estadísticos a un nivel razonable utiliza los conceptos de estadísticas robustas de manera regular. La mayoría de los investigadores saben lo suficiente como para buscar valores atípicos graves y errores de registro de datos; La política de eliminar puntos de datos sospechosos se remonta al siglo XIX con Lord Rayleigh, GG Stokes y otros de su edad. Si la pregunta es:

¿Por qué los investigadores no usan los métodos más modernos para calcular estimaciones de ubicación, escala, regresión, etc.?

entonces la respuesta se da arriba: los métodos se han desarrollado en gran medida en los últimos 25 años, digamos 1985-2010. El retraso para aprender nuevos métodos tiene en cuenta, así como la inercia, agravada por el "mito" de que no hay nada de malo en ciegamente usando métodos clásicos. John Tukey comenta que los métodos robustos / resistentes que use no son importantes, lo importante es que use algunos. Es perfectamente apropiado usar tanto métodos clásicos como robustos / resistentes de manera rutinaria, y solo se preocupa cuando difieren lo suficiente como para importar. Pero cuando difieren , debes pensar mucho .

Si en cambio, la pregunta es:

¿Por qué los investigadores no se detienen y hacen preguntas sobre sus datos, en lugar de aplicar a ciegas estimaciones altamente inestables?

entonces la respuesta realmente se reduce a la capacitación. Hay demasiados investigadores que nunca fueron capacitados en estadística de manera adecuada, resumidos por la dependencia general de los valores p como la "significación estadística" general y final.

@Kwak: Las estimaciones de Huber de la década de 1970 son sólidas, en el sentido clásico de la palabra: resisten los valores atípicos. Y los estimadores de redescendencia en realidad datan mucho antes de la década de 1980: el estudio de robustez de Princeton (de 1971) incluyó la estimación de ubicación cuadrada, una estimación de redescending.


2
projecteuclid.org/… Documento de libre acceso escrito por Peter Huber sobre las contribuciones de John Tukey a estadísticas sólidas. Lectura razonablemente fácil, luz sobre las fórmulas.
Wesley Burr el

20

Las estadísticas son una herramienta para los investigadores que no tienen una mentalidad estadística, y simplemente no les importa.

Una vez traté de ayudar con un artículo de Medicina que mi ex esposa estaba coautor. Escribí varias páginas describiendo los datos, lo que sugería, por qué ciertas observaciones habían sido excluidas del estudio ... y el investigador principal, un médico, tiró todo y le pidió a alguien que calcule un valor p, que es todo lo que ella dijo. (y a casi todos los que leerían el artículo) les importaba.


12

Doy una respuesta en dos direcciones:

  1. las cosas que son robustas no necesariamente se etiquetan como robustas. Si crees que existe resistencia contra todo, entonces eres ingenuo.
  2. Los enfoques estadísticos que dejan aparte el problema de la robustez a veces no se adaptan al mundo real, pero a menudo son más valiosos (como concepto) que un algoritmo que parece una cocina.

desarrollo

En primer lugar, creo que hay muchos buenos enfoques en estadística (los encontrará en paquetes R no necesariamente mencionados en alguna parte) que son naturalmente robustos y probados en datos reales y el hecho de que no encuentra un algoritmo con "robusto "mencionado en alguna parte no significa que no sea robusto. De todos modos, si crees que ser robusto significa ser universal, entonces nunca encontrarás ningún procedimiento robusto (sin almuerzo gratis), necesitas tener algún conocimiento / experiencia sobre los datos que analizas para usar una herramienta adaptada o crear un modelo adaptado.

Por otro lado, algunos enfoques en estadística no son sólidos porque están dedicados a un solo tipo de modelo. Creo que es bueno alguna vez trabajar en un laboratorio para tratar de entender las cosas. También es bueno tratar el problema por separado para comprender qué problema es nuestra solución ... así es como funciona el matemático. El ejemplo del modelo elocante gaussiano: es muy criticado porque la suposición gaussiana nunca se cumple, pero ha aportado el 75% de las ideas utilizadas prácticamente en estadística en la actualidad. ¿Realmente crees que todo esto se trata de escribir papel para seguir la regla de publicar o perecer (que no me gusta, estoy de acuerdo)?


11

Como alguien que ha aprendido un poco de estadística para mi propia investigación, supongo que las razones son pedagógicas e inerciales.

He observado dentro de mi propio campo que el orden en que se enseñan los temas refleja la historia del campo. Esas ideas que vinieron primero se enseñan primero, y así sucesivamente. Para las personas que solo se sumergen en las estadísticas para la instrucción superficial, esto significa que aprenderán las estadísticas clásicas primero, y probablemente las últimas. Luego, incluso si aprenden más, las cosas clásicas se adhieren mejor a ellas debido a los efectos de la primacía.

Además, todos saben qué es una prueba t de dos muestras. Menos de lo que todos saben lo que es una prueba de suma de rango de Mann-Whitney o Wilcoxon. Esto significa que tengo que ejercer un poco de energía para explicar cuál es mi prueba robusta, en lugar de no tener que ejercer ninguna con una prueba clásica. Tales condiciones obviamente resultarán en que menos personas usen métodos robustos de lo que deberían.


9

Wooldridge "Econometría introductoria: un enfoque moderno" 2E p.261.

Si los errores estándar robustos a la heterocedasticidad son válidos con más frecuencia que los errores estándar OLS habituales, ¿por qué nos molestan en absoluto los errores estándar habituales? ... Una razón por la que todavía se utilizan en el trabajo transversal es que, si el supuesto de homocedasticidad es válido y los errores se distribuyen normalmente, entonces las estadísticas t habituales tienen distribuciones t exactas, independientemente del tamaño de la muestra. Los errores estándar robustos y las estadísticas robustas t se justifican solo a medida que el tamaño de la muestra aumenta. Con tamaños de muestra pequeños, las estadísticas t robustas pueden tener distribuciones que no están muy cerca de la distribución t, y eso podría descartar nuestra inferencia. En tamaños de muestra grandes, podemos hacer un caso para informar siempre solo los errores estándar robustos a la heterocedasticidad en aplicaciones de sección transversal,



7

Si bien no son mutuamente excluyentes, creo que la creciente popularidad de las estadísticas bayesianas es parte de ello. Las estadísticas bayesianas pueden lograr muchos de los mismos objetivos a través de promedios previos y promedios de modelos, y tienden a ser un poco más robustos en la práctica.


6

No soy estadístico, mi experiencia en estadística es bastante limitada, solo uso estadísticas sólidas en visión por computadora / reconstrucción 3D / estimación de pose. Aquí está mi opinión sobre el problema desde el punto de vista del usuario:

Primero, las estadísticas robustas se utilizan mucho en ingeniería y ciencia sin llamarlo "estadísticas robustas". Mucha gente lo usa intuitivamente, llegando a él en el proceso de ajustar un método específico a un problema del mundo real. Por ejemplo, mínimos cuadrados iterativos reponderados y medios recortados / mínimos cuadrados recortados utilizados comúnmente, que solo el usuario no sabe que usaron estadísticas robustas, simplemente hacen que el método sea viable para datos reales no sintéticos.

En segundo lugar, tanto las estadísticas robustas "intuitivas" como las conscientes se utilizan prácticamente siempre en el caso de que los resultados sean verificables o donde existan métricas de error claramente visibles. Si el resultado obtenido con una distribución normal es obviamente no válido o incorrecto, las personas comienzan a jugar con pesas, recortar, muestrear, leer algunos artículos y terminar usando estimadores robustos, ya sea que conozcan el término o no. Por otro lado, si el resultado final de la investigación es solo algunos gráficos y diagramas, y no hay insensibilidad para verificar los resultados, o si la estadística normal produce resultados lo suficientemente buenos, la gente simplemente no se molesta.

Y, por último, sobre la utilidad de las estadísticas sólidas como teoría, aunque la teoría en sí misma es muy interesante, a menudo no ofrece ventajas prácticas. La mayoría de los estimadores robustos son bastante triviales e intuitivos, a menudo las personas los reinventan sin ningún conocimiento estadístico. La teoría, como la estimación del punto de ruptura, los asintóticos, la profundidad de los datos, la heterocedacidad, etc., permiten una comprensión más profunda de los datos, pero en la mayoría de los casos es simplemente innecesario. Una gran excepción es la intersección de estadísticas robustas y sensores de compresión, que producen algunos métodos prácticos nuevos, como "cruce y ramo".


5

Mi conocimiento de estimadores robustos se refiere únicamente a errores estándar robustos para parámetros de regresión, por lo que mi comentario solo se referirá a esos. Sugeriría que la gente lea este artículo,

Sobre el llamado "Estimador de Sandwich Huber" y "Errores estándar robustos" por: Freedman, A. David The American Statistician, vol. 60, núm. 4. (noviembre de 2006), págs. 299-302. doi: 10.1198 / 000313006X152207 ( versión PDF )

En particular, lo que me preocupa con estos enfoques no es que estén equivocados, sino que simplemente distraen de problemas más grandes. Por lo tanto, estoy totalmente de acuerdo con la respuesta de Robin Girard y su mención de "no hay almuerzo gratis".


3

El cálculo y la probabilidad necesarios para estadísticas sólidas es (generalmente) más difícil, por lo que (a) hay menos teoría y (b) es más difícil de comprender.


2

Me sorprende ver que el teorema de Gauss-Markov no se menciona en esta larga lista de respuestas, afaics:

En un modelo lineal con errores esféricos (que a lo largo del camino incluye la suposición de que no hay valores atípicos, a través de una varianza de error finita), el OLS es eficiente en una clase de estimadores lineales insesgados: existen condiciones (restrictivas, para estar seguros) bajo las cuales " no puedes hacerlo mejor que OLS ".

No estoy argumentando que esto debería justificar el uso de OLS casi todo el tiempo, pero sin duda contribuye a por qué (especialmente porque es una buena excusa para centrarse tanto en OLS en la enseñanza).


Bueno, sí, pero eso supone que minimizar la varianza es el criterio relevante, y con colas pesadas, ¡podría no ser así!
kjetil b halvorsen

1
Seguro. Solo quería agregar lo que creo que es quizás la razón más famosa para pensar que OLS es una técnica útil a la lista de razones comprensibles por las que las técnicas robustas no lo han reemplazado : hay casos en los que no debe reemplazarlo.
Christoph Hanck

0

Supongo que las estadísticas sólidas nunca son suficientes, es decir, para ser sólidas, estas estadísticas omiten parte de la información sobre la distribución. Y sospecho que no siempre es algo bueno. En otras palabras, existe una compensación entre robustez y pérdida de información.

median({1,2,3,4,5})=3=median({0.1,0.2,3,4000,5000})

1
Consulte stats.stackexchange.com/questions/74113/… para ver una situación en la que la mediana es muy frágil y la media se comporta muy bien.
Nick Cox
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.