¿Definición rigurosa de un valor atípico?

44

La gente a menudo habla de tratar con valores atípicos en las estadísticas. Lo que me molesta de esto es que, por lo que puedo decir, la definición de un valor atípico es completamente subjetiva. Por ejemplo, si la distribución verdadera de alguna variable aleatoria es muy pesada o bimodal, cualquier visualización estándar o estadística resumida para detectar valores atípicos eliminará incorrectamente partes de la distribución de la que desea muestrear. ¿Cuál es una definición rigurosa de un valor atípico, si existe, y cómo se pueden tratar los valores atípicos sin introducir cantidades irracionales de subjetividad en un análisis?

outliers definition

— dsimcha
fuente

Si desea conocer una distribución específica, pregunte sobre su ejemplo. Será diferente para diferentes situaciones.

— John

8

Bueno, espero que tengas un rigorous definition of an outliermomento en el que puedas definir de unreasonable amounts of subjectivitymanera objetiva ;-), gracias

— Come

1

Pero la definición puede variar según la distribución y la situación subyacentes. Podría decir ± 1.5 IQR, o 3 SD, o algo así. Pero podría adoptar un enfoque totalmente diferente si tuviera dos tipos de medidas, por ejemplo, el tiempo de reacción y la precisión. Puedo decir que los RT están condicionados a un nivel de precisión. Todos pueden ser buenos y matemáticamente rigurosos y tener diferentes aplicaciones y significados.

— John

2

Hay MUCHAS definiciones rigurosas de valores atípicos. Pero la elección entre ellos puede parecer arbitraria. Pero creo que esto es parte de la idea errónea de que la estadística es un tema en el que cada problema tiene una respuesta correcta.

— Peter Flom - Restablece a Monica

23

Siempre que sus datos provengan de una distribución conocida con propiedades conocidas, puede definir rigurosamente un valor atípico como un evento que es muy poco probable que haya sido generado por el proceso observado (si considera que "demasiado poco probable" no es riguroso, entonces todas las pruebas de hipótesis son).

Sin embargo, este enfoque es problemático en dos niveles: asume que los datos provienen de una distribución conocida con propiedades conocidas, y conlleva el riesgo de que los valores atípicos sean vistos como puntos de datos que algunas hadas mágicas introdujeron de contrabando en su conjunto de datos.

En ausencia de faeries de datos mágicos, todos los datos provienen de su experimento y, por lo tanto, en realidad no es posible tener valores atípicos, solo resultados extraños. Estos pueden provenir de errores de grabación (por ejemplo, una casa de 400000 habitaciones por 4 dólares), problemas de medición sistemática (el algoritmo de análisis de imagen informa áreas enormes si el objeto está demasiado cerca del borde) problemas experimentales (a veces, los cristales precipitan fuera de la solución, que dan una señal muy alta), o características de su sistema (una célula a veces se puede dividir en tres en lugar de dos), pero también pueden ser el resultado de un mecanismo que nadie ha considerado nunca porque es raro y está haciendo una investigación, lo que significa que algunas de las cosas que haces simplemente aún no se conocen.

Idealmente, se toma el tiempo de investigar cada caso atípico y solo lo elimina de su conjunto de datos una vez que comprende por qué no se ajusta a su modelo. Esto lleva mucho tiempo y es subjetivo, ya que las razones dependen en gran medida del experimento, pero la alternativa es peor: si no comprende de dónde provienen los valores atípicos, tiene la opción de dejar que los valores atípicos "estropeen" sus resultados, o definir un enfoque "matemáticamente riguroso" para ocultar su falta de comprensión. En otras palabras, al perseguir la "rigurosidad matemática", eliges entre no obtener un efecto significativo y no entrar al cielo.

EDITAR

Si todo lo que tiene es una lista de números sin saber de dónde provienen, no tiene forma de saber si algún punto de datos es un valor atípico, porque siempre puede suponer una distribución donde todos los datos son intrínsecos.

— Jonas
fuente

3

Sin embargo, no todos los valores atípicos se generan a partir de un experimento. Trabajé con un gran conjunto de datos que incluía la recopilación de información de bienes raíces en una región (precio de venta, número de habitaciones, pies cuadrados, etc.), y de vez en cuando, habría errores de entrada de datos y tendría un La casa de 400,000 habitaciones cuesta 4 dólares, o algo sin sentido como eso. Creo que parte del objetivo de determinar un valor atípico es ver si es posible generarlo a partir de los datos, o si fue solo un error de entrada.

— Christopher Aden

2

@ Christopher Christopher: Consideraría esa parte del proceso experimental. Básicamente, para poder eliminar valores atípicos, debe comprender cómo se generaron los datos, es decir, no eliminar valores atípicos sin una buena razón. De lo contrario, solo está estilizando sus datos. He editado mi respuesta para reflejar esto un poco mejor.

— Jonas

Esto es perfectamente razonable, pero supone que ya tiene una buena cantidad de conocimiento previo sobre cuál es la distribución real. Estaba pensando más en términos de escenarios en los que no, y podría ser muy pesado o bimodal.

— dsimcha

@dsimcha: No creo que pueda identificar valores atípicos en ese caso (vea también mi edición).

— Jonas

2

@dsimcha: ¡ siempre tienes conocimiento previo! ¿Cómo se te dieron los datos? que siempre siempre sabe que mucho. los datos no aparecen mágicamente solo. y siempre puedes hacer suposiciones tentativas. Los "valores atípicos" basados en estos supuestos básicamente le dan una pista de que algo en sus supuestos está mal. Al estudiar el "valor atípico" (que siempre es relativo) puede mejorar su modelo.

— probabilistico

13

Tiene razón en que eliminar los valores atípicos puede parecer un ejercicio subjetivo, pero eso no significa que esté mal. La necesidad compulsiva de tener siempre una razón matemática rigurosa para cada decisión con respecto a su análisis de datos a menudo es solo un delgado velo de rigor artificial sobre lo que resulta ser un ejercicio subjetivo de todos modos. Esto es especialmente cierto si desea aplicar la misma justificación matemática a cada situación que encuentre. (Si hubiera reglas matemáticas claras a prueba de balas para todo, entonces no necesitaría un estadístico).

Por ejemplo, en su situación de distribución de cola larga, no hay un método garantizado para decidir entre los números si tiene una distribución subyacente de intereses con valores atípicos o dos distribuciones subyacentes de intereses con valores atípicos que son parte de solo uno de ellos. O, Dios no lo quiera, solo la distribución real de datos.

Cuantos más datos recopile, más ingresará a las regiones de baja probabilidad de una distribución. Si recolecta 20 muestras, es muy poco probable que obtenga un valor con un puntaje z de 3.5. Si recolecta 10,000 muestras, es muy probable que obtenga una y es una parte natural de la distribución. Dado lo anterior, ¿cómo decides solo porque algo es extremo para excluirlo?

Seleccionar los mejores métodos en general para el análisis es a menudo subjetivo. Si es irrazonablemente subjetivo depende de la explicación de la decisión y del valor atípico.

— John
fuente

+1 Barnett y Lewis, quienes escribieron el libro sobre valores atípicos , afirman que "un valor atípico en un conjunto de datos [es] una observación (o subconjunto de observaciones) que parece ser inconsistente con el resto de ese conjunto de datos " [en p . 7] Continúan: "Es una cuestión de juicio subjetivo por parte del observador si alguna observación ... se elige para su escrutinio ... Lo que caracteriza al 'atípico' es su impacto en el observador .... "

— whuber

"El libro" es ligeramente ambiguo aquí. Consideraría a Barnett y Lewis la monografía principal, pero no es el único libro sobre valores atípicos. amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955 es reciente. También hay un libro antiguo de DM Hawkins.

— Nick Cox

9

No creo que sea posible definir un valor atípico sin asumir un modelo del proceso subyacente que da origen a los datos. Sin ese modelo, no tenemos un marco de referencia para decidir si los datos son anómalos o "incorrectos". La definición de un valor atípico que he encontrado útil es que un valor atípico es una observación (u observaciones) que no se puede conciliar con un modelo que de otro modo funciona bien.

— Dikran Marsupial
fuente

2

Hmm ... En su texto EDA, John Tukey definió valores atípicos específicamente sin usar ningún modelo.

— whuber

77

Puede definir valores atípicos sin un modelo, pero he encontrado que tales definiciones son inútiles. Por cierto, por modelo, no me refiero necesariamente a un modelo estadístico que se haya ajustado explícitamente a los datos. Cualquier definición de un valor atípico requiere que haga una suposición sobre qué tipo de valores espera ver y qué tipo de valores no espera ver. Creo que es mejor si estos supuestos (es decir, el modelo) se hacen explícitos. También existe el punto de que en EDA, está explorando los datos, su definición de un valor atípico puede ser muy diferente para EDA que para ajustar un modelo final.

— Dikran Marsupial

6

Hay muchas respuestas excelentes aquí. Sin embargo, quiero señalar que se están confundiendo dos preguntas. La primera es, '¿qué es un valor atípico?', Y más específicamente para dar una "definición rigurosa" de tal. Esto es simple:

Un valor atípico es un punto de datos que proviene de un proceso de generación de población / distribución / datos diferente al que pretendía estudiar / el resto de sus datos.

La segunda pregunta es '¿cómo sé / detecto que un punto de datos es un valor atípico?' Lamentablemente, esto es muy difícil. Sin embargo, las respuestas dadas aquí (que realmente son muy buenas y que no puedo mejorar) serán bastante útiles con esa tarea.

— gung - Restablece a Monica
fuente

1

Esta es una respuesta que invita a la reflexión. Entonces, supongamos que genero valores de iid a partir de una distribución Normal - es probable que abarquen un rango de alrededor de a - y genere un valor más a partir de una distribución Normal y pasa a ser igual a (para lo cual hay una probabilidad de en ). Es muy poco probable que se determine que adicionales sean atípicos. ¿Afirmas que realmente lo es? Su cita me hace pensar que sí, pero no veo cómo esto puede hacerse prácticamente operativo.

99

$99$

(0, 1)

$(0,1)$

- 2.5

$-2.5$

2.5

$2.5$

(4, 1)

$(4,1)$

2

$2$

1

$1$

40

$40$

2

$2$

— whuber

1

@whuber, sí. Digo que es un caso atípico, aunque nunca lo notarías (lo cual, sospecho, es lo que quieres decir con prácticamente operativo).

— gung - Restablece a Monica

1

Aprecio la distinción que estás haciendo. Solo quería señalar el fuerte contraste entre su definición y la mayoría de las otras definiciones o descripciones de valores atípicos en este hilo. El suyo no parece que pueda conducir a procedimientos prácticos satisfactorios: siempre tendrá que aceptar que una gran parte de su conjunto de datos puede estar "alejado" pero sin tener ninguna forma de detectarlo o resolverlo.

— whuber

@whuber, estoy totalmente de acuerdo. Veo esto como algo análogo a las pruebas de hipótesis, donde (por ejemplo) 2 grupos pueden diferir en una cantidad muy pequeña e indetectable, o pueden diferir en una cantidad moderada, pero las muestras con las que terminó fueron muy similares por casualidad; No obstante, desde una perspectiva teórica, vale la pena entender y mantener la distinción.

— gung - Restablece a Monica

1

@whuber, tienes razón. Algunos hacen esta distinción, pero muchos no tienen claras estas ideas. Mi posición es que no existe una realidad significativa de "atípico" que no sea contaminante . No obstante, las personas también deberían / deberían pensar en el problema como si estuvieran preocupados por los puntos si sus resultados son impulsados por ellos solos (ya sean 'reales' o no), y por lo tanto sus resultados son muy frágiles. En resumen, no hay razón para preocuparse por los puntos que provienen de su población y que no están impulsando sus resultados de manera exclusiva; una vez que haya tratado con esos 2 problemas, no queda nada para "atípico".

— gung - Restablece a Monica

6

Definición 1: Como ya se mencionó, un valor atípico en un grupo de datos que refleja el mismo proceso (por ejemplo, el proceso A) es una observación (o un conjunto de observaciones) que es poco probable que sea el resultado del proceso A.

Esta definición ciertamente implica una estimación de la función de probabilidad del proceso A (de ahí un modelo) y establecer qué significa poco probable (es decir, decidir dónde parar ...). Esta definición está en la raíz de la respuesta que di aquí . Está más relacionado con las ideas de prueba de hipótesis de significación o bondad de ajuste .

Definición 2 Un valor atípico es una observación en un grupo de observaciones tal manera que al modelar el grupo de observación con un modelo dado la precisión es mayor si se elimina y se trata por separado (con una mezcla, en el espíritu de lo que menciono aquí) ) $x$ $G$ $x$

Esta definición implica un "modelo dado" y una medida de precisión. Creo que esta definición es más desde el punto de vista práctico y está más en el origen de los valores atípicos. En Origin, la detección de valores atípicos era una herramienta para estadísticas sólidas .

Obviamente, estas definiciones se pueden hacer muy similares si comprende que calcular la probabilidad en la primera definición implica el modelado y el cálculo de una puntuación :)

— robin girard
fuente

2

Un valor atípico es un punto de datos que es inconveniente para mí, dada mi comprensión actual del proceso que genera estos datos.

Creo que esta definición es tan rigurosa como se puede hacer.

— Wayne
fuente

Compare esto con la definición de John Tukey (él usó el término "afuera"): "Cuando miramos algunos lotes de valores, vemos que ciertos valores aparentemente se alejan mucho más allá de los demás ... Es conveniente tener una regla de pulgar que selecciona ciertos valores como "fuera" ... "Más tarde resume esto como" ... identificación de valores individuales que pueden ser inusuales ". [EDA, capítulo 2]. Él enfatiza a lo largo del libro que estamos describiendo datos en lugar de pretender "comprender un proceso", y que siempre son posibles múltiples descripciones válidas.

— whuber

De manera similar, "Los valores atípicos son valores de muestra que causan sorpresa en relación con la mayoría de la muestra" (WN Venables y BD Ripley. 2002. Modern aplicada estadística con S. New York: Springer, p.119). Sin embargo, la sorpresa está en la mente del espectador y depende de algún modelo tácito o explícito de los datos. Puede haber otro modelo bajo el cual el valor atípico no es sorprendente, digamos, los datos realmente son lognormales o gamma en lugar de lo normal.

— Nick Cox

@ Nick Eso es consistente con Barnett y Lewis, a quienes cito en un comentario a la respuesta de John .

— whuber

@whuber: Dices "Contrasta esto", lo que creo que significa que no estás de acuerdo, pero no estoy seguro. Yo diría que la formación de modelos, implícita e ingenua, tal vez, es la razón por la que vemos patrones en los datos, o el hombre en la luna, o los valores atípicos. Es posible que el modelo no tenga una base física / química / económica, pero tenemos la hipótesis de un modelo. De lo contrario, no hay sorpresa, no hay "afuera".

— Wayne

Tukey insiste en que al describir los datos no necesariamente los estamos modelando . Es justo extender su definición de "modelo" para incluir la descripción de los datos, pero luego el término se vuelve casi demasiado general para ser útil. Desde el punto de vista de Tukey (como lo interpreto, por supuesto), no hay preocupación por la pérdida de la cara ni hay ninguna cuestión de conveniencia o no. Por lo tanto, aunque respeto su motivación, creo que su actitud (como se refleja en "salvar la cara" y "inconveniente") es menos constructiva que otros enfoques a esta pregunta.

— whuber

0

defina un valor atípico como miembro de ese conjunto mínimo de elementos que deben eliminarse de un conjunto de datos de tamaño n para asegurar el cumplimiento del 100% con las pruebas RUM realizadas al 95% de nivel de confianza en todos los subconjuntos únicos (2 ^ n -1) datos. Consulte el texto de Karian y Dudewicz sobre los datos de ajuste a los archivos PDF utilizando R (septiembre de 2010) para la definición de la prueba RUM.

— Jerry Alderman
fuente

-2

Los valores atípicos son importantes solo en el reino frecuentista. Si un único punto de datos agrega sesgo a su modelo, que está definido por una distribución subyacente predeterminada por su teoría, entonces es un valor atípico para ese modelo. La subjetividad radica en el hecho de que si su teoría plantea un modelo diferente, entonces puede tener un conjunto diferente de puntos como valores atípicos.

1

¿Afirma que los valores atípicos no son importantes en el análisis de datos bayesianos?

— whuber