Influencial residual vs. atípico

Primero, debo decir que he buscado en este sitio la respuesta. No encontré una pregunta que respondiera a mi pregunta o mi nivel de conocimiento es tan bajo que no me di cuenta de que ya leí la respuesta.

Estoy estudiando para el Examen de Estadística AP. Tengo que aprender la regresión lineal y uno de los temas son los residuos. Tengo una copia de Introducción a las estadísticas y el análisis de datos en la página 253 que dice.

Los puntos inusuales en un conjunto de datos bivariados son aquellos que se alejan de la mayoría de los otros puntos en el diagrama de dispersión en la dirección o en la dirección $x$ $y$

Una observación es potencialmente una observación influyente si tiene un valor que está muy lejos del resto de los datos (separado del resto de los datos en la dirección ). Para determinar si la observación es realmente influyente, evaluamos si la eliminación de esta observación tiene un gran impacto en el valor de la pendiente o la intersección de la línea de mínimos cuadrados. $x$ $x$

Una observación es atípica si tiene un gran residuo. La observación atípica cae muy lejos de la línea menos cuadrada en la dirección . $y$

Stattreck.com establece cuatro métodos para determinar un valor atípico de los residuos:

Los puntos de datos que difieren en gran medida del patrón general se denominan valores atípicos. Hay cuatro formas en que un punto de datos puede considerarse un valor atípico.

Podría tener un valor X extremo en comparación con otros puntos de datos.

Podría tener un valor Y extremo en comparación con otros puntos de datos.

Podría tener valores extremos de X e Y.

Puede estar distante del resto de los datos, incluso sin valores extremos de X o Y.

Estas dos fuentes parecen estar en conflicto entre sí. ¿Alguien podría ayudar a aclarar mi confusión? Además, ¿cómo se define el extremo? Las estadísticas AP utilizan la regla si el punto de datos está fuera de (Q1-1.5IQR, Q3 + 1.5IQR), es un valor atípico. No sé cómo aplicar eso desde solo un gráfico de los residuos.

regression outliers residuals

— MaoYiyi
fuente

Respuestas:

El sitio de stattrek parece tener una descripción mucho mejor de valores atípicos y puntos influyentes que su libro de texto, pero solo ha citado un breve pasaje que puede ser engañoso. No tengo ese libro en particular, así que no puedo examinarlo en contexto. Sin embargo, tenga en cuenta que el pasaje del libro de texto que citó dice "potencialmente". No es exclusivo tampoco. Teniendo en cuenta esos puntos, stattrek y su libro no están necesariamente en desacuerdo. Pero parece que su libro es engañoso en el sentido de que implica (a partir de este breve pasaje) que la única diferencia entre valores atípicos y puntos influyentes es si se desvían en el eje x o y. Eso es incorrecto.

La "regla" para los valores atípicos varía según el contexto. La regla que cita es solo una regla general y sí, no está realmente diseñada para la regresión. Hay algunas formas de usarlo. Puede ser más fácil de visualizar si imagina múltiples valores de y en cada x y examinando los residuos. Los ejemplos típicos de regresión de libros de texto son demasiado simples para ver cómo podría funcionar esa regla atípica, y en la mayoría de los casos reales es bastante inútil. Esperemos que, en la vida real, recopiles muchos más datos. Si es necesario que pueda estar aplicando la regla de cuantiles para los valores atípicos a un problema de regresión, entonces deberían proporcionar datos para los que sea apropiado.

— Juan
fuente

Gracias por la respuesta, se vuelve molesto que diferentes libros intenten establecer estas reglas sin decir que realmente depende honestamente de los datos, como usted está diciendo.

— MaoYiyi

En realidad, también lo dije mal ... depende de la teoría, el método y los datos ... todo el estudio.

— John

Estoy de acuerdo con John Aquí hay algunos puntos más. Una observación influyente es (estrictamente) una que influye en las estimaciones de los parámetros. Una pequeña desviación en el valor Y da un gran cambio en los parámetros beta estimados. En la regresión simple de 1 variable contra otra, las variables influyentes son precisamente aquellas cuyo valor X está distante de la media de las X. En la regresión múltiple (varias variables independientes), la situación es más compleja. Tienes que mirar la diagonal de la llamada matriz de sombreros , y el software de regresión te dará esto. Google "apalancamiento". $X(X'X)^{-1}X'$

La influencia es una función de los puntos de diseño (los valores X), como dice su libro de texto.

Tenga en cuenta que la influencia es poder. En un experimento diseñado, desea valores X influyentes, suponiendo que puede medir el valor Y correspondiente con precisión. De esa manera obtienes más por el dinero.

Para mí, un valor atípico es básicamente un error, es decir, una observación que no sigue el mismo modelo que el resto de los datos. Esto puede ocurrir debido a un error de recopilación de datos, o porque ese tema en particular era inusual de alguna manera.

No me gusta mucho la definición de stattrek de un valor atípico por varias razones. La regresión no es simétrica en Y y X. Y se modela como una variable aleatoria y se supone que las X son fijas y conocidas. La rareza en las Y no es lo mismo que la rareza en las X. Influencia y outliership significan cosas diferentes. La influencia, en regresión múltiple, no se detecta al observar los gráficos residuales. Una buena descripción de los valores atípicos y la influencia para el caso de una variable única debería configurarlo para comprender el caso múltiple también.

No me gusta su libro de texto aún más, por las razones dadas por John.

En pocas palabras, los valores atípicos influyentes son peligrosos. Necesitan ser examinados de cerca y tratados.

— Placidia
fuente

Su disgusto por la explicación de regresión de stattrek es apropiada si proviene de un entorno donde los experimentos verdaderos son la norma. Todos sus motivos se aplican allí. Pero si proviene de un entorno en el que los diseños cuasi-experimentales son más comunes, el sitio stattrek tiene más relevancia. En esos casos, los valores x e y son a menudo solo muestras aleatorias.

— John

@John, ¿qué tal el trasfondo de querer aprobar el Examen de Estadísticas AP? ¿Qué es el diseño cuasiexperimental? ¿Está usando una tabla de números aleatorios para una simulación?

— MaoYiyi

No sé nada sobre el examen de estadísticas AP. Los verdaderos experimentos son aquellos en los que manipulas la variable predictora y haces grupos para probar múltiples hipótesis o grupos de control y experimentales, etc. Los diseños cuasiexperimentales son prácticamente cualquier otra cosa que parezca un experimento. Entonces, imagine una regresión donde el valor x es el peso y el valor y es una habilidad deportiva. No manipulas ninguna de las variables, muestras aleatoriamente ambas. Entonces, las críticas de Placidia a stattrek son bastante válidas para experimentos verdaderos, pero no tanto para cuasi.

— John

@John ... Vengo de un fondo donde los experimentos diseñados son vistos como el estándar de oro. En la práctica, sé que X e Y a menudo son muestras aleatorias, lo que plantea la pregunta de por qué se está utilizando la regresión, y no alguna forma de análisis de variables latentes.

— Placidia

Cuando solo tienes dos variables ... :) A veces tienes una buena teoría para sugerir que una cosa predice otra, por ejemplo, la altura y la probabilidad de ingresar a la NBA ... ambas muestras aleatorias. En casos con una, o pocas (especialmente sin correlación), la regresión de las relaciones lineales es buena.

— John