Primero, debo decir que he buscado en este sitio la respuesta. No encontré una pregunta que respondiera a mi pregunta o mi nivel de conocimiento es tan bajo que no me di cuenta de que ya leí la respuesta.
Estoy estudiando para el Examen de Estadística AP. Tengo que aprender la regresión lineal y uno de los temas son los residuos. Tengo una copia de Introducción a las estadísticas y el análisis de datos en la página 253 que dice.
Los puntos inusuales en un conjunto de datos bivariados son aquellos que se alejan de la mayoría de los otros puntos en el diagrama de dispersión en la dirección o en la dirección
Una observación es potencialmente una observación influyente si tiene un valor que está muy lejos del resto de los datos (separado del resto de los datos en la dirección ). Para determinar si la observación es realmente influyente, evaluamos si la eliminación de esta observación tiene un gran impacto en el valor de la pendiente o la intersección de la línea de mínimos cuadrados.
Una observación es atípica si tiene un gran residuo. La observación atípica cae muy lejos de la línea menos cuadrada en la dirección .
Stattreck.com establece cuatro métodos para determinar un valor atípico de los residuos:
Los puntos de datos que difieren en gran medida del patrón general se denominan valores atípicos. Hay cuatro formas en que un punto de datos puede considerarse un valor atípico.
- Podría tener un valor X extremo en comparación con otros puntos de datos.
- Podría tener un valor Y extremo en comparación con otros puntos de datos.
- Podría tener valores extremos de X e Y.
- Puede estar distante del resto de los datos, incluso sin valores extremos de X o Y.
Estas dos fuentes parecen estar en conflicto entre sí. ¿Alguien podría ayudar a aclarar mi confusión? Además, ¿cómo se define el extremo? Las estadísticas AP utilizan la regla si el punto de datos está fuera de (Q1-1.5IQR, Q3 + 1.5IQR), es un valor atípico. No sé cómo aplicar eso desde solo un gráfico de los residuos.