Explorar las relaciones entre variables es bastante vago, pero supongo que dos de los objetivos más generales de examinar diagramas de dispersión como este son;
- Identificar grupos latentes subyacentes (de variables o casos).
- Identificar valores atípicos (en espacio univariado, bivariado o multivariado).
Ambos reducen los datos a resúmenes más manejables, pero tienen objetivos diferentes. Identifique los grupos latentes, uno generalmente reduce las dimensiones de los datos (por ejemplo, a través de PCA) y luego explora si las variables o los casos se agrupan en este espacio reducido. Ver, por ejemplo, Friendly (2002) o Cook et al. (1995)
La identificación de valores atípicos puede significar ajustar un modelo y trazar las desviaciones del modelo (por ejemplo, trazar los residuos de un modelo de regresión) o reducir los datos en sus componentes principales y solo resaltar los puntos que se desvían del modelo o del cuerpo principal de datos. Por ejemplo, los diagramas de caja en una o dos dimensiones generalmente solo muestran puntos individuales que están fuera de las bisagras (Wickham y Stryjewski, 2013). El trazado de residuos tiene la buena propiedad de que debería aplanar las parcelas (Tukey, 1977), por lo que cualquier evidencia de relaciones en la nube de puntos restante es "interesante". Esta pregunta en CV tiene algunas sugerencias excelentes para identificar valores atípicos multivariados.
Una forma común de explorar SPLOMS tan grandes es no trazar todos los puntos individuales, sino algún tipo de resumen simplificado y luego puntos que se desvíen en gran medida de este resumen, por ejemplo, puntos suspensivos de confianza, resúmenes escagnósticos (Wilkinson y Wills, 2008), bivariado diagramas de caja, diagramas de contorno. A continuación se muestra un ejemplo de trazado de elipses que definen la covarianza y la superposición de un loess más suave para describir la asociación lineal.
(fuente: statmethods.net )
De cualquier manera, una trama exitosa e interactiva con tantas variables probablemente necesitaría una clasificación inteligente (Wilkinson, 2005) y una forma simple de filtrar las variables (además de las capacidades de cepillado / enlace). Además, cualquier conjunto de datos realista debería tener la capacidad de transformar el eje (por ejemplo, trazar los datos en una escala logarítmica, transformar los datos tomando raíces, etc.). ¡Buena suerte y no te quedes con una sola trama!
Citas
- Cook, Dianne, Andreas Buja, Javier Cabrera y Catherine Hurley. 1995. Gran gira y búsqueda de proyección. Revista de estadística computacional y gráfica 4 (3): 155-172.
- Amigable, Michael. 2002. Corrgrams: pantallas exploratorias para matrices de correlación. El estadístico estadounidense 56 (4): 316-324. PDF preprint .
- Tukey, John. 1977. Análisis exploratorio de datos. Addison-Wesley. Lectura, misa.
- Wickham, Hadley y Lisa Stryjewski. 2013. 40 años de boxplots .
- Wilkinson, Leland y Graham Wills. 2008. Distribuciones escagnósticas. Journal of Computational and Graphical Statistics 17 (2): 473-491.
- Wilkinson, Leland. 2005. La gramática de los gráficos . Saltador. Nueva York, NY.