Existen muchas técnicas en estadísticas ecológicas para el análisis exploratorio de datos de datos multidimensionales. Estas se llaman técnicas de 'ordenación'. Muchos son iguales o están estrechamente relacionados con técnicas comunes en otras partes de las estadísticas. Quizás el ejemplo prototípico sería el análisis de componentes principales (PCA). Los ecologistas pueden usar PCA y técnicas relacionadas para explorar 'gradientes' (no estoy del todo claro qué es un gradiente, pero he estado leyendo un poco al respecto).
En esta página , el último elemento bajo Análisis de componentes principales (PCA) dice:
- PCA tiene un serio problema para los datos de vegetación: el efecto de herradura. Esto es causado por la curvilinealidad de las distribuciones de especies a lo largo de los gradientes. Dado que las curvas de respuesta de las especies son típicamente unimodales (es decir, muy curvilíneas), los efectos de herradura son comunes.
Más abajo en la página, en Análisis de correspondencia o Promedio recíproco (RA) , se refiere al "efecto de arco":
- RA tiene un problema: el efecto de arco. También es causada por la no linealidad de las distribuciones a lo largo de los gradientes.
- El arco no es tan grave como el efecto de herradura de PCA, porque los extremos del gradiente no están enredados.
¿Alguien puede explicar esto? Recientemente he visto este fenómeno en gráficas que representan de nuevo los datos en un espacio dimensional inferior (a saber, análisis de correspondencia y análisis factorial).
- ¿A qué correspondería un "gradiente" más en general (es decir, en un contexto no ecológico)?
- Si esto sucede con sus datos, ¿es un "problema" ("problema grave")? ¿Para qué?
- ¿Cómo se debe interpretar la salida donde aparece una herradura / arco?
- ¿Es necesario aplicar un remedio? ¿Qué? ¿Ayudarían las transformaciones de los datos originales? ¿Qué pasa si los datos son clasificaciones ordinales?
Las respuestas pueden existir en otras páginas de ese sitio (por ejemplo, para PCA , CA y DCA ). He estado tratando de resolverlos. Pero las discusiones están redactadas con una terminología ecológica y ejemplos suficientemente desconocidos de que es más difícil entender el tema.