Datos discretos y alternativas a PCA

Tengo un conjunto de datos de variables discretas (ordinales, merísticas y nominales) que describen los caracteres morfológicos del ala en varias especies de insectos estrechamente relacionadas. Lo que estoy buscando hacer es realizar algún tipo de análisis que me brinde una representación visual de la similitud de las diferentes especies en función de las características morfológicas. Lo primero que me vino a la cabeza fue PCA (este es el tipo de visualización que estoy buscando crear), pero después de analizarlo (particularmente otras preguntas como: ¿Se puede aplicar el análisis de componentes principales a conjuntos de datos que contienen una mezcla de continuo? y variables categóricas?), parece que PCA puede ser inapropiado para datos discretos (PCA se utiliza en este tipo de estudios en la literatura, pero siempre con datos continuos). Ignorando los antecedentes estadísticos de por qué estos datos son inapropiados, la PCA me da resultados relativamente perfectos con respecto a mi pregunta biológica (los grupos híbridos de interés se encuentran justo en el medio de sus grupos paternos).

También probé el análisis de correspondencia múltiple para apaciguar las estadísticas (al menos en lo que respecta a mi comprensión), pero parece que no puedo obtener una trama que sea análoga a la que obtendría con PCA, donde mis observaciones (los individuos biológicos) están separados por color para mostrar los diferentes grupos (diferentes especies, biológicamente hablando). Parece que este análisis tiene como objetivo describir cómo las variables (aquí, mis características morfológicas) están relacionadas entre sí, no las observaciones individuales. Y cuando trazo observaciones coloreadas por grupo, solo obtengo un único valor (quizás un promedio) que describe todo el conjunto de individuos. He hecho el análisis en R, así que quizás tampoco soy lo suficientemente inteligente como para hacer que mi idea de la trama funcione.

¿Estoy en lo correcto al intentar este tipo de análisis con mis datos, o estoy fuera de lugar? Si no puede decirlo, mi experiencia estadística es limitada, por lo que las ecuaciones que ocurren debajo de estos análisis están completamente sobre mi cabeza. Estoy tratando de llevar a cabo este análisis de manera completamente descriptiva (no necesito hacer más cálculos numéricos posteriores), y he leído que si este es el caso, PCA será suficiente, pero quiero asegurarme de que no violando demasiados supuestos estadísticos.

— JD
fuente

Debería poder obtener el tipo de diagrama que desea con análisis de correspondencia múltiple. Si nos puede dar un enlace a sus datos, podríamos echar un vistazo. El escalado multidimensional es otra posibilidad, pero MCA puede verse como una especie de escalado multidimensional

— kjetil b halvorsen

La agrupación de clases latentes es otra opción metodológica. Básicamente, LCA crea un 'modelo' de heterogeneidad en el residuo del cual se usa para agrupar. Históricamente ha habido 2 amplias corrientes de investigación en la literatura, ambas sociológicas. El LCA original se remonta a Lazarsfeld en Columbia en los años 50, no estaba supervisado y utilizaba datos categóricos; la poLCA de R es un ejemplo de esto. Más recientemente se han desarrollado modelos supervisados de mezclas finitas para LCA. No conozco los módulos R, pero hay un software comercial económico que lo hace ( Latent Gold ). El sitio web de LG tiene buenos documentos sobre LCA

— Mike Hunter

Depende un poco de tu propósito, pero si buscas una herramienta de visualización, hay un truco para aplicar el escalamiento multidimensional a la salida de la proximidad aleatoria del bosque que puede producir imágenes bonitas y funcionará para una mezcla de datos categóricos y continuos. Aquí clasificaría las especies de acuerdo con sus predictores. Pero, y es una gran advertencia, no sé si alguien realmente sabe lo que significa la salida de estas visualizaciones.

Otra alternativa podría ser aplicar una escala multidimensional a algo parecido a la similitud de Gower.

Hay una pregunta pendiente: ¿cuál es su propósito final? ¿Qué pregunta quieres responder? Me gustan estas técnicas como herramientas exploratorias que quizás lo lleven a hacer más y mejores preguntas, pero no estoy seguro de lo que explican o le dicen por sí mismas.

Tal vez estoy leyendo demasiado en su pregunta, pero si desea explorar qué variables predictoras tienen los valores para los híbridos que se encuentran entre las dos especies puras, podría ser mejor construir un modelo para estimar los valores de las variables predictoras que conducen a las especies y los híbridos directamente. Si desea medir cómo se relacionan las variables entre sí, tal vez construya una matriz de correlación, y hay muchas visualizaciones claras para esto.

— Patrick Caldon
fuente

Gracias por la aportación. En última instancia, todo lo que quiero de este análisis es tener alguna medida cuantitativa de la similitud de algunas especies en comparación con otras (tengo dos especies que solo se basan en la apariencia de gestalt se parecen a otras especies estrechamente relacionadas, pero genéticamente parecen similares a una especie diferente, sugiriendo hibridación antigua). El punto principal de esta pregunta de investigación es investigar la genética del grupo, y este análisis morfológico simplemente se sumará a toda la historia biológica. ¿Esta escala multidimensional llevaría a una visualización similar a la PCA?

— JD

Obtienes visualizaciones similares. La idea / intuición de MDS es construir un mapeo desde un espacio de alta dimensión (para usted el espacio de características morfológicas) a un espacio de baja dimensión (como un plano plano 2D) de modo que la distancia en el espacio de alta dimensión sea "prácticamente el igual "que el espacio diensional bajo. Luego puede trazar el plano plano 2D. Pero depende de obtener una métrica de distancia para el espacio de alta dimensión desde algún lugar.

— Patrick Caldon el