Idoneidad de ANOVA después del análisis de conglomerados de k-medias

La notificación después de la tabla ANOVA después del análisis de K-medias indica que los niveles de significancia no deben considerarse como la prueba de medias iguales, ya que la solución de clúster se ha derivado en base a la distancia euclidiana para maximizar la distancia. ¿Qué prueba debo usar para mostrar si las medias de las variables de agrupación difieren entre las agrupaciones? He visto esta advertencia en la tabla ANOVA proporcionada por k-means output, pero en algunas referencias veo que se ejecutan pruebas ANOVA post-hoc. ¿Debo ignorar las salidas ANOVA k-mean y ejecutar ANOVA unidireccional con pruebas post-hoc e interpretarlas de manera tradicional? ¿O solo puedo dar a entender la magnitud del valor F y qué variables contribuyeron más a la diferencia? Otra confusión es que las variables de agrupamiento no se distribuyen normalmente violando el supuesto de ANOVA, entonces podría usar la prueba no paramétrica de Kruskal-Wallis, pero se supone que tiene las mismas distribuciones. Las distribuciones entre grupos para las variables específicas no parecen iguales, algunas están sesgadas positivamente, otras son negativas ... Tengo 1275 muestras grandes, 5 grupos, 10 variables de agrupación medidas en puntajes de PCA.

anova k-means

— Inga
fuente

¿Por qué necesitas probar la igualdad de medios? ¿No puedes probar cómo funciona tu modelo sin muestra?

— James

Quería determinar qué medias de las variables difieren entre los grupos, es decir, si la media de v1 en el grupo1 es diferente de la media de v1 en el grupo 2, 3, 4, 5. Por supuesto, puedo ver eso haciendo un gráfico, pero lo hace. No contar sobre la diferencia estadística. La prueba de diferencia estadística me confundió, ya que para ANOVA mis datos no cumplían con la suposición de distribución normal, pero para Kruskal Wallis prueba la misma suposición de distribución de forma entre los grupos de grupos.

— Inga

Como @James señaló en su respuesta, estás "husmeando". ¿Cuál podría ser una razón para probar la importancia entre los grupos que usted (su agrupación) preseleccionó para diferir tanto como sea posible? Aquí no hay ninguna marca de muestreo aleatorio o proporcional de poblaciones que sean distintas en función de algunas características externas de fondo.

— ttnphns

¡Gracias por las respuestas! Mi confusión apareció ya que en algunas fuentes veo que las comparaciones de medias estadísticas no son apropiadas en esta situación, como también ha señalado, pero, por ejemplo, una cita del capítulo de 1 libro indica lo contrario: "generalmente examinamos las medias para cada grupo en cada dimensión usando ANOVA para evaluar qué tan distintos son nuestros grupos. Idealmente, obtendríamos medios significativamente diferentes para la mayoría, si no todas las dimensiones, utilizadas en el análisis. La magnitud de los valores de F realizados en cada dimensión es una indicación de qué tan bien discrimina la dimensión respectiva entre clusters "

— Inga

Tiene derecho a evaluar las diferencias entre los grupos por las características utilizadas para agrupar, a fin de descubrir los más discriminatorios. Al hacerlo, puede calcular diferencias relativas, F e incluso valores p. Como indicadores del tamaño del efecto. No como indicadores de significación estadística (que se refieren a poblaciones).

— ttnphns

Respuestas:

¡No!

Usted debe utilizar los mismos datos para 1) realizar agrupaciones y 2) buscar diferencias significativas entre los puntos de las agrupaciones. Incluso si no hay una estructura real en los datos, la agrupación impondrá uno al agrupar los puntos que están cerca. Esto reduce la varianza dentro del grupo y aumenta la varianza entre grupos, lo que lo predispone hacia falsos positivos.

$k$

Los resultados de la simulación muestran una distribución uniforme de valores para las asignaciones aleatorias y una distribución muy sesgada (casi la totalidad de 0.05 o menos) de los valores p después de la agrupación

Aquí no hay nada especial sobre un ANOVA: vería efectos similares utilizando pruebas no paramétricas, regresión logística, cualquier cosa. En general, validar el rendimiento de un algoritmo de agrupamiento es complicado, especialmente si los datos no están etiquetados. Sin embargo, hay algunos enfoques para la "validación interna", o para medir la calidad de los grupos sin utilizar fuentes de datos externas. Generalmente se centran en la compacidad y separabilidad de los grupos. Esta revisión de Lui et al. (2010) podría ser un buen lugar para comenzar.

— Matt Krause
fuente

Su verdadero problema es el espionaje de datos. No puede aplicar ANOVA o KW si las observaciones se asignaron a grupos (grupos) en función del conjunto de datos de entrada en sí. Lo que puedes hacer es usar algo como estadística Gap para estimar el número de clústeres.

Por otro lado, los valores p analizados están sesgados hacia abajo, por lo que si el resultado de la prueba ANOVA o KW es insignificante, entonces el valor p "verdadero" es aún mayor y puede decidir fusionar los grupos.

— James
fuente

Creo que podría aplicar dicho enfoque (es decir, usar las estadísticas, como las estadísticas F o las estadísticas t o lo que sea), si elimina las distribuciones nulas habituales .

Lo que debe hacer es simular a partir de la situación en la que su nulo es verdadero, aplicar todo el procedimiento (agrupamiento, etc.) y luego calcular la estadística cada vez. Aplicado a muchas simulaciones, obtendría una distribución para la estadística bajo el valor nulo contra el cual se podría comparar su valor de muestra. Al incorporar el espionaje de datos en el cálculo, se tiene en cuenta su efecto.

[Alternativamente, uno podría desarrollar una prueba basada en remuestreo (ya sea basada en permutación / aleatorización o bootstrapping).]

— Glen_b -Reinstate a Monica
fuente

Correcto, esa es la idea detrás de la estadística Gap.

— James