A menudo dicen que no existe otra técnica analítica tan fuerte como la del tipo "como siembras segarás", como lo es el análisis de conglomerados.
Puedo imaginar de un dimensiones numéricas o aspectos de la "corrección" de este o aquel método de agrupamiento :
Metáfora de clústeres . "Yo prefiero este método, ya que constituye agrupaciones tales (o como una ida) que se reúne con mi concepto de un cluster en mi proyecto en particular" . Cada algoritmo de agrupamiento o subalgoritmo / método implica su estructura / construcción / forma correspondiente de un grupo. En lo que se refiere a los métodos jerárquicos, he observado esto en uno de los puntos aquí y también aquí. Es decir, algunos métodos dan grupos que son prototípicamente "tipos", otros dan "círculos [por interés]", aún otras "plataformas [políticas]", "clases", "cadenas", etc. Seleccione el método que la metáfora del grupo le convenga. Por ejemplo, si veo mis segmentos de clientes como tipos: formas más o menos esféricas con compactación (es) en el medio, elegiré claramente el método de enlace de Ward o K-means, pero nunca el método de enlace único. Si necesito un punto focal representativo, podría usar el método medoide. Si necesito seleccionar puntos para que sean representantes centrales y periféricos, podría usar el enfoque DBSCAN.
Supuestos de datos / métodos . "Preferí este método porque mi naturaleza o formato de datos lo predisponen" . Este punto importante y vasto también se menciona en mi enlace anterior. Diferentes algoritmos / métodos pueden requerir diferentes tipos de datos para ellos o diferentes medidas de proximidad para aplicar a los datos, y viceversa, diferentes datos pueden requerir diferentes métodos. Existen métodos para cuantitativos y métodos para datos cualitativos. La mezcla de características cuantitativas + cualitativas reduce drásticamente el alcance de elección entre los métodos. Ward's o K-meansse basan, explícita o implícitamente, en la medida de proximidad de distancia euclidiana (al cuadrado) solamente y no en una medida arbitraria. Los datos binarios pueden requerir medidas especiales de similitud que a su vez cuestionarán fuertemente el uso de algunos métodos, por ejemplo Ward's o K-means, para ellos. Big data puede necesitar algoritmos especiales o implementaciones especiales.
1aproximadamente), por lo que la alta validez puede deberse en parte a la peculiaridad aleatoria del conjunto de datos dado; tener un conjunto de datos de prueba siempre es beneficioso.]
Validez externa . "Preferí este método porque me dio grupos que difieren según sus antecedentes o grupos que coinciden con los verdaderos que conozco" . Si una partición de agrupación presenta agrupaciones que son claramente diferentes en algunas características importantes de fondo (es decir, no participaron en el análisis de agrupación), entonces es un activo para ese método que produjo la partición. Use cualquier análisis que aplique para verificar la diferencia; También existen varios criterios útiles de agrupamiento externo(Rand, medida F, etc., etc.) Otra variante del caso de validación externa es cuando de alguna manera conoce los verdaderos clústeres en sus datos (conozca la "verdad fundamental"), como cuando generó los clústeres usted mismo. Entonces, la precisión de su método de agrupación es capaz de descubrir los clústeres reales.
Validez cruzada . "Preferí este método porque me da grupos muy similares en muestras equivalentes de datos o se extrapola bien en esas muestras" . Existen varios enfoques y sus híbridos, algunos más factibles con algunos métodos de agrupación, mientras que otros con otros métodos. Dos enfoques principales son el control de estabilidad y la generalización.comprobar. Comprobando la estabilidad de un método de agrupamiento, uno divide o remuestrea aleatoriamente los datos en conjuntos parcialmente entrecruzados o totalmente disjuntos y realiza el agrupamiento en cada uno; luego iguala y compara las soluciones con algunas características emergentes del clúster (por ejemplo, la ubicación de tendencia central de un clúster) si es estable en todos los conjuntos. La verificación de la posibilidad de generalización implica agrupar en un conjunto de trenes y luego usar su característica o regla de agrupamiento emergente para asignar objetos de un conjunto de prueba, además de también agrupar en el conjunto de prueba. Los resultados de la asignación y la pertenencia al clúster del resultado de agrupación de los objetos del conjunto de pruebas se comparan entonces.
Interpretación . "Preferí este método porque me dio grupos que, explicaron, son muy persuasivos de que haya significado en el mundo" . No es estadístico, es su validación psicológica. Cuán significativos son los resultados para usted, el dominio y, posiblemente, la audiencia / cliente. Elija el método que ofrezca los resultados picantes más interpretables.
Gregaria . Algunas investigaciones regularmente y todas las investigaciones ocasionalmente dirían "Preferí este método porque con mis datos dio resultados similares con otros métodos entre todos los que probé" . Esta es una estrategia heurística pero cuestionable que supone que existen datos bastante universales o un método bastante universal.
Los puntos 1 y 2 son teóricos y preceden la obtención del resultado; exclusiva depender de estos puntos es la soberbia, la estrategia exploratoria seguro de sí mismo. Los puntos 3, 4 y 5 son empíricos y seguir el resultado; exclusiva depender de estos puntos es el inquieto, try-toda-la estrategia exploratoria. El punto 6 es creativo, lo que significa que niega cualquier resultado para intentar reajustarlo. El punto 7 es leal mauvaise foi.