Preguntas etiquetadas con k-means

k-means es un método para dividir datos en clusters al encontrar un número específico de medias, k, st cuando los datos se asignan a clusters w / la media más cercana, la suma de cuadrados w / i cluster se minimiza

5
Cómo entender los inconvenientes de K-means
K-means es un método ampliamente utilizado en el análisis de conglomerados. Según tengo entendido, este método NO requiere NINGUNA suposición, es decir, dame un conjunto de datos y un número predeterminado de clústeres, k, y simplemente aplico este algoritmo que minimiza la suma de los errores al cuadrado (SSE), dentro …


6
¿Cómo saber si los datos están "agrupados" lo suficiente como para que los algoritmos de agrupamiento produzcan resultados significativos?
¿Cómo podría saber si sus datos (de alta dimensión) exhiben suficiente agrupación para que los resultados de kmeans u otro algoritmo de agrupación sean realmente significativos? Para el algoritmo k-means en particular, ¿qué grado de reducción en la varianza dentro del clúster debería haber para que los resultados de la …

6
Agrupación en la salida de t-SNE
Tengo una aplicación en la que sería útil agrupar un conjunto de datos ruidoso antes de buscar efectos de subgrupo dentro de los grupos. Primero examiné PCA, pero se necesitan ~ 30 componentes para llegar al 90% de la variabilidad, por lo que agrupar en solo un par de PC …

3
¿Cómo producir una bonita gráfica de los resultados del análisis de conglomerados k-means?
Estoy usando R para hacer clustering K-means. Estoy usando 14 variables para ejecutar K-means ¿Cuál es una manera bonita de trazar los resultados de K-means? ¿Hay implementaciones existentes? ¿Tener 14 variables complica el trazado de los resultados? Encontré algo llamado GGcluster que se ve genial pero todavía está en desarrollo. …


5
¿Cuál es la relación entre la agrupación de k-means y PCA?
Es una práctica común aplicar PCA (análisis de componentes principales) antes de un algoritmo de agrupamiento (como k-means). Se cree que mejora los resultados de agrupamiento en la práctica (reducción de ruido). Sin embargo, estoy interesado en un estudio comparativo y en profundidad de la relación entre PCA y k-means. …

10
¿Cómo decidir sobre el número correcto de grupos?
Encontramos los centros de clúster y asignamos puntos a k diferentes agrupaciones de clústeres en k-means clustering, que es un algoritmo muy conocido y se encuentra en casi todos los paquetes de aprendizaje automático en la red. Pero la parte faltante y más importante en mi opinión es la elección …



5
¿Es importante escalar los datos antes de la agrupación?
Encontré este tutorial , que sugiere que debe ejecutar la función de escala en las características antes de la agrupación (creo que convierte los datos en puntuaciones z). Me pregunto si eso es necesario. Lo pregunto principalmente porque hay un buen punto de codo cuando no escalo los datos, pero …




5
Cómo lidiar con datos jerárquicos / anidados en el aprendizaje automático
Explicaré mi problema con un ejemplo. Suponga que desea predecir el ingreso de un individuo dados algunos atributos: {Edad, Sexo, País, Región, Ciudad}. Tienes un conjunto de datos de entrenamiento como este train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.