Preguntas etiquetadas con clustering

El análisis de conglomerados es la tarea de dividir los datos en subconjuntos de objetos de acuerdo con su "similitud" mutua, sin utilizar el conocimiento preexistente como las etiquetas de clase. [Los errores estándar agrupados y / o las muestras de agrupación deben etiquetarse como tales; NO use la etiqueta de "agrupamiento" para ellos.]

5
Cómo entender los inconvenientes de K-means
K-means es un método ampliamente utilizado en el análisis de conglomerados. Según tengo entendido, este método NO requiere NINGUNA suposición, es decir, dame un conjunto de datos y un número predeterminado de clústeres, k, y simplemente aplico este algoritmo que minimiza la suma de los errores al cuadrado (SSE), dentro …

8
¿Por qué la distancia euclidiana no es una buena métrica en altas dimensiones?
Leí que "la distancia euclidiana no es una buena distancia en grandes dimensiones". Supongo que esta afirmación tiene algo que ver con la maldición de la dimensionalidad, pero ¿qué es exactamente? Además, ¿qué son las "altas dimensiones"? He estado aplicando agrupamiento jerárquico usando la distancia euclidiana con 100 características. ¿Hasta …


6
¿Cómo saber si los datos están "agrupados" lo suficiente como para que los algoritmos de agrupamiento produzcan resultados significativos?
¿Cómo podría saber si sus datos (de alta dimensión) exhiben suficiente agrupación para que los resultados de kmeans u otro algoritmo de agrupación sean realmente significativos? Para el algoritmo k-means en particular, ¿qué grado de reducción en la varianza dentro del clúster debería haber para que los resultados de la …

3
Un ejemplo: regresión LASSO usando glmnet para el resultado binario
Estoy empezando a incursionar con el uso de glmnetla LASSO regresión donde mi resultado de interés es dicotómica. He creado un pequeño marco de datos simulados a continuación: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
Agrupación en la salida de t-SNE
Tengo una aplicación en la que sería útil agrupar un conjunto de datos ruidoso antes de buscar efectos de subgrupo dentro de los grupos. Primero examiné PCA, pero se necesitan ~ 30 componentes para llegar al 90% de la variabilidad, por lo que agrupar en solo un par de PC …

6
Elegir un método de agrupamiento
Cuando se utiliza el análisis de conglomerados en un conjunto de datos para agrupar casos similares, es necesario elegir entre una gran cantidad de métodos de agrupamiento y medidas de distancia. A veces, una opción puede influir en la otra, pero hay muchas combinaciones posibles de métodos. ¿Alguien tiene alguna …



6
¿Dónde cortar un dendrograma?
La agrupación jerárquica se puede representar mediante un dendrograma. Cortar un dendrograma a cierto nivel da un conjunto de grupos. Cortar a otro nivel da otro conjunto de grupos. ¿Cómo elegirías dónde cortar el dendrograma? ¿Hay algo que podamos considerar un punto óptimo? Si miro un dendrograma a lo largo …

5
¿Cuál es la relación entre la agrupación de k-means y PCA?
Es una práctica común aplicar PCA (análisis de componentes principales) antes de un algoritmo de agrupamiento (como k-means). Se cree que mejora los resultados de agrupamiento en la práctica (reducción de ruido). Sin embargo, estoy interesado en un estudio comparativo y en profundidad de la relación entre PCA y k-means. …

10
¿Cómo decidir sobre el número correcto de grupos?
Encontramos los centros de clúster y asignamos puntos a k diferentes agrupaciones de clústeres en k-means clustering, que es un algoritmo muy conocido y se encuentra en casi todos los paquetes de aprendizaje automático en la red. Pero la parte faltante y más importante en mi opinión es la elección …


10
Agrupación con una matriz de distancia
Tengo una matriz (simétrica) Mque representa la distancia entre cada par de nodos. Por ejemplo, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60100120120120 B 20 0 20 20 60 80 80 80120140140140 C 20 20 0 20 60 80 80 80120140140140 D 20 20 20 0 60 80 …
52 clustering 


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.