Preguntas etiquetadas con clustering

El análisis de conglomerados es la tarea de dividir los datos en subconjuntos de objetos de acuerdo con su "similitud" mutua, sin utilizar el conocimiento preexistente como las etiquetas de clase. [Los errores estándar agrupados y / o las muestras de agrupación deben etiquetarse como tales; NO use la etiqueta de "agrupamiento" para ellos.]



1
k-medias || también conocido como K-Means escalable ++
Bahman Bahmani y col. introdujo k-means ||, que es una versión más rápida de k-means ++. Este algoritmo está tomado de la página 4 de su artículo , Bahmani, B., Moseley, B., Vattani, A., Kumar, R. y Vassilvitskii, S. (2012). Escalable k-significa ++. Actas de la Fundación VLDB , 5 …

5
¿Cómo realizar la imputación de valores en una gran cantidad de puntos de datos?
Tengo un conjunto de datos muy grande y faltan alrededor del 5% de valores aleatorios. Estas variables están correlacionadas entre sí. El siguiente conjunto de datos R de ejemplo es solo un ejemplo de juguete con datos correlacionados ficticios. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
¿Puede comparar diferentes métodos de agrupación en un conjunto de datos sin verdad básica mediante validación cruzada?
Actualmente, estoy tratando de analizar un conjunto de datos de documentos de texto que no tiene ninguna verdad fundamental. Me dijeron que puede usar la validación cruzada k-fold para comparar diferentes métodos de agrupación. Sin embargo, los ejemplos que he visto en el pasado utilizan una verdad fundamental. ¿Hay alguna …

5
¿Puedo usar PCA para hacer una selección de variables para el análisis de conglomerados?
Tengo que reducir la cantidad de variables para realizar un análisis de conglomerados. Mis variables están fuertemente correlacionadas, así que pensé en hacer un análisis factorial PCA (análisis de componentes principales). Sin embargo, si uso las puntuaciones resultantes, mis grupos no son del todo correctos (en comparación con las clasificaciones …

2
Agrupación de datos espaciales en R
Tengo un conjunto de datos mensuales de temperatura de la superficie del mar (SST) y quiero aplicar alguna metodología de clúster para detectar regiones con patrones de SST similares. Tengo un conjunto de archivos de datos mensuales que se ejecutan desde 1985 hasta 2009 y quiero aplicar el agrupamiento a …
12 r  clustering  spatial 


1






1
Selección de modelo de Mclust
El paquete R mclustutiliza BIC como criterio para la selección del modelo de clúster. Según tengo entendido, un modelo con el BIC más bajo debe seleccionarse sobre otros modelos (si solo le importa BIC). Sin embargo, cuando los valores BIC son todos negativos, la Mclustfunción adopta el modelo predeterminado con …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.