Preguntas etiquetadas con k-means

k-means es un método para dividir datos en clusters al encontrar un número específico de medias, k, st cuando los datos se asignan a clusters w / la media más cercana, la suma de cuadrados w / i cluster se minimiza

2
k-significa vs k-mediana?
Sé que hay un algoritmo de agrupación k-means y una mediana k. Uno que usa la media como el centro del grupo y el otro usa la mediana. Mi pregunta es: ¿cuándo / dónde usar cuál?









2
Usando BIC para estimar el número de k en KMEANS
Actualmente estoy tratando de calcular el BIC para mi conjunto de datos de juguete (ofc iris (:). Quiero reproducir los resultados como se muestra aquí (Fig. 5). Ese documento también es mi fuente para las fórmulas de BIC. Tengo 2 problemas con esto: Notación: ninin_i = número de elementos en …


3
¿Necesito descartar variables que estén correlacionadas / colineales antes de ejecutar kmeans?
Estoy ejecutando kmeans para identificar grupos de clientes. Tengo aproximadamente 100 variables para identificar grupos. Cada una de estas variables representa el% de gasto de un cliente en una categoría. Entonces, si tengo 100 categorías, tengo estas 100 variables, de modo que la suma de estas variables es del 100% …


1
k-medias || también conocido como K-Means escalable ++
Bahman Bahmani y col. introdujo k-means ||, que es una versión más rápida de k-means ++. Este algoritmo está tomado de la página 4 de su artículo , Bahmani, B., Moseley, B., Vattani, A., Kumar, R. y Vassilvitskii, S. (2012). Escalable k-significa ++. Actas de la Fundación VLDB , 5 …

5
¿Cómo realizar la imputación de valores en una gran cantidad de puntos de datos?
Tengo un conjunto de datos muy grande y faltan alrededor del 5% de valores aleatorios. Estas variables están correlacionadas entre sí. El siguiente conjunto de datos R de ejemplo es solo un ejemplo de juguete con datos correlacionados ficticios. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.