Preguntas etiquetadas con clustering

El análisis de conglomerados es la tarea de dividir los datos en subconjuntos de objetos de acuerdo con su "similitud" mutua, sin utilizar el conocimiento preexistente como las etiquetas de clase. [Los errores estándar agrupados y / o las muestras de agrupación deben etiquetarse como tales; NO use la etiqueta de "agrupamiento" para ellos.]

3
Agrupación de espacio eficiente
La mayoría de los algoritmos de agrupación que he visto comienzan con la creación de una distancia de cada uno entre cada punto, lo que se vuelve problemático en conjuntos de datos más grandes. ¿Hay alguno que no lo haga? ¿O lo hace en algún tipo de enfoque parcial / …

4
¿Cómo llevar a cabo múltiples pruebas de chi-cuadrado post-hoc en una mesa de 2 X 3?
Mi conjunto de datos está compuesto por la mortalidad total o la supervivencia de un organismo en tres tipos de sitios, costero, medio canal y en alta mar. Los números en la tabla a continuación representan el número de sitios. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 …

2
Comenzando con biclustering
He estado haciendo algunas investigaciones casuales en Internet sobre biclusters. (He leído el artículo de Wiki varias veces). Hasta ahora, parece que hay pocas definiciones o terminología estándar. Me preguntaba si había documentos o libros estándar que alguien que estuviera interesado en algoritmos para encontrar biclusters debería leer. ¿Es posible …

2
Calcular curva ROC para datos
Entonces, tengo 16 ensayos en los que estoy tratando de autenticar a una persona de un rasgo biométrico usando Hamming Distance. Mi umbral está establecido en 3.5. Mis datos están a continuación y solo la prueba 1 es un verdadero positivo: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

3
La mejor manera de agrupar una matriz de adyacencia
He tenido dificultades para interpretar los grupos resultantes de una matriz de adyacencia. Tengo 200 matrices relativamente grandes que representan sujetos que contienen correlaciones parciales (puntajes z) de series de tiempo (datos neuronales). El objetivo es agrupar esas 210 matrices y detectar cualquier comunidad potencial no descubierta. Entonces hice otros …


1
Criterios de codo para determinar el número de racimo
Aquí se menciona que uno de los métodos para determinar el número óptimo de grupos en un conjunto de datos es el "método del codo". Aquí el porcentaje de varianza se calcula como la relación entre la varianza entre grupos y la varianza total. Me sentí difícil de entender este …


1
Agrupación de series de tiempo
Tengo muchas series de tiempo en este formato 1 columna en la que tengo formato de fecha (d / m / año) y muchas columnas que representan diferentes series de tiempo como aquí: DATE TS1 TS2 TS3 ... 24/03/2003 0.00 0.00 ... 17/04/2003 -0.05 1.46 11/05/2003 0.46 -3.86 04/06/2003 -2.21 …



3
Cómo realizar SVD para imputar valores perdidos, un ejemplo concreto
He leído los excelentes comentarios sobre cómo lidiar con los valores perdidos antes de aplicar SVD, pero me gustaría saber cómo funciona con un ejemplo simple: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Dada la matriz anterior, …
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 




Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.