Estadísticas y Big Data clustering

2

Agrupación de datos de recuento muy sesgados: ¿alguna sugerencia para realizar (transformar, etc.)?

Problema básico Aquí está mi problema básico: estoy tratando de agrupar un conjunto de datos que contiene algunas variables muy sesgadas con recuentos. Las variables contienen muchos ceros y, por lo tanto, no son muy informativas para mi procedimiento de agrupación, que probablemente sea el algoritmo k-means. Bien, dices, simplemente …

11 clustering data-transformation k-means count-data compositional-data

4

Comprender e implementar un modelo de proceso de Dirichlet

Estoy tratando de implementar y aprender un Proceso de Dirichlet para agrupar mis datos (o como la gente de aprendizaje automático habla, estimar la densidad). Leí mucho papel sobre el tema y de alguna manera tuve la idea. Pero todavía estoy confundido; aquí hay una serie de preguntas, 1) ¿Cuál …

11 machine-learning clustering dirichlet-process

1

¿Cómo agrupar automáticamente una matriz U?

Después de entrenar un mapa autoorganizado, se puede calcular la U-Matrix . Hay algunas herramientas para visualizarlo manualmente e identificar grupos, pero me pregunto si hay algún algoritmo para hacer este proceso de forma automática (es decir, no tener un humano mirando la figura para identificar los grupos). ¿Hay alguna …

10 clustering image-processing self-organizing-maps

3

Métodos de inicialización de agrupamiento de K-medias

Estoy interesado en el estado actual de la técnica para seleccionar semillas iniciales (centros de agrupación) para K-means. Buscar en Google lleva a dos opciones populares: selección aleatoria de semillas iniciales, y utilizando la técnica de selección KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: Las ventajas de la siembra …

10 clustering k-means

3

¿Cuáles son los métodos estadísticos que puedo usar para encontrar combinaciones populares o comunes de variables categóricas?

Estoy haciendo un estudio sobre el uso de polidrogas. Tengo un conjunto de datos de 400 drogadictos, cada uno de los cuales declaró las drogas que abusan. Hay más de 10 medicamentos y, por lo tanto, hay grandes combinaciones posibles. He recodificado la mayoría de las drogas que consumen en …

10 hypothesis-testing clustering combinatorics association-measure association-rules

1

Comprender el uso de logaritmos en el logaritmo TF-IDF

Estaba leyendo: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Pero parece que no puedo entender exactamente por qué la fórmula se construyó de la manera en que está. Lo que sí entiendo: iDF debería medir en algún nivel la frecuencia con la que aparece un término S en cada uno de los documentos, disminuyendo su valor …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

Enfoque y ejemplo de agrupación de gráficos en "R"

Estoy buscando agrupar / fusionar nodos en un gráfico usando la agrupación de gráficos en 'r'. Aquí hay una variación asombrosamente juguetona de mi problema. Hay dos "grupos" Hay un "puente" que conecta los grupos Aquí hay una red de candidatos: Cuando miro la distancia de conexión, el "conteo", si …

10 r clustering data-visualization numerics

1

¿Cómo debo interpretar la estadística GAP?

Utilicé la estadística GAP para estimar k grupos en R. Sin embargo, no estoy seguro de interpretarlo bien. De la trama anterior, supongo que debería usar 3 grupos. De la segunda trama, debería elegir 6 grupos. ¿Es correcta la interpretación de la estadística GAP? Agradecería cualquier explicación.

10 clustering

1

¿Qué significa ss total y entre ss en el agrupamiento k-means?

Soy muy nuevo en el análisis de conglomerados. Estoy usando R para el agrupamiento k-means y me pregunto cuáles son esas cosas. ¿Y qué es mejor si su proporción es menor o mayor?

10 clustering

2

PyMC para la agrupación no paramétrica: el proceso de Dirichlet para estimar los parámetros de la mezcla gaussiana no se agrupa

Configuración del problema Uno de los primeros problemas con los juguetes a los que quería aplicar PyMC es la agrupación no paramétrica: dado algunos datos, modelarlo como una mezcla gaussiana y conocer el número de grupos y la media y covarianza de cada grupo. La mayor parte de lo que …

10 bayesian clustering python pymc nonparametric-bayes

3

Cómo obtener el intervalo de confianza en el cambio de r-cuadrado poblacional

Por un simple ejemplo, suponga que hay dos modelos de regresión lineal Modelo 1 tiene tres predictores, x1a, x2b, yx2c El modelo 2 tiene tres predictores del modelo 1 y dos predictores adicionales x2ayx2b Hay una ecuación de regresión poblacional donde la varianza poblacional explicada es para el Modelo 1 …

10 regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

2

Encontrar un número conocido de centros de círculo que maximicen el número de puntos dentro de una distancia fija

Tengo un conjunto de datos en 2-D donde quiero encontrar los centros de un número específico de centros de círculos ( ) que maximizan el número total de puntos dentro de una distancia específica ( ).RNNNRRR Por ejemplo, tengo 10,000 puntos de datos y quiero encontrar los centros de círculos …

10 r clustering distance

1

¿Los anchos de silueta bajos significan que los datos tienen poca estructura subyacente?

Soy nuevo en el análisis de secuencia, y me preguntaba cómo reaccionaría si los anchos de silueta promedio (ASW) de los análisis de conglomerados de matrices de disimilitud basadas en la coincidencia óptima son bajos (alrededor de 25). ¿Parecería apropiado concluir que hay poca estructura subyacente que permita agrupar las …

10 clustering traminer

1

¿Por qué Anova () y drop1 () proporcionaron diferentes respuestas para GLMM?

Tengo un GLMM de la forma: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Cuando lo uso drop1(model, test="Chi"), obtengo resultados diferentes a los que uso Anova(model, type="III")del paquete del automóvil o summary(model). Estos dos últimos dan las mismas respuestas. Usando un montón de …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

Evaluación de grupos de cadenas de Markov de primer orden

Agrupe mi conjunto de datos de varios miles de cadenas de Markov de primer orden en aproximadamente 10 grupos. ¿Hay alguna forma recomendada de cómo puedo evaluar estos grupos y descubrir qué comparten los elementos en los grupos y en qué se diferencian de otros grupos? Entonces puedo hacer una …

10 data-visualization clustering markov-process

Preguntas etiquetadas con clustering