Estadísticas y Big Data

Preguntas y respuestas para personas interesadas en estadísticas, aprendizaje automático, análisis de datos, minería de datos y visualización de datos.




9
Probabilidad de un solo evento futuro en la vida real: ¿Qué significa cuando dicen que "Hillary tiene un 75% de posibilidades de ganar"?
Como la elección es un evento único, no es un experimento que se pueda repetir. Entonces, ¿qué significa técnicamente la afirmación "Hillary tiene un 75% de posibilidades de ganar" ? Estoy buscando una definición estadísticamente correcta, no intuitiva o conceptual. Soy un fanático de las estadísticas aficionadas que está tratando …



6
¿Cómo saber si los datos están "agrupados" lo suficiente como para que los algoritmos de agrupamiento produzcan resultados significativos?
¿Cómo podría saber si sus datos (de alta dimensión) exhiben suficiente agrupación para que los resultados de kmeans u otro algoritmo de agrupación sean realmente significativos? Para el algoritmo k-means en particular, ¿qué grado de reducción en la varianza dentro del clúster debería haber para que los resultados de la …




3
Un ejemplo: regresión LASSO usando glmnet para el resultado binario
Estoy empezando a incursionar con el uso de glmnetla LASSO regresión donde mi resultado de interés es dicotómica. He creado un pequeño marco de datos simulados a continuación: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
Agrupación en la salida de t-SNE
Tengo una aplicación en la que sería útil agrupar un conjunto de datos ruidoso antes de buscar efectos de subgrupo dentro de los grupos. Primero examiné PCA, pero se necesitan ~ 30 componentes para llegar al 90% de la variabilidad, por lo que agrupar en solo un par de PC …


3
¿Cómo producir una bonita gráfica de los resultados del análisis de conglomerados k-means?
Estoy usando R para hacer clustering K-means. Estoy usando 14 variables para ejecutar K-means ¿Cuál es una manera bonita de trazar los resultados de K-means? ¿Hay implementaciones existentes? ¿Tener 14 variables complica el trazado de los resultados? Encontré algo llamado GGcluster que se ve genial pero todavía está en desarrollo. …

3
¿Cuándo es R al cuadrado negativo?
Entiendo que no puede ser negativo ya que es el cuadrado de R. Sin embargo, ejecuté una regresión lineal simple en SPSS con una sola variable independiente y una variable dependiente. Mi salida SPSS me da un valor negativo para . Si tuviera que calcular esto a mano desde R, …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.