Preguntas etiquetadas con descriptive-statistics

Las estadísticas descriptivas resumen las características de una muestra, como las desviaciones medias y estándar, la mediana y los cuartiles, el máximo y el mínimo. Con múltiples variables, puede incluir correlaciones y tablas cruzadas. Puede incluir visualizaciones: diagramas de caja, histogramas, diagramas de dispersión, etc.



3
Un ejemplo: regresión LASSO usando glmnet para el resultado binario
Estoy empezando a incursionar con el uso de glmnetla LASSO regresión donde mi resultado de interés es dicotómica. He creado un pequeño marco de datos simulados a continuación: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
¿Cómo 'sumar' una desviación estándar?
Tengo un promedio mensual para un valor y una desviación estándar correspondiente a ese promedio. Ahora estoy calculando el promedio anual como la suma de los promedios mensuales, ¿cómo puedo representar la desviación estándar para el promedio sumado? Por ejemplo, considerando la producción de un parque eólico: Month MWh StdDev …




5
Correlaciones entre variables continuas y categóricas (nominales)
Me gustaría encontrar la correlación entre una variable continua (variable dependiente) y una variable categórica (nominal: género, variable independiente). Los datos continuos no se distribuyen normalmente. Antes, lo había calculado usando el de Spearman . Sin embargo, me han dicho que no está bien.ρρ\rho Mientras buscaba en Internet, descubrí que …



6
¿Por qué el denominador del estimador de covarianza no debería ser n-2 en lugar de n-1?
El denominador del estimador de varianza (imparcial) es ya que hay observaciones y solo se está estimando un parámetro.n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Por la misma razón, me pregunto por qué el denominador de covarianza no debería ser cuando se estiman dos parámetros.n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

3


5
Cómo lidiar con datos jerárquicos / anidados en el aprendizaje automático
Explicaré mi problema con un ejemplo. Suponga que desea predecir el ingreso de un individuo dados algunos atributos: {Edad, Sexo, País, Región, Ciudad}. Tienes un conjunto de datos de entrenamiento como este train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
¿Es la variación lo mismo que la varianza?
Esta es mi primera pregunta sobre Cross Validated aquí, así que, por favor, ayúdenme incluso si parece trivial :-) En primer lugar, la pregunta podría ser el resultado de diferencias de idioma o tal vez yo tenga deficiencias reales en las estadísticas. Sin embargo, aquí está: En estadísticas de población, …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.