Estadísticas y Big Data sample

25

Localización de muestras de datos disponibles libremente

He estado trabajando en un nuevo método para analizar y analizar conjuntos de datos para identificar y aislar subgrupos de una población sin conocimiento previo de las características de ningún subgrupo. Si bien el método funciona lo suficientemente bien con muestras de datos artificiales (es decir, conjuntos de datos creados …

98 dataset sample population teaching

5

¿Cuál es la diferencia entre una población y una muestra?

¿Cuál es la diferencia entre una población y una muestra? ¿Qué variables y estadísticas comunes se utilizan para cada una y cómo se relacionan entre ellas?

38 standard-deviation variance sample population

3

R: Bosque aleatorio que arroja NaN / Inf en el error de "llamada de función externa" a pesar de que no hay NaN en el conjunto de datos [cerrado]

Cerrado. Esta pregunta está fuera de tema . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que esté en el tema de Cross Validated. Cerrado hace 2 años . Estoy usando caret para ejecutar un bosque aleatorio validado cruzado sobre un conjunto de datos. La …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

3

¿Qué sucede si su muestra aleatoria claramente no es representativa?

¿Qué sucede si toma una muestra aleatoria y puede ver que claramente no es representativa, como en una pregunta reciente ? Por ejemplo, ¿qué sucede si se supone que la distribución de la población es simétrica alrededor de 0 y la muestra que extrae al azar tiene observaciones positivas y …

28 sampling experiment-design inference sample

1

Calcular la repetibilidad de los efectos de un modelo más antiguo

Acabo de encontrar este artículo , que describe cómo calcular la repetibilidad (también conocida como confiabilidad, también conocida como correlación intraclase) de una medición a través del modelado de efectos mixtos. El código R sería: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

¿Pueden los grados de libertad ser un número no entero?

Cuando uso GAM, me da un DF residual de 26.626.626.6 (última línea en el código). Qué significa eso? Yendo más allá del ejemplo de GAM, en general, ¿puede el número de grados de libertad ser un número no entero? > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

9

¿Cómo puedo determinar qué tipo de distribución representa estos datos en los tiempos de respuesta de ping?

He probado un proceso del mundo real, tiempos de ping de red. El "tiempo de ida y vuelta" se mide en milisegundos. Los resultados se trazan en un histograma: Los tiempos de ping tienen un valor mínimo, pero una cola superior larga. Quiero saber qué distribución estadística es esta y …

22 distributions sample-size sample normality-assumption distribution-identification

3

Bootstrap: la cuestión del sobreajuste

Supongamos que uno realiza la llamada rutina de arranque no paramétrica extrayendo muestras de tamaño cada una de las observaciones originales con reemplazo. Creo que este procedimiento es equivalente a estimar la función de distribución acumulativa por el cdf empírico:BBBnnortennortenorten http://en.wikipedia.org/wiki/Empirical_distribution_function y luego obtener las muestras de bootstrap simulando observaciones …

14 bootstrap sample-size sample small-sample finite-population

2

¿Cuál es la diferencia entre la varianza muestral y la varianza muestral?

¿Cuál es la diferencia entre la varianza muestral y la varianza muestral? Parecen lo mismo. ¿No son ellos?

14 sampling variance sample

3

¿Usando la longitud media y el peso medio para calcular el IMC medio?

¿Es válido usar la longitud media ( hhh ) y el peso medio ( www ) de una población dada para calcular el índice de masa corporal promedio ( BMI=wh2BMI=wh2BMI = \frac{w}{h^2} ) para esa población?

13 mean sample population

4

¿Es alguna propiedad cuantitativa de la población un "parámetro"?

Estoy relativamente familiarizado con la distinción entre los términos estadística y parámetro. Veo una estadística como el valor obtenido al aplicar una función a los datos de la muestra. Sin embargo, la mayoría de los ejemplos de parámetros se relacionan con la definición de una distribución paramétrica. Un ejemplo común …

13 estimation terminology sample population

1

Muestra grande asintótica / teoría - ¿Por qué preocuparse?

Espero que esta pregunta no se marque "como demasiado general" y espero que se inicie una discusión que beneficie a todos. En estadística, pasamos mucho tiempo aprendiendo grandes teorías de muestra. Estamos profundamente interesados en evaluar las propiedades asintóticas de nuestros estimadores, incluso si son asintóticamente insesgadas, asintóticamente eficientes, su …

13 sample asymptotics

1

LARS vs descenso coordinado para el lazo

¿Cuáles son los pros y los contras de usar LARS [1] versus usar el descenso coordinado para ajustar la regresión lineal regularizada por L1? Estoy principalmente interesado en los aspectos de rendimiento (mis problemas tienden a tener Ncientos de miles y p<20). Sin embargo, cualquier otra información también sería apreciada. …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

¿Cuál es la diferencia entre variable aleatoria y muestra aleatoria?

Estas dos expresiones me confundieron mucho cuando estaba aprendiendo estadísticas. Me parece que son cosas totalmente diferentes. Una muestra aleatoria es tomar una muestra aleatoria de una población, mientras que una variable aleatoria es como una función que asigna el conjunto de todos los resultados posibles de un experimento a …

13 mathematical-statistics random-variable terminology sample

2

¿Las competiciones de Kaggle se ganan por casualidad?

Las competiciones de Kaggle determinan las clasificaciones finales en función de un conjunto de pruebas extendido. Un conjunto de prueba extendido es una muestra; puede no ser representativo de la población que se está modelando. Dado que cada presentación es como una hipótesis, el algoritmo que ganó la competencia puede, …

12 machine-learning probability hypothesis-testing sample kaggle

Preguntas etiquetadas con sample