Estadísticas y Big Data dataset

5

Cómo lidiar con datos jerárquicos / anidados en el aprendizaje automático

Explicaré mi problema con un ejemplo. Suponga que desea predecir el ingreso de un individuo dados algunos atributos: {Edad, Sexo, País, Región, Ciudad}. Tienes un conjunto de datos de entrenamiento como este train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

2

¿Qué aspectos del conjunto de datos "Iris" lo hacen tan exitoso como un conjunto de datos de ejemplo / enseñanza / prueba

El conjunto de datos "Iris" es probablemente familiar para la mayoría de las personas aquí: es uno de los conjuntos de datos de prueba canónicos y un conjunto de datos de ejemplo para todo, desde la visualización de datos hasta el aprendizaje automático. Por ejemplo, todos en esta pregunta terminaron …

28 dataset

1

Calcular la repetibilidad de los efectos de un modelo más antiguo

Acabo de encontrar este artículo , que describe cómo calcular la repetibilidad (también conocida como confiabilidad, también conocida como correlación intraclase) de una medición a través del modelado de efectos mixtos. El código R sería: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

¿Pueden los grados de libertad ser un número no entero?

Cuando uso GAM, me da un DF residual de 26.626.626.6 (última línea en el código). Qué significa eso? Yendo más allá del ejemplo de GAM, en general, ¿puede el número de grados de libertad ser un número no entero? > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

9

¿Qué hacen los estadísticos que no se pueden automatizar?

¿El software eventualmente hará que los estadísticos sean obsoletos? ¿Qué se hace que no se puede programar en una computadora?

26 machine-learning dataset careers

4

Como revisor, ¿puedo justificar que los datos y el código estén disponibles incluso si la revista no lo hace?

Como la ciencia debe ser reproducible, por definición, existe un reconocimiento cada vez mayor de que los datos y el código son un componente esencial de la reproducción, como se discutió en la Mesa Redonda de Yale para compartir datos y códigos . Al revisar un manuscrito para una revista …

23 dataset validation reproducible-research journals

2

¿Técnicas de aumento de datos para conjuntos de datos generales?

En muchas aplicaciones de aprendizaje automático, los llamados métodos de aumento de datos han permitido construir mejores modelos. Por ejemplo, suponga un conjunto de entrenamiento de100100100 imágenes de gatos y perros. Al girar, reflejar, ajustar el contraste, etc., es posible generar imágenes adicionales a partir de las originales. En el …

21 machine-learning predictive-models dataset independence data-augmentation

4

¿Cómo proyectar un nuevo vector en el espacio PCA?

Después de realizar el análisis de componentes principales (PCA), quiero proyectar un nuevo vector en el espacio PCA (es decir, encontrar sus coordenadas en el sistema de coordenadas PCA). He calculado PCA en lenguaje R usando prcomp. Ahora debería poder multiplicar mi vector por la matriz de rotación PCA. ¿Deben …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

9

Overfitting y Underfitting

He realizado algunas investigaciones sobre el sobreajuste y la falta de adaptación, y he entendido cuáles son exactamente, pero no puedo encontrar los motivos. ¿Cuáles son las principales razones para el sobreajuste y la falta de adaptación? ¿Por qué enfrentamos estos dos problemas al entrenar un modelo?

20 machine-learning dataset overfitting

1

Diferencia entre datos faltantes y datos dispersos en algoritmos de aprendizaje automático

¿Cuáles son las principales diferencias entre los datos dispersos y los datos faltantes? ¿Y cómo influye en el aprendizaje automático? Más específicamente, qué efecto tienen los datos dispersos y los datos faltantes en los algoritmos de clasificación y el tipo de algoritmos de regresión (números de predicción). Estoy hablando de …

20 machine-learning dataset missing-data sparse

1

Supervisión distante: supervisada, semi-supervisada, o ambas?

La "supervisión distante" es un esquema de aprendizaje en el que se aprende un clasificador dado un conjunto de entrenamiento débilmente etiquetado (los datos de entrenamiento se etiquetan automáticamente según la heurística / reglas). Creo que tanto el aprendizaje supervisado como el aprendizaje semi-supervisado pueden incluir tal "supervisión distante" si …

20 machine-learning data-mining dataset references unsupervised-learning

5

¿Cuáles son algunos buenos conjuntos de datos para aprender algoritmos básicos de aprendizaje automático y por qué?

Soy nuevo en el aprendizaje automático y busco algunos conjuntos de datos a través de los cuales puedo comparar y contrastar las diferencias entre los diferentes algoritmos de aprendizaje automático (árboles de decisión, refuerzo, SVM y redes neuronales) ¿Dónde puedo encontrar dichos conjuntos de datos? ¿Qué debería estar buscando al …

19 machine-learning dataset

4

Se necesita un buen ejemplo de datos con covariables afectadas por tratamientos

He analizado muchos conjuntos de datos R, publicaciones en DASL y en otros lugares, y no encuentro muchos buenos ejemplos de conjuntos de datos interesantes que ilustren el análisis de covarianza para datos experimentales. Existen numerosos conjuntos de datos "de juguete" con datos artificiales en los libros de texto de …

19 dataset ancova predictor

2

Pautas de garantía de calidad y control de calidad (QA / QC) para una base de datos

Antecedentes Estoy supervisando la entrada de datos de la literatura primaria en una base de datos . El proceso de ingreso de datos es propenso a errores, particularmente porque los usuarios deben interpretar el diseño experimental, extraer datos de gráficos y tablas y transformar los resultados en unidades estandarizadas. Los …

18 dataset meta-analysis quality-control database

10

Conjuntos de datos de redes sociales

Bloqueado . Esta pregunta y sus respuestas están bloqueadas porque la pregunta está fuera de tema pero tiene un significado histórico. Actualmente no acepta nuevas respuestas o interacciones. Estoy buscando conjuntos de datos de redes sociales (twitter, friendfeed, facebook, lastfm, etc.) para tareas de clasificación, preferiblemente en formato arff. Mis …

18 classification dataset

Preguntas etiquetadas con dataset