Estadísticas y Big Data categorical-data

2

¿Cuál es la justificación para la discretización no supervisada de variables continuas?

Varias fuentes sugieren que hay muchas consecuencias negativas de la discretización (categorización) de variables continuas antes del análisis estadístico (muestra de referencias [1] - [4] a continuación). Por el contrario [5] sugiere que se sabe que algunas técnicas de aprendizaje automático producen mejores resultados cuando las variables continuas se discretizan …

8 machine-learning generalized-linear-model categorical-data binning

2

Agrupación de datos que tiene una mezcla de variables continuas y categóricas

Tengo datos que representan algún aspecto del comportamiento humano. Quiero agruparlo (sin supervisión) en perfiles de comportamiento de algún tipo. ahora, algunas de mis variables son categóricas (con 2 o más categorías), y algunas son continuas (la mayoría son porcentajes). Algunas variables son aún más complejas en que una categoría …

8 r clustering categorical-data continuous-data

2

Normalización de variables ficticias.

Mis datos consisten en varias mediciones continuas y algunas variables ficticias que representan los años en que se realizaron las mediciones. Ahora, quiero aprender una red neuronal con los datos. Por lo tanto, estoy normalizando zScore todas las variables, incluidas las variables ficticias. Sin embargo, me pregunto si este es …

8 categorical-data normalization

2

¿Por qué un modelo estadístico se sobreajusta si se le da un gran conjunto de datos?

Mi proyecto actual puede requerir que construya un modelo para predecir el comportamiento de un determinado grupo de personas. el conjunto de datos de entrenamiento contiene solo 6 variables (la identificación es solo para fines de identificación): id, age, income, gender, job category, monthly spend en el cual monthly spendestá …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

Predicción variable de respuesta categórica

Tengo el siguiente tipo de datos (codificados en R): v.a = c('cat', 'dog', 'dog', 'goat', 'cat', 'goat', 'dog', 'dog') v.b = c(1, 2, 1, 2, 1, 2, 1, 2) v.c = c('blue', 'red', 'blue', 'red', 'red', 'blue', 'yellow', 'yellow') set.seed(12) v.d = rnorm(8) aov(v.a ~ v.b + v.c + v.d) …

8 r logistic anova categorical-data multinomial

2

Agrupar variables categóricas en glmnet

Considere el siguiente ajuste: fit3a=glmnet(x,g4,family="multinomial",type.multinomial="grouped") ¿Cómo indico qué columnas xson categóricas / multinomiales? ¿Existe una opción para especificar el índice de las variables agrupadas? La documentación describe la opción de la type.multinomialsiguiente manera: Si está "agrupado", se utiliza una penalización de lazo agrupada en los coeficientes multinomiales para una variable. …

8 categorical-data glmnet

1

Codificación ficticia para contrastes: 0,1 frente a 1, -1

Estoy buscando su ayuda para comprender la diferencia entre dos contrastes diferentes para variables dicotómicas. En esta página: http://www.psychstat.missouristate.edu/multibook/mlt08.htm bajo "Variables de predictores dicotómicos", hay dos formas de codificar predictores dicotómicos: usando el contraste 0,1 o el contraste 1, -1 . Comprendo la distinción aquí (0,1 es una codificación ficticia …

8 multiple-regression categorical-data categorical-encoding

3

¿Cómo puedo probar la misma variable categórica en dos poblaciones?

Tengo datos que se parecen un poco a esto: ID Status 01 A 02 G 03 E ... ... 100 G Entiendes la idea, creo. Tengo estos datos de dos poblaciones separadas (cohortes) y quiero comparar la distribución de la variable de estado en una población con la distribución en …

8 r hypothesis-testing categorical-data chi-squared

4

R: Cálculo de la media y el error estándar de la media para factores con lm () versus cálculo directo editado

Cuando se trata de datos con factores, R puede usarse para calcular las medias para cada grupo con la función lm (). Esto también proporciona los errores estándar para las medias estimadas. Pero este error estándar difiere de lo que obtengo de un cálculo a mano. Aquí hay un ejemplo …

8 r categorical-data mean lm

3

Prueba post hoc en un ANOVA de diseño mixto 2x3 con SPSS?

Tengo dos grupos de 10 participantes que fueron evaluados tres veces durante un experimento. Para probar las diferencias entre los grupos y entre las tres evaluaciones, ejecuté un ANOVA de diseño mixto 2x3 con group(control, experimental), time(primero, segundo, tres) y group x time. Ambos timey groupresultaron significativos, además hubo una …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

Preguntas etiquetadas con categorical-data