Preguntas etiquetadas con many-categories

Variables categóricas con gran número de niveles y métodos estadísticos para trabajar con tales variables (ejemplo: lazo fusionado).

6
¿Forma de principios de colapsar variables categóricas con muchos niveles?
¿Qué técnicas están disponibles para contraer (o agrupar) muchas categorías a unas pocas, con el fin de usarlas como entrada (predictor) en un modelo estadístico? Considere una variable como estudiante universitario mayor (disciplina elegida por un estudiante universitario). Es desordenada y categórica, pero puede tener docenas de niveles distintos. Digamos …

6
Mejora la clasificación con muchas variables categóricas
Estoy trabajando en un conjunto de datos con más de 200,000 muestras y aproximadamente 50 características por muestra: 10 variables continuas y las otras ~ 40 son variables categóricas (países, idiomas, campos científicos, etc.). Para estas variables categóricas, tiene por ejemplo 150 países diferentes, 50 idiomas, 50 campos científicos, etc. …

6
Problemas con gráficos circulares
Parece haber una creciente discusión sobre los gráficos circulares. Los principales argumentos en contra parecen ser: El área se percibe con menos potencia que la longitud. Los gráficos circulares tienen una relación muy baja de punto de datos a píxeles Sin embargo, creo que pueden ser de alguna manera útiles …



4
La precisión de la máquina de aumento de gradiente disminuye a medida que aumenta el número de iteraciones
Estoy experimentando con el algoritmo de la máquina de aumento de gradiente a través del caretpaquete en R. Usando un pequeño conjunto de datos de admisión a la universidad, ejecuté el siguiente código: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
Efecto fijo versus efecto aleatorio cuando se incluyen todas las posibilidades en un modelo de efectos mixtos
En un modelo de efectos mixtos, la recomendación es utilizar un efecto fijo para estimar un parámetro si se incluyen todos los niveles posibles (p. Ej., Hombres y mujeres). Se recomienda además utilizar un efecto aleatorio para tener en cuenta una variable si los niveles incluidos son solo una muestra …



1





1
Codificación de características categóricas de alta cardinalidad (muchas categorías) cuando las características difieren mucho de la cardinalidad
He estado buscando preguntas sobre la codificación de características categóricas, pero no pude encontrar ninguna que discuta mi problema. Disculpas si me lo perdí. Digamos que tenemos un conjunto de datos con variables binarias y nominales de aproximadamente igual importancia cada una. La mayoría de los clasificadores no pueden ocuparse …
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.