Preguntas etiquetadas con categorical-data

Los datos categóricos (también llamados nominales) pueden tomar un número limitado de valores posibles llamados categorías. Los valores categóricos "etiquetan", no "miden". Utilice la etiqueta [ordinal-data] para tipos de datos discretos pero ordenados.


3
Centrar y escalar variables ficticias
Tengo un conjunto de datos que contiene variables categóricas y variables continuas. Se me aconsejó transformar las variables categóricas como variables binarias para cada nivel (es decir, A_level1: {0,1}, A_level2: {0,1}). Creo que algunos han llamado a esto "variables ficticias". Dicho esto, ¿sería engañoso centrar y escalar todo el conjunto …







1
Regresión logística ordinal en Python
Me gustaría ejecutar una regresión logística ordinal en Python, para una variable de respuesta con tres niveles y con algunos factores explicativos. El statsmodelspaquete admite modelos logit binarios y logit multinomiales (MNLogit), pero no logit ordenado. Dado que la matemática subyacente no es tan diferente, me pregunto si se puede …


5
¿Cómo realizar la imputación de valores en una gran cantidad de puntos de datos?
Tengo un conjunto de datos muy grande y faltan alrededor del 5% de valores aleatorios. Estas variables están correlacionadas entre sí. El siguiente conjunto de datos R de ejemplo es solo un ejemplo de juguete con datos correlacionados ficticios. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Inversión de bayas
Tengo un gran conjunto de datos de mercado agregado sobre las ventas de vino en los EE. UU. Y me gustaría estimar la demanda de ciertos vinos de alta calidad. Estas cuotas de mercado se derivaron básicamente de un modelo de utilidad aleatorio de la forma , donde incluye las …

3
¿El procedimiento de efectos fijos de Mundlak es aplicable para la regresión logística con maniquíes?
Tengo un conjunto de datos con 8000 clústeres y 4 millones de observaciones. Desafortunadamente, mi software estadístico, Stata, funciona bastante lento cuando uso su función de datos de panel para la regresión logística: xtlogitincluso con una submuestra del 10%. Sin embargo, cuando se utiliza la logitfunción no panel , los …

1


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.