Preguntas etiquetadas con classification

La clasificación estadística es el problema de identificar la subpoblación a la que pertenecen las nuevas observaciones, donde se desconoce la identidad de la subpoblación, sobre la base de un conjunto de entrenamiento de datos que contienen observaciones cuya subpoblación es conocida. Por lo tanto, estas clasificaciones mostrarán un comportamiento variable que puede ser estudiado por las estadísticas.

1
Definición de regresión
De Wikipedia: En el modelado estadístico, el análisis de regresión es un proceso estadístico para estimar las relaciones entre variables. Incluye muchas técnicas para modelar y analizar varias variables, cuando el foco está en la relación entre una variable dependiente y una o más variables independientes (o 'predictores'). ¿No es …

3
Cómo realizar SVD para imputar valores perdidos, un ejemplo concreto
He leído los excelentes comentarios sobre cómo lidiar con los valores perdidos antes de aplicar SVD, pero me gustaría saber cómo funciona con un ejemplo simple: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Dada la matriz anterior, …
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
CARRITO: ¿Selección del mejor predictor para dividir cuando las ganancias en la disminución de impurezas son iguales?
Mi pregunta trata sobre los árboles de clasificación . Considere el siguiente ejemplo del conjunto de datos de Iris: Quiero seleccionar manualmente el mejor predictor para la primera división. Según el algoritmo CART, la mejor característica para hacer una división es la que maximiza la disminución de la impureza de …



1
Usar la regla de puntuación adecuada para determinar la pertenencia a la clase a partir de la regresión logística
Estoy usando la regresión logística para predecir la probabilidad de que ocurra un evento. En última instancia, estas probabilidades se colocan en un entorno de producción, donde nos enfocamos lo más posible en alcanzar nuestras predicciones de "Sí". Por lo tanto, es útil para nosotros tener una idea de qué …



2
¿Por qué un modelo estadístico se sobreajusta si se le da un gran conjunto de datos?
Mi proyecto actual puede requerir que construya un modelo para predecir el comportamiento de un determinado grupo de personas. el conjunto de datos de entrenamiento contiene solo 6 variables (la identificación es solo para fines de identificación): id, age, income, gender, job category, monthly spend en el cual monthly spendestá …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

3
¿Cómo realizar una clasificación de bosque aleatorio sin supervisión utilizando el código de Breiman?
Estoy trabajando con el código forestal aleatorio de Breiman ( http://stat-www.berkeley.edu/users/breiman/RandomForests/cc_manual.htm#c2 ) para la clasificación de datos satelitales (aprendizaje supervisado). Estoy usando un conjunto de datos de entrenamiento y prueba que tiene un tamaño de muestra de 2000 y un tamaño variable 10. Los datos se clasifican en dos clases, …

1
Distancia de Mahalanobis en datos no normales
La distancia de Mahalanobis, cuando se usa con fines de clasificación, generalmente asume una distribución normal multivariada, y las distancias desde el centroide deberían seguir un χ2χ2\chi^2distribución (con grados de libertad igual al número de dimensiones / características). Podemos calcular la probabilidad de que un nuevo punto de datos pertenezca …


3
Detectar grupos en una secuencia binaria
Tengo una secuencia binaria como 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Donde los grupos de la mayoría de los 1 son seguidos por un mayor número de ceros, como en la imagen a continuación (el negro representa 1): Me gustaría aplicar una técnica (preferiblemente en R o en Python) donde pueda detectar automáticamente estos grupos …


3
Análogos de sensibilidad y especificidad para resultados continuos
¿Cómo puedo calcular la sensibilidad y la especificidad (o medidas análogas) de una prueba de diagnóstico continuo para predecir un resultado continuo (por ejemplo, presión arterial) sin dicotomizar el resultado? ¿Algunas ideas? Parece que los investigadores han hecho esto usando modelos de efectos mixtos (ver enlace a continuación), pero no …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.