Preguntas etiquetadas con dimensionality-reduction

Se refiere a técnicas para reducir un gran número de variables o dimensiones abarcadas por los datos a un menor número de dimensiones, mientras se conserva la mayor cantidad de información posible sobre los datos. Los métodos más destacados incluyen PCA, MDS, Isomap, etc. Las dos principales subclases de técnicas: extracción de características y selección de características.


1
¿Cómo revertir PCA y reconstruir variables originales de varios componentes principales?
El análisis de componentes principales (PCA) se puede utilizar para reducir la dimensionalidad. Después de realizar tal reducción de dimensionalidad, ¿cómo se puede reconstruir aproximadamente las variables / características originales a partir de un pequeño número de componentes principales? Alternativamente, ¿cómo se pueden eliminar o descartar varios componentes principales de …


4
PCA y proporción de varianza explicada
En general, ¿qué significa decir que la fracción de la varianza en un análisis como PCA se explica por el primer componente principal? ¿Alguien puede explicar esto intuitivamente pero también dar una definición matemática precisa de lo que significa "varianza explicada" en términos de análisis de componentes principales (PCA)?XXx Para …

2
¿Cuál es la diferencia entre el blanqueamiento ZCA y el blanqueamiento PCA?
Estoy confundido sobre el blanqueamiento de ZCA y el blanqueamiento normal (que se obtiene dividiendo los componentes principales por las raíces cuadradas de los valores propios de PCA). Por lo que sé, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite}, donde son vectores propios de PCA.UU\mathbf U ¿Cuáles son los usos …

6
¿Forma de principios de colapsar variables categóricas con muchos niveles?
¿Qué técnicas están disponibles para contraer (o agrupar) muchas categorías a unas pocas, con el fin de usarlas como entrada (predictor) en un modelo estadístico? Considere una variable como estudiante universitario mayor (disciplina elegida por un estudiante universitario). Es desordenada y categórica, pero puede tener docenas de niveles distintos. Digamos …


2
¿Cuándo es t-SNE engañoso?
Cita de uno de los autores: La incrustación de vecinos estocásticos distribuidos en t (t-SNE) es una técnica ( premiada ) para la reducción de la dimensionalidad que es particularmente adecuada para la visualización de conjuntos de datos de alta dimensión. Entonces suena bastante bien, pero ese es el autor …


1
¿Cuál es la razón intuitiva detrás de hacer rotaciones en Factor Analysis / PCA y cómo seleccionar la rotación adecuada?
Mis preguntas ¿Cuál es la razón intuitiva detrás de hacer rotaciones de factores en el análisis factorial (o componentes en PCA)? Según tengo entendido, si las variables se cargan casi por igual en los componentes (o factores) superiores, entonces obviamente es difícil diferenciar los componentes. Entonces, en este caso, se …


1
Reducción de dimensionalidad (SVD o PCA) en una matriz grande y dispersa
/ edit: Seguimiento adicional ahora puedes usar irlba :: prcomp_irlba / edit: siguiendo mi propio post. irlbaahora tiene argumentos de "centro" y "escala", que le permiten usarlo para calcular componentes principales, por ejemplo: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v Tengo una gran variedad Matrixde características que me …

5
Cómo lidiar con datos jerárquicos / anidados en el aprendizaje automático
Explicaré mi problema con un ejemplo. Suponga que desea predecir el ingreso de un individuo dados algunos atributos: {Edad, Sexo, País, Región, Ciudad}. Tienes un conjunto de datos de entrenamiento como este train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 


2
¿Por qué el Lik scikit-learn de Python no funciona correctamente y cómo calcula LDA a través de SVD?
Estaba utilizando el Análisis discriminante lineal (LDA) de la scikit-learnbiblioteca de aprendizaje automático (Python) para la reducción de la dimensionalidad y tenía un poco de curiosidad por los resultados. Ahora me pregunto qué scikit-learnestá haciendo la LDA para que los resultados se vean diferentes de, por ejemplo, un enfoque manual …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.