Estadísticas y Big Data dimensionality-reduction

1

HMC: ¿Cuántas dimensiones son demasiadas?

Por lo que he leído, Hamiltonian Monte Carlo es el MCMCmétodo "goto" cuando su problema es de alta dimensión. Hablando en términos prácticos, ¿cuántas dimensiones 10's, 100's, 1,000's, 10,000's, 100,000's, ..., son demasiadas? Sin duda, el costo computacional se convertirá en un problema y supongo que es importante considerar el …

9 autocorrelation mcmc monte-carlo dimensionality-reduction

3

¿Cómo visualizar la verdadera dimensionalidad de los datos?

Tengo un conjunto de datos nominalmente de 16 dimensiones. Tengo alrededor de 100 muestras en un caso y alrededor de 20,000 en otro. Basado en varios análisis exploratorios que realicé utilizando PCA y mapas de calor, estoy convencido de que la verdadera dimensionalidad (es decir, el número de dimensiones necesarias …

8 data-visualization pca dimensionality-reduction

1

Codificación de características categóricas de alta cardinalidad (muchas categorías) cuando las características difieren mucho de la cardinalidad

He estado buscando preguntas sobre la codificación de características categóricas, pero no pude encontrar ninguna que discuta mi problema. Disculpas si me lo perdí. Digamos que tenemos un conjunto de datos con variables binarias y nominales de aproximadamente igual importancia cada una. La mayoría de los clasificadores no pueden ocuparse …

8 classification categorical-data dimensionality-reduction feature-construction many-categories

3

Cómo realizar SVD para imputar valores perdidos, un ejemplo concreto

He leído los excelentes comentarios sobre cómo lidiar con los valores perdidos antes de aplicar SVD, pero me gustaría saber cómo funciona con un ejemplo simple: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Dada la matriz anterior, …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

2

Una persona selecciona repetidamente los dos elementos más similares de los tres. ¿Cómo modelar / estimar una distancia perceptiva entre los artículos?

A una persona se le dan tres elementos, dicen fotos de caras, y se le pide que elija cuáles de las tres caras son las más similares. Esto se repite una gran cantidad de veces con diferentes combinaciones de caras, donde cada cara puede ocurrir en muchas combinaciones. Dado este …

8 modeling dimensionality-reduction psychometrics similarities

1

Análisis discriminante lineal y datos no distribuidos normalmente

Si entiendo correctamente, un análisis discriminante lineal (LDA) asume datos distribuidos normales, características independientes y covarianzas idénticas para cada clase para el criterio de optimización. Dado que la media y la varianza se estiman a partir de los datos de entrenamiento, ¿no es ya una violación? Encontré una cita en …

8 dimensionality-reduction normality-assumption discriminant-analysis

1

¿Cuándo es apropiado usar PCA como paso de preprocesamiento?

Entiendo que PCA se usa para la reducción de dimensionalidad para poder trazar conjuntos de datos en 2D o 3D. Pero también he visto personas que aplican PCA como un paso de preprocesamiento en escenarios de clasificación donde aplican PCA para reducir el número de características, luego usan algunos Componentes …

8 machine-learning pca data-mining dimensionality-reduction

2

Uso de mapas autoorganizados para reducir la dimensionalidad

En los últimos días, he estado realizando algunas investigaciones sobre mapas autoorganizados para un proyecto en la escuela. He llegado a comprender que los mapas autoorganizados se pueden utilizar para reducir la dimensionalidad de sus datos. Sin embargo, no entiendo cómo funciona esto. Por ejemplo, supongamos que tiene una red …

8 data-transformation dimensionality-reduction self-organizing-maps

3

Reducción de dimensionalidad en serie para clasificación Entrada

Estoy buscando construir un modelo predictivo donde la variable de resultado sea binaria y la entrada sea una serie de tiempo. Para hacerlo más concreto, el modelo predecirá si un cliente abandona (dejó la empresa; codificado como 1 o 0) en función de la cantidad que gastó con la empresa …

8 data-mining data-transformation dimensionality-reduction signal-processing

3

Prueba post hoc en un ANOVA de diseño mixto 2x3 con SPSS?

Tengo dos grupos de 10 participantes que fueron evaluados tres veces durante un experimento. Para probar las diferencias entre los grupos y entre las tres evaluaciones, ejecuté un ANOVA de diseño mixto 2x3 con group(control, experimental), time(primero, segundo, tres) y group x time. Ambos timey groupresultaron significativos, además hubo una …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

4

valor de p como una distancia?

¿Se pueden considerar los valores de p entre múltiples pruebas en pares como una medida de similitud / distancia y aplicar una escala multidimensional sobre una matriz de valores de p en pares para reducir la dimensionalidad? Esta es una pregunta suave, pero ¿cuál sería el mayor problema aquí y …

8 multivariate-analysis p-value dimensionality-reduction

3

Técnicas de reducción de dimensiones para muestras muy pequeñas.

Tengo 21 variables socioeconómicas y de nivel macro de actitud (como el porcentaje de madres de 24 a 54 años sin empleo, el porcentaje de niños de 3 a 5 años en guarderías, etc.). También tengo datos sobre las proporciones de abuelos que proporcionaron cuidado intensivo de niños. La mayoría …

8 pca factor-analysis dimensionality-reduction small-sample correspondence-analysis

5

¿Técnica de reducción de dimensionalidad para maximizar la separación de grupos conocidos?

Digamos que tengo un montón de puntos de datos en R ^ n, donde n es bastante grande (como 50). Sé que estos datos se dividen en 3 grupos, y sé de qué grupo forma parte cada punto de datos. Todo lo que quiero hacer es visualizar estos grupos en …

8 clustering pca dimensionality-reduction data-visualization

Preguntas etiquetadas con dimensionality-reduction