Estadísticas y Big Data algorithms

7

Encuentra pares cercanos en un espacio dimensional muy alto con vectores dispersos

Tengo NNN (~ un millón) vectores de características. Hay MMM (~ un millón) características binarias, pero en cada vector solo KKK (~ mil) de ellas serían 111 , el resto son 000 . Estoy buscando los pares de vectores que tienen al menos LLL (~ cien) características en común ( …

9 algorithms high-dimensional

4

Cómo muestrear cuando no conoces la distribución

Soy bastante nuevo en estadísticas (un puñado de cursos Uni de nivel principiante) y me preguntaba sobre el muestreo de distribuciones desconocidas. Específicamente, si no tiene idea de la distribución subyacente, ¿hay alguna forma de "garantizar" que obtenga una muestra representativa? Ejemplo para ilustrar: digamos que está tratando de descubrir …

9 distributions estimation sampling sample-size algorithms

3

Algoritmo Apriori en inglés simple?

Leí un artículo wiki sobre Apriori. Tengo el problema de entender la ciruela y el paso Join. ¿Alguien puede explicarme cómo funciona el algoritmo Apriori en términos simples (de modo que un principiante como yo pueda entenderlo fácilmente)? Será bueno si alguien explica el proceso paso a paso involucrado en …

9 data-mining algorithms frequentist

3

Ciclismo en algoritmo k-means

Según wiki, el criterio de convergencia más utilizado es "la asignación no ha cambiado". Me preguntaba si el ciclismo puede ocurrir si usamos ese criterio de convergencia. Me agradaría si alguien señalara una referencia a un artículo que dé un ejemplo de ciclismo o pruebe que esto es imposible.

9 clustering algorithms k-means

3

Agrupación de espacio eficiente

La mayoría de los algoritmos de agrupación que he visto comienzan con la creación de una distancia de cada uno entre cada punto, lo que se vuelve problemático en conjuntos de datos más grandes. ¿Hay alguno que no lo haga? ¿O lo hace en algún tipo de enfoque parcial / …

9 clustering algorithms large-data

2

Forzar un conjunto de números a una curva de campana gaussiana

( Esto se relaciona con mi pregunta de programación sobre Stack Overflow : Algoritmo gaussiano de curva de campana (Python y / o C #)) . En Answers.com, encontré este simple ejemplo: Encuentre la media aritmética (promedio) => Suma de todos los valores en el conjunto, dividido por el número …

9 algorithms normal-distribution

2

Calcular curva ROC para datos

Entonces, tengo 16 ensayos en los que estoy tratando de autenticar a una persona de un rasgo biométrico usando Hamming Distance. Mi umbral está establecido en 3.5. Mis datos están a continuación y solo la prueba 1 es un verdadero positivo: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

4

FA: Elección de la matriz de rotación, basada en "Criterios de estructura simple"

Una de las cuestiones más importantes al usar el análisis factorial es su interpretación. El análisis factorial a menudo usa la rotación de factores para mejorar su interpretación. Después de una rotación satisfactoria, el factor de carga girada matriz L' tendrá la misma capacidad para representar la matriz de correlación …

8 r algorithms factor-analysis psychometrics matlab

1

Diferencia entre recocido simulado y codicioso múltiple

Estoy tratando de entender cuál es la diferencia entre el recocido simulado y la ejecución de múltiples algoritmos codiciosos de escalada. Según tengo entendido, el algoritmo codicioso llevará la puntuación a un máximo local, pero si comenzamos con múltiples configuraciones aleatorias y aplicamos codicioso a todos ellos, tendremos múltiples máximos …

8 machine-learning optimization algorithms

2

Condiciones de convergencia de algoritmos de iteración de políticas y valores

Los algoritmos de iteración de políticas y valores se pueden usar para resolver los problemas del proceso de decisión de Markov. Me cuesta entender las condiciones necesarias para la convergencia. Si la política óptima no cambia durante dos pasos (es decir, durante las iteraciones i e i + 1 ), …

8 algorithms markov-process convergence

3

Cómo realizar SVD para imputar valores perdidos, un ejemplo concreto

He leído los excelentes comentarios sobre cómo lidiar con los valores perdidos antes de aplicar SVD, pero me gustaría saber cómo funciona con un ejemplo simple: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Dada la matriz anterior, …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

2

¿Por qué un modelo estadístico se sobreajusta si se le da un gran conjunto de datos?

Mi proyecto actual puede requerir que construya un modelo para predecir el comportamiento de un determinado grupo de personas. el conjunto de datos de entrenamiento contiene solo 6 variables (la identificación es solo para fines de identificación): id, age, income, gender, job category, monthly spend en el cual monthly spendestá …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

¿Una forma más sencilla de calcular la media móvil ponderada exponencialmente?

Método propuesto: Dada una serie temporal , quiero calcular un promedio móvil ponderado con una ventana de promedio de puntos, donde las ponderaciones favorecen valores más recientes sobre valores más antiguos.xixix_iNNN Al elegir los pesos, estoy usando el hecho familiar de que una serie geométrica converge a 1, es decir, …

8 time-series forecasting algorithms weighted-mean

2

Literatura sobre el algoritmo para la división óptima en el cultivo de árboles de clasificación.

En ESL , Sección 9.7, hay un párrafo que establece que el tiempo de cálculo de una división en el crecimiento de un árbol de clasificación (o regresión) generalmente se escala como donde es el número de predictores y es el número de muestraspNlogNpNlog⁡Np N \log NpppNNN Un enfoque ingenuo …

8 algorithms cart

Preguntas etiquetadas con algorithms