Estadísticas y Big Data optimization

2

Prueba de que los modelos CRF y los modelos logísticos son funciones convexas

¿Dónde puedo encontrar una buena prueba de que los modelos basados en CRF y los modelos basados en regresión logística son convexos? ¿Hay algún truco general para probar / probar que un modelo o función objetivo es convexo?

8 logistic optimization

1

Optimización bayesiana para ruido no gaussiano

Una función de caja negra F:Rnorte→ RF:Rnorte→Rf: \mathbb{R}^n \rightarrow \mathbb{R}, que se evalúa puntualmente sujeto al ruido gaussiano, es decir, F( x ) + N( μ ( x ) , σ( x)2)F(X)+norte(μ(X),σ(X)2)f(x) + \mathcal{N}(\mu(x),\sigma(x)^2), puede minimizarse utilizando la optimización bayesiana donde se utiliza un proceso gaussiano como modelo de función …

8 bayesian optimization bayesian-optimization

1

Diferencia entre recocido simulado y codicioso múltiple

Estoy tratando de entender cuál es la diferencia entre el recocido simulado y la ejecución de múltiples algoritmos codiciosos de escalada. Según tengo entendido, el algoritmo codicioso llevará la puntuación a un máximo local, pero si comenzamos con múltiples configuraciones aleatorias y aplicamos codicioso a todos ellos, tendremos múltiples máximos …

8 machine-learning optimization algorithms

1

¿Cómo obtener hiperparámetros óptimos después de la validación cruzada anidada?

En general, si tenemos un gran conjunto de datos, podemos dividirlo en (1) capacitación, (2) validación y (3) prueba. Utilizamos la validación para identificar los mejores hiperparámetros en la validación cruzada (por ejemplo, C en SVM) y luego entrenamos el modelo usando los mejores hiperparámetros con el conjunto de entrenamiento …

8 machine-learning cross-validation scikit-learn hyperparameter optimization

3

Cómo realizar SVD para imputar valores perdidos, un ejemplo concreto

He leído los excelentes comentarios sobre cómo lidiar con los valores perdidos antes de aplicar SVD, pero me gustaría saber cómo funciona con un ejemplo simple: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Dada la matriz anterior, …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

1

¿Cuál es la diferencia entre la optimización bayesiana (procesos gaussianos) y el recocido simulado en la práctica

Parece que ambos procesos se usan para estimar el valor máximo de una función desconocida, y ambos obviamente tienen diferentes formas de hacerlo. Pero en la práctica, ¿cualquier método es esencialmente intercambiable? ¿Dónde me gustaría usar uno sobre el otro? https://en.wikipedia.org/wiki/Simulated_annealing http://www.iro.umontreal.ca/~bengioy/cifar/NCAP2014-summerschool/slides/Ryan_adams_140814_bayesopt_ncap.pdf Pregunta similar ¿ Optimización bayesiana o pendiente de …

8 optimization maximum bayesian-optimization

1

detalle de implementación práctica de la optimización bayesiana

Estoy probando la optimización bayesiana, siguiendo a Snoek, Larochelle y Adams [ http://arxiv.org/pdf/1206.2944.pdf] , usando GPML [ http://www.gaussianprocess.org/gpml/code/matlab / doc /] . Implementé la función de adquisición Mejora esperada que se describe en la página 3, y supongo que estoy en lo correcto al decidir dónde consultar mi objetivo, debo …

8 gaussian-process optimization bayesian-optimization

2

¿Por qué agregar la penalización L1 a la optimización de R ralentiza tanto las cosas (en relación con ninguna penalización o L2)?

Estoy ejecutando algunas optimizaciones con la implementación de BFGS de optim. La función objetivo es en realidad un algoritmo computacional, no solo matemático. Descubrí que cuando agrego una penalización L1, las cosas se ralentizan bastante. ¿Por qué podría ser esto? ¿Hay algo en L1 que ralentiza las cosas? Entonces, ¿cómo …

8 r optimization lasso

1

Regularización y proyección sobre la bola

Estoy tratando de entender cómo funciona la regularización en términos de proyecciones en una bola , y la proyección euclidiana en el simplex.l∗l∗l_* No estoy seguro de entender lo que queremos decir cuando proyectamos el vector de peso en las o .l1l1l_1l2l2l_2 Puedo entender el concepto de programa de regularización …

8 optimization regularization projection

2

¿Por qué hay una E en el algoritmo de nombre EM?

Entiendo dónde ocurre el paso E en el algoritmo (como se explica en la sección matemática a continuación). En mi opinión, el ingenio clave del algoritmo es el uso de la desigualdad de Jensen para crear un límite inferior a la probabilidad logarítmica. En ese sentido, tomar Expectationsimplemente se hace …

8 maximum-likelihood optimization expectation-maximization latent-variable kullback-leibler

2

Ancho óptimo del contenedor para histograma bidimensional

Hay muchas reglas para seleccionar un ancho de contenedor óptimo en un histograma 1D (ver por ejemplo ) Estoy buscando una regla que aplique la selección de anchos óptimos de bin igual en histogramas bidimensionales . ¿Existe tal regla? Quizás una de las reglas bien conocidas para los histogramas 1D …

8 optimization histogram

2

Parámetros dispersos de Autoencoder [Hyper]

Acabo de comenzar a usar el paquete autoencoder en R. Las entradas a la autoencode()función incluyen lambda, beta, rho y epsilon. ¿Cuáles son los límites de estos valores? ¿Varían para cada función de activación? ¿Se llaman estos parámetros "hiperparámetros"? Suponiendo un autoencoder disperso, ¿rho = .01 es bueno para la …

8 neural-networks optimization deep-learning deep-belief-networks autoencoders

1

Al optimizar un modelo de regresión logística, a veces más datos hacen que las cosas funcionen * más rápido *. ¿Alguna idea de por qué?

He estado jugando con la regresión logística con varios algoritmos de optimización por lotes (gradiente conjugado, newton-raphson y varios métodos de cuasinewton). Una cosa que he notado es que a veces, agregar más datos a un modelo puede hacer que la capacitación del modelo tome mucho menos tiempo. Cada iteración …

8 logistic references optimization

2

¿Por qué un modelo estadístico se sobreajusta si se le da un gran conjunto de datos?

Mi proyecto actual puede requerir que construya un modelo para predecir el comportamiento de un determinado grupo de personas. el conjunto de datos de entrenamiento contiene solo 6 variables (la identificación es solo para fines de identificación): id, age, income, gender, job category, monthly spend en el cual monthly spendestá …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

Programación cuadrática cuando la matriz no es positiva definida

http://cran.r-project.org/web/packages/quadprog/quadprog.pdf El paquete R quadprogparece ser capaz de resolver el problema de programación cuadrática solo cuando la matrizreDD Es positivo definitivo. Sin embargo, hay un caso cuando la matriz reDDNo es positivo definido. como min (X2+y2- 6 x y)sujeto ax + y3 x + yx , y≤≤≥1 ,1.5 ,0.min(x2+y2−6xy)subject tox+y≤1,3x+y≤1.5,x,y≥0.\begin{eqnarray} …

8 r optimization

Preguntas etiquetadas con optimization