Estadísticas y Big Data machine-learning

2

¿Por qué la maximización de expectativas es importante para los modelos mixtos?

Hay mucha literatura que enfatiza el método de maximización de expectativas en los modelos de mezcla (mezcla de Gauss, modelo oculto de Markov, etc.). ¿Por qué EM es importante? EM es solo una forma de hacer optimización y no se usa ampliamente como método basado en gradiente (gradiente decente o …

15 machine-learning optimization expectation-maximization gaussian-mixture

2

¿Cuál es un buen método para la agrupación de texto corto?

Estoy trabajando en un problema de agrupación de texto. Los datos contienen varias oraciones. ¿Existe un buen algoritmo que alcanza una alta precisión en textos cortos? ¿Puedes proporcionar buenas referencias? Algoritmos como KMeans, el agrupamiento espectral no funciona bien para este problema.

15 machine-learning clustering text-mining

1

¿Cómo podría el descenso de gradiente estocástico ahorrar tiempo en comparación con el descenso de gradiente estándar?

Descenso de gradiente estándar calcularía el gradiente para todo el conjunto de datos de entrenamiento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Para un número predefinido de épocas, primero calculamos el vector de gradiente weights_grad de la función de pérdida para …

15 machine-learning optimization gradient-descent computational-statistics sgd

4

La precisión de la máquina de aumento de gradiente disminuye a medida que aumenta el número de iteraciones

Estoy experimentando con el algoritmo de la máquina de aumento de gradiente a través del caretpaquete en R. Usando un pequeño conjunto de datos de admisión a la universidad, ejecuté el siguiente código: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

¿Cuáles son algunas buenas preguntas de entrevista para los candidatos desarrolladores de algoritmos estadísticos?

Estoy entrevistando a personas para un puesto de desarrollador / investigador de algoritmos en un contexto de estadísticas / aprendizaje automático / minería de datos. Estoy buscando preguntas para determinar, específicamente, la familiaridad, comprensión y fluidez de un candidato con la teoría subyacente, por ejemplo, propiedades básicas de expectativa y …

15 machine-learning probability distributions

2

¿Qué significa la teoría de aprendizaje PAC?

Soy nuevo en aprendizaje automático. Estoy estudiando un curso de aprendizaje automático (Universidad de Stanford) y no entendí qué significa esta teoría y cuál es su utilidad. Me pregunto si alguien podría detallar esta teoría para mí. Esta teoría se basa en esta ecuación.

15 machine-learning probability pac-learning

3

En el suavizado de Kneser-Ney, ¿cómo se manejan las palabras invisibles?

Por lo que he visto, la fórmula de suavizado de Kneser-Ney (segundo orden) se da de una forma u otra como P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} con el factor de normalización dado comoλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= …

15 machine-learning natural-language naive-bayes smoothing language-models

1

Report generator estadísticas y términos de aprendizaje automático

¿Existe algún tesauro de referencia para estadísticas y términos de aprendizaje automático? Sé que los artículos de Wikipedia a menudo contienen sinónimos, pero me gustaría tener un simple diccionario de sinónimos que podría revisar fácilmente (en lugar de una enciclopedia completa) para asegurarme de conocer toda la jerga.

15 machine-learning terminology

3

Sugerencias para el aprendizaje sensible al costo en un entorno altamente desequilibrado

Tengo un conjunto de datos con unos pocos millones de filas y ~ 100 columnas. Me gustaría detectar aproximadamente el 1% de los ejemplos en el conjunto de datos, que pertenecen a una clase común. Tengo una restricción de precisión mínima, pero debido al costo muy asimétrico, no estoy muy …

15 machine-learning classification unbalanced-classes precision-recall

1

¿Cuál es la intuición detrás de las muestras intercambiables bajo la hipótesis nula?

Las pruebas de permutación (también llamadas prueba de aleatorización, prueba de aleatorización o prueba exacta) son muy útiles y resultan útiles cuando t-testno se cumple el supuesto de distribución normal requerido por ejemplo y cuando se transforman los valores mediante la clasificación de prueba no paramétrica como Mann-Whitney-U-testconduciría a la …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

Significado de los términos de salida en el paquete gbm

Estoy usando el paquete gbm para la clasificación. Como se esperaba, los resultados son buenos. Pero estoy tratando de entender la salida del clasificador. Hay cinco términos en la salida. `Iter TrainDeviance ValidDeviance StepSize Improve` ¿Alguien podría explicar el significado de cada término, especialmente el significado de Mejorar ?

15 r machine-learning

3

¿Qué es la combinación de datos?

Este término aparece con frecuencia en los hilos relacionados con el método . ¿ Combinar es un método específico en minería de datos y aprendizaje estadístico? No puedo obtener un resultado relevante de google. Parece que la combinación está mezclando los resultados de muchos modelos y dando como resultado un …

15 machine-learning data-mining unsupervised-learning statistical-learning

2

Combinando clasificadores lanzando una moneda

Estoy estudiando un curso de aprendizaje automático y las diapositivas de la conferencia contienen información que encuentro contradictoria con el libro recomendado. El problema es el siguiente: hay tres clasificadores: clasificador A que proporciona un mejor rendimiento en el rango inferior de los umbrales, clasificador B que proporciona un mejor …

15 machine-learning probability data-visualization classification roc

2

Análisis en tiempo de ejecución de algoritmos comunes de aprendizaje automático

¿Alguien tiene referencia a un resumen de análisis de tiempo de ejecución para algoritmos comunes de aprendizaje automático (diferentes tipos de NN, SVM, etc.)?

15 machine-learning references algorithms

2

Un número creciente de características da como resultado una caída de precisión, pero un aumento de prec / recuperación

Soy nuevo en Machine Learning. En este momento estoy usando un clasificador Naive Bayes (NB) para clasificar textos pequeños en 3 clases como positivos, negativos o neutros, usando NLTK y python. Después de realizar algunas pruebas, con un conjunto de datos compuesto por 300,000 instancias (16,924 positivas 7,477 negativas y …

15 machine-learning classification naive-bayes precision-recall

Preguntas etiquetadas con machine-learning