Estadísticas y Big Data information-retrieval

6

Soy un programador sin antecedentes estadísticos, y actualmente estoy buscando diferentes métodos de clasificación para una gran cantidad de documentos diferentes que quiero clasificar en categorías predefinidas. He estado leyendo sobre kNN, SVM y NN. Sin embargo, tengo algunos problemas para comenzar. ¿Qué recursos me recomiendan? Conozco bastante bien el …

32 classification information-retrieval text-mining

2

Medición de similitud de documentos

Para agrupar documentos (de texto) necesita una forma de medir la similitud entre pares de documentos. Dos alternativas son: Compare documentos como vectores de términos usando Cosine Similarity - y TF / IDF como las ponderaciones de los términos. Compare la distribución de probabilidad de cada documento utilizando la divergencia …

21 information-retrieval

4

¿Cómo proyectar un nuevo vector en el espacio PCA?

Después de realizar el análisis de componentes principales (PCA), quiero proyectar un nuevo vector en el espacio PCA (es decir, encontrar sus coordenadas en el sistema de coordenadas PCA). He calculado PCA en lenguaje R usando prcomp. Ahora debería poder multiplicar mi vector por la matriz de rotación PCA. ¿Deben …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

1

Precisión media media frente a rango recíproco medio

Estoy tratando de entender cuándo es apropiado usar el MAP y cuándo se debe usar MRR. Encontré esta presentación que establece que MRR se utiliza mejor cuando el número de resultados relevantes es menor a 5 y mejor cuando es 1. En otros casos, el MAP es apropiado. Tengo dos …

12 information-retrieval average-precision

1

Un paralelo entre LSA y pLSA

En el documento original de pLSA, el autor, Thomas Hoffman, establece un paralelismo entre las estructuras de datos de pLSA y LSA que me gustaría discutir con usted. Antecedentes: Inspirándose en la recuperación de información, supongamos que tenemos una colección de documentos y un vocabulario de términosNNND={d1,d2,....,dN}D={d1,d2,....,dN}D = \lbrace d_1, …

9 machine-learning conditional-probability svd information-retrieval lsa

1

¿Cómo comparar los eventos observados con los esperados?

Supongamos que tengo una muestra de frecuencias de 4 eventos posibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 y tengo las probabilidades esperadas de que ocurran mis eventos: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Con la suma de las …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Comprender y aplicar el análisis de sentimientos

Me acababan de asignar un proyecto para realizar análisis de sentimientos para algunas colecciones de documentos. Al buscar en Google, ha surgido una gran cantidad de investigaciones relacionadas con los sentimientos. Mis preguntas son: ¿Cuáles son los principales métodos / algoritmos para el análisis de sentimientos en el campo del …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

2

¿Se puede usar Cohen's Kappa solo para dos juicios?

Estoy usando el Kappa de Cohen para calcular el acuerdo entre dos jueces. Se calcula como: P(A)−P(E)1−P(E)P(A)−P(E)1−P(E) \frac{P(A) - P(E)}{1 - P(E)} donde es la proporción de acuerdo y la probabilidad de acuerdo por casualidad.P(A)P(A)P(A)P(E)P(E)P(E) Ahora para el siguiente conjunto de datos, obtengo los resultados esperados: User A judgements: - …

8 reliability information-retrieval

1

¿Por qué Lucene IDF tiene un +1 aparentemente adicional?

De los documentos de Lucene IDF = 1 + log(numDocsdocFreq + 1)IDF=1+Iniciar sesión⁡(numDocsdocFreq+1)\text{IDF} = 1 + \log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) En otras referencias (es decir, wikipedia ), IDF generalmente se calcula como o para evitar bucear en 0.Iniciar sesión(numDocsdocFreq)Iniciar sesión⁡(numDocsdocFreq)\log\left(\frac{\text{numDocs}}{\text{docFreq}}\right)Iniciar sesión(numDocsdocFreq + 1)Iniciar sesión⁡(numDocsdocFreq+1)\log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) También me doy cuenta de que Lucene usa lugar …

8 information-retrieval tf-idf

Preguntas etiquetadas con information-retrieval