Estadísticas y Big Data text-mining

2

¿Por qué se usa n-gram en la identificación del lenguaje de texto en lugar de palabras?

En dos bibliotecas de identificación de idiomas populares, Compact Language Detector 2 para C ++ y el detector de idiomas para java, ambos utilizaron n-gramos (basados en caracteres) para extraer características de texto. ¿Por qué no se usa una bolsa de palabras (una sola palabra / diccionario), y cuál es …

12 machine-learning classification text-mining natural-language

7

¿Cuáles son los paquetes de minería de texto para R y existen otros programas de minería de texto de código abierto?

¿Me puede recomendar un paquete de minería de texto en R que pueda usarse en grandes volúmenes de datos? En segundo lugar, ¿hay una GUI disponible para alguno de los paquetes de minería de texto en R? En tercer lugar, ¿hay otro programa de minería de texto de código abierto …

12 r text-mining

2

Bolsa de palabras vs modelo de espacio vectorial?

¿Cuál es / son la / s diferencia / s entre estos modelos de representación de texto: bolsa de palabras y modelo de espacio vectorial?

12 machine-learning text-mining

5

¿Buenos libros sobre minería de texto?

Hola, ¿quería saber si hay algunos buenos libros sobre minería de texto y clasificación con algunos estudios de casos? Si no, algunos artículos / revistas accesibles al público lo harían. Si ilustran sus ejemplos con R aún mejor. No busco el manual paso a paso, sino algo que ilustre los …

11 references text-mining

1

IDF incremental (frecuencia de documento inversa)

En una aplicación de minería de texto, un enfoque simple es utilizar la heurística para crear vectores como representaciones compactas y dispersas de los documentos. Esto está bien para la configuración de lotes, donde todo el cuerpo se conoce a priori, ya que i d f requiere todo el cuerpot …

11 time-series text-mining

1

Comprender el uso de logaritmos en el logaritmo TF-IDF

Estaba leyendo: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Pero parece que no puedo entender exactamente por qué la fórmula se construyó de la manera en que está. Lo que sí entiendo: iDF debería medir en algún nivel la frecuencia con la que aparece un término S en cada uno de los documentos, disminuyendo su valor …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

Con respecto al uso del modelo bigram (N-gram) para construir un vector de características para documentos de texto

Un enfoque tradicional de construcción de características para la minería de texto es el enfoque de bolsa de palabras, y puede mejorarse usando tf-idf para configurar el vector de características que caracteriza un documento de texto dado. En la actualidad, estoy tratando de usar el modelo de lenguaje bi-gram o …

10 machine-learning data-mining text-mining natural-language language-models

1

¿Es precisa esta interpretación de la escasez?

Según la documentación de la removeSparseTermsfunción del tmpaquete, esto es lo que implica la escasez: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms …

10 r text-mining natural-language

1

¿Por qué agregar uno en frecuencia de documento inversa?

Mi libro de texto enumera el idf como dondel o g( 1 + Nnortet)log(1+Nnt)log(1+\frac{N}{n_t}) norteNN : número de documentos nortetntn_t : número de documentos que contienen el términottt Wikipedia enumera esta fórmula como una versión suavizada del real . Eso lo entiendo: varía de a que parece intuitivo. Pero va …

9 text-mining natural-language smoothing

2

¿Qué es VectorSource y VCorpus en el paquete 'tm' (Text Mining) en R?

No estoy muy seguro de qué son exactamente VectorSource y VCorpus en el paquete 'tm'. La documentación no está clara sobre estos, ¿alguien puede hacerme entender en términos simples?

9 r text-mining

1

Uso de herramientas de minería de texto / procesamiento de lenguaje natural para econometría

No estoy seguro de si esta pregunta es totalmente apropiada aquí, de lo contrario, elimínela. Soy un estudiante graduado en economía. Para un proyecto que investiga problemas en seguros sociales, tengo acceso a una gran cantidad de informes de casos administrativos (> 200k) que se ocupan de las evaluaciones de …

9 machine-learning data-mining econometrics text-mining natural-language

1

¿Cómo comparar los eventos observados con los esperados?

Supongamos que tengo una muestra de frecuencias de 4 eventos posibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 y tengo las probabilidades esperadas de que ocurran mis eventos: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Con la suma de las …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Comprender y aplicar el análisis de sentimientos

Me acababan de asignar un proyecto para realizar análisis de sentimientos para algunas colecciones de documentos. Al buscar en Google, ha surgido una gran cantidad de investigaciones relacionadas con los sentimientos. Mis preguntas son: ¿Cuáles son los principales métodos / algoritmos para el análisis de sentimientos en el campo del …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

4

¿Cómo llevar a cabo múltiples pruebas de chi-cuadrado post-hoc en una mesa de 2 X 3?

Mi conjunto de datos está compuesto por la mortalidad total o la supervivencia de un organismo en tres tipos de sitios, costero, medio canal y en alta mar. Los números en la tabla a continuación representan el número de sitios. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

2

Automatizar la correlación estadística entre "textos" y "datos"

Estoy recopilando datos textuales sobre comunicados de prensa, publicaciones de blog, reseñas, etc. de los productos y el rendimiento de ciertas empresas. Específicamente, estoy buscando ver si hay correlaciones entre ciertos tipos y / o fuentes de dicho contenido "textual" con valoraciones de mercado de los símbolos de acciones de …

8 finance correlation text-mining

Preguntas etiquetadas con text-mining