Preguntas etiquetadas con text-mining

Se refiere a un subconjunto de minería de datos relacionado con la extracción de información de datos en forma de texto mediante el reconocimiento de patrones. El objetivo de la minería de texto es a menudo clasificar un documento dado en una de varias categorías de forma automática, y mejorar este rendimiento dinámicamente, convirtiéndolo en un ejemplo de aprendizaje automático. Un ejemplo de este tipo de minería de texto son los filtros de spam utilizados para el correo electrónico.

3
Un ejemplo: regresión LASSO usando glmnet para el resultado binario
Estoy empezando a incursionar con el uso de glmnetla LASSO regresión donde mi resultado de interés es dicotómica. He creado un pequeño marco de datos simulados a continuación: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
¿Cómo funciona la capa de 'incrustación' de Keras?
Necesita comprender el funcionamiento de la capa 'Incrustación' en la biblioteca Keras. Ejecuto el siguiente código en Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) que da el siguiente …

6
¿Cómo combinar cuasi dos vectores de cadenas (en R)?
No estoy seguro de cómo debería llamarse esto, así que corríjame si conoce un término mejor. Tengo dos listas. Uno de los 55 elementos (por ejemplo, un vector de cadenas), el otro de 92. Los nombres de los elementos son similares pero no idénticos. Deseo encontrar los mejores candidatos s …
36 r  text-mining 

6
Clasificación estadística del texto.
Soy un programador sin antecedentes estadísticos, y actualmente estoy buscando diferentes métodos de clasificación para una gran cantidad de documentos diferentes que quiero clasificar en categorías predefinidas. He estado leyendo sobre kNN, SVM y NN. Sin embargo, tengo algunos problemas para comenzar. ¿Qué recursos me recomiendan? Conozco bastante bien el …

4
¿Técnicas de aprendizaje automático para analizar cadenas?
Tengo muchas cadenas de direcciones: 1600 Pennsylvania Ave, Washington, DC 20500 USA Quiero analizarlos en sus componentes: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Pero, por supuesto, los datos están sucios: provienen de muchos países en muchos idiomas, están escritos de diferentes maneras, contienen errores …




7
En Naive Bayes, ¿por qué molestarse con el suavizado de Laplace cuando tenemos palabras desconocidas en el conjunto de prueba?
Estaba leyendo sobre la clasificación Naive Bayes hoy. Leí, bajo el encabezado de Estimación de parámetros con agregar 1 suavizado : Deje que refiera a una clase (como Positivo o Negativo), y deje que refiera a una ficha o palabra.cccwww El estimador de máxima verosimilitud para esP(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class …




1
¿Se ha replicado el rendimiento del estado de la técnica de usar vectores de párrafo para el análisis de sentimientos?
Me impresionaron los resultados en el documento ICML 2014 " Representaciones distribuidas de oraciones y documentos " de Le y Mikolov. La técnica que describen, llamada "vectores de párrafo", aprende representaciones sin supervisión de párrafos / documentos arbitrariamente largos, basados ​​en una extensión del modelo word2vec. El documento informa sobre …

3
Aprendizaje semi-supervisado, aprendizaje activo y aprendizaje profundo para la clasificación.
Edición final con todos los recursos actualizados: Para un proyecto, estoy aplicando algoritmos de aprendizaje automático para la clasificación. Reto: datos etiquetados bastante limitados y muchos más datos sin etiquetar. Metas: Aplicar clasificación semi-supervisada Aplicar un proceso de etiquetado semi-supervisado de alguna manera (conocido como aprendizaje activo) He encontrado mucha …

2
¿Por qué el procesamiento del lenguaje natural no cae dentro del dominio de aprendizaje automático? [cerrado]
Tal como está actualmente, esta pregunta no es adecuada para nuestro formato de preguntas y respuestas. Esperamos que las respuestas sean respaldadas por hechos, referencias o experiencia, pero esta pregunta probablemente solicitará debate, argumentos, encuestas o discusión extendida. Si cree que esta pregunta se puede mejorar y posiblemente volver a …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.