Preguntas etiquetadas con text-mining

Se refiere a un subconjunto de minería de datos relacionado con la extracción de información de datos en forma de texto mediante el reconocimiento de patrones. El objetivo de la minería de texto es a menudo clasificar un documento dado en una de varias categorías de forma automática, y mejorar este rendimiento dinámicamente, convirtiéndolo en un ejemplo de aprendizaje automático. Un ejemplo de este tipo de minería de texto son los filtros de spam utilizados para el correo electrónico.


1
¿Cuántos datos de entrenamiento necesita word2vec?
Me gustaría comparar la diferencia entre la misma palabra mencionada en diferentes fuentes. Es decir, cómo los autores difieren en el uso de palabras mal definidas, como "democracia". Un breve plan fue Tome los libros que mencionan el término "democracia" como texto sin formato En cada libro, reemplace democracycondemocracy_%AuthorName% Entrenar …

3

2
¿Cuándo elegir regresión lineal o árbol de decisión o regresión de bosque aleatorio? [cerrado]
Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 4 años . Estoy trabajando en un proyecto y tengo dificultades para decidir qué algoritmo …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
qué técnicas de máquina / aprendizaje profundo / nlp se utilizan para clasificar palabras determinadas como nombre, número de teléfono móvil, dirección, correo electrónico, estado, condado, ciudad, etc.
Estoy tratando de generar un modelo inteligente que pueda escanear un conjunto de palabras o cadenas y clasificarlas como nombres, números móviles, direcciones, ciudades, estados, países y otras entidades utilizando el aprendizaje automático o el aprendizaje profundo. Había buscado enfoques, pero desafortunadamente no encontré ningún enfoque. Intenté con el modelo …

4
Sugerir conjuntos de datos de entrenamiento de clasificadores de texto
¿Qué conjuntos de datos disponibles libremente puedo usar para entrenar un clasificador de texto? Estamos tratando de mejorar la participación de nuestros usuarios recomendando el contenido más relacionado para él, por lo que pensamos que si clasificamos nuestro contenido en función de una bolsa de palabras predefinida, podemos recomendarle contenido …

5
Agrupamiento con coseno similitud
Tengo un gran conjunto de datos y una similitud de coseno entre ellos. Me gustaría agruparlos usando la similitud de coseno que reúne objetos similares sin necesidad de especificar de antemano el número de grupos que espero. Leí la documentación de sklearn de DBSCAN y Affinity Propagation, donde ambos requieren …


4
Clasificación de correo electrónico en R
Estoy trabajando en un proyecto en R donde tengo aproximadamente 1200 correos electrónicos de una empresa, la mayoría de los cuales están etiquetados como clase o clase , que son los tipos de solicitudes. Aproximadamente 1000 correos electrónicos están etiquetados como clase , y 200 están etiquetados como clase Mi …




1
Error de R al usar el paquete tm (minería de texto)
Estoy intentando usar el paquete tm para convertir un vector de cadenas de texto en un elemento de corpus. Mi código se parece a esto Corpus(d1$Yes) donde d1$Yeses un factor con 124 niveles, cada uno con una cadena de texto. Por ejemplo, d1$Yes[246] = "So we can get the boat …
8 r  text-mining 
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.