Ciencia de los datos text-mining

1

¿Cómo determinar la complejidad de una oración en inglés?

Estoy trabajando en una aplicación para ayudar a las personas a aprender inglés como segundo idioma. He validado que las oraciones ayudan a aprender un idioma al proporcionar un contexto adicional. Lo hice realizando una pequeña investigación en un aula de 60 estudiantes. He extraído más de cien mil oraciones …

10 machine-learning classification nlp text-mining

1

¿Cuántos datos de entrenamiento necesita word2vec?

Me gustaría comparar la diferencia entre la misma palabra mencionada en diferentes fuentes. Es decir, cómo los autores difieren en el uso de palabras mal definidas, como "democracia". Un breve plan fue Tome los libros que mencionan el término "democracia" como texto sin formato En cada libro, reemplace democracycondemocracy_%AuthorName% Entrenar …

10 text-mining word-embeddings

3

¿Cómo hacer lotes de productos internos en Tensorflow?

Tengo dos tensor a:[batch_size, dim] b:[batch_size, dim]. Quiero hacer un producto interno para cada par en el lote, generando c:[batch_size, 1], dónde c[i,0]=a[i,:].T*b[i,:]. ¿Cómo?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

¿Cuándo elegir regresión lineal o árbol de decisión o regresión de bosque aleatorio? [cerrado]

Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 4 años . Estoy trabajando en un proyecto y tengo dificultades para decidir qué algoritmo …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

2

qué técnicas de máquina / aprendizaje profundo / nlp se utilizan para clasificar palabras determinadas como nombre, número de teléfono móvil, dirección, correo electrónico, estado, condado, ciudad, etc.

Estoy tratando de generar un modelo inteligente que pueda escanear un conjunto de palabras o cadenas y clasificarlas como nombres, números móviles, direcciones, ciudades, estados, países y otras entidades utilizando el aprendizaje automático o el aprendizaje profundo. Había buscado enfoques, pero desafortunadamente no encontré ningún enfoque. Intenté con el modelo …

9 machine-learning deep-learning text-mining natural-language-process

4

Sugerir conjuntos de datos de entrenamiento de clasificadores de texto

¿Qué conjuntos de datos disponibles libremente puedo usar para entrenar un clasificador de texto? Estamos tratando de mejorar la participación de nuestros usuarios recomendando el contenido más relacionado para él, por lo que pensamos que si clasificamos nuestro contenido en función de una bolsa de palabras predefinida, podemos recomendarle contenido …

9 machine-learning classification dataset clustering text-mining

5

Agrupamiento con coseno similitud

Tengo un gran conjunto de datos y una similitud de coseno entre ellos. Me gustaría agruparlos usando la similitud de coseno que reúne objetos similares sin necesidad de especificar de antemano el número de grupos que espero. Leí la documentación de sklearn de DBSCAN y Affinity Propagation, donde ambos requieren …

8 machine-learning data-mining clustering text-mining

3

¿Cómo evaluar la agrupación de texto?

¿Qué métricas se pueden usar para evaluar los modelos de agrupación de texto? Solía tf-idf+ k-means, tf-idf+ hierarchical clustering, doc2vec+ k-means (metric is cosine similarity), doc2vec+ hierarchical clustering (metric is cosine similarity). ¿Cómo decidir qué modelo es el mejor?

8 machine-learning clustering text-mining

4

Clasificación de correo electrónico en R

Estoy trabajando en un proyecto en R donde tengo aproximadamente 1200 correos electrónicos de una empresa, la mayoría de los cuales están etiquetados como clase o clase , que son los tipos de solicitudes. Aproximadamente 1000 correos electrónicos están etiquetados como clase , y 200 están etiquetados como clase Mi …

8 machine-learning r text-mining

4

¿Cómo aprender la detección de correo no deseado?

Quiero aprender cómo se hace un detector de correo electrónico no deseado. No estoy tratando de construir un producto comercial, será un ejercicio de aprendizaje serio para mí. Por lo tanto, estoy buscando recursos, como proyectos existentes, código fuente, artículos, documentos, etc. que pueda seguir. Quiero aprender con ejemplos, no …

8 machine-learning classification text-mining

1

Qué algoritmos de clasificación probar para clasificar datos de texto en 300 categorías

Tengo 40000 filas de datos de texto del dominio de atención médica. Los datos tienen una columna para el texto (2-5 oraciones) y una columna para su categoría. Quiero clasificar eso en 300 categorías. Algunas categorías son independientes, mientras que otras están algo relacionadas. La distribución de datos entre categorías …

8 machine-learning classification nlp text-mining

1

Diferencia entre tf-idf y tf con bosques aleatorios

Estoy trabajando en un problema de clasificación de texto usando Random Forest como clasificadores, y un enfoque de bolsa de palabras. Estoy usando la implementación básica de Random Forests (el presente en scikit), que crea una condición binaria en una sola variable en cada división. Dado esto, ¿hay alguna diferencia …

8 classification text-mining random-forest

1

Error de R al usar el paquete tm (minería de texto)

Estoy intentando usar el paquete tm para convertir un vector de cadenas de texto en un elemento de corpus. Mi código se parece a esto Corpus(d1$Yes) donde d1$Yeses un factor con 124 niveles, cada uno con una cadena de texto. Por ejemplo, d1$Yes[246] = "So we can get the boat …

8 r text-mining

Preguntas etiquetadas con text-mining