Ciencia de los datos text-mining

2

Escalado de datos de forma ética y rentable

Pocas cosas en la vida me dan placer, como extraer datos estructurados y no estructurados de Internet y utilizarlos en mis modelos. Por ejemplo, el Data Science Toolkit (o RDSTKpara los programadores de R) me permite extraer muchos datos buenos basados en la ubicación utilizando IP o direcciones y el …

13 text-mining scraping

4

Alternativas a TF-IDF y Cosine Similarity al comparar documentos de diferentes formatos

He estado trabajando en un proyecto pequeño y personal que toma las habilidades laborales de un usuario y sugiere la carrera más ideal para ellos en función de esas habilidades. Utilizo una base de datos de listados de trabajo para lograr esto. Por el momento, el código funciona de la …

12 nlp text-mining similarity cosine-distance

3

Clasificación de texto no estructurado

Voy a clasificar documentos de texto no estructurados, es decir, sitios web de estructura desconocida. El número de clases a las que estoy clasificando es limitado (en este momento, creo que no hay más de tres). ¿Alguien tiene una sugerencia de cómo podría comenzar? ¿Es factible aquí el enfoque de …

12 machine-learning classification text-mining beginner

2

Algoritmo de coincidencia de preferencias

Hay un proyecto paralelo en el que estoy trabajando en el que necesito estructurar una solución al siguiente problema. Tengo dos grupos de personas (clientes). El grupo Atiene la intención de comprar y el grupo Btiene la intención de vender un producto determinado X. El producto tiene una serie de …

12 bigdata text-mining recommender-system

2

Clasificación de documentos utilizando red neuronal convolucional

Estoy tratando de usar CNN (red neuronal convolucional) para clasificar documentos. CNN para textos cortos / oraciones ha sido estudiado en muchos artículos. Sin embargo, parece que ningún documento ha utilizado CNN para textos o documentos largos. Mi problema es que hay demasiadas características de un documento. En mi conjunto …

11 classification neural-network text-mining convnet word2vec

1

Cómo determinar si la secuencia de caracteres es palabra o ruido en inglés

¿Qué tipo de características tratará de extraer de la lista de palabras para predecir en el futuro, es una palabra existente o solo un desorden de caracteres? Hay una descripción de la tarea que encontré allí . Tienes que escribir un programa que pueda responder si una palabra determinada es …

11 machine-learning nlp text-mining algorithms

1

aplicar word2vec en archivos de texto pequeños

Soy totalmente nuevo en word2vec, así que por favor llévelo conmigo. Tengo un conjunto de archivos de texto que contienen cada uno un conjunto de tweets, entre 1000-3000. Elegí una palabra clave común ("kw1") y quiero encontrar términos semánticamente relevantes para "kw1" usando word2vec. Por ejemplo, si la palabra clave …

11 machine-learning nlp text-mining

3

¿Cuál es la diferencia entre un vectorizador hash y un vectorizador tfidf

Estoy convirtiendo un corpus de documentos de texto en vectores de palabras para cada documento. He intentado esto usando un TfidfVectorizer y un HashingVectorizer Entiendo que a HashingVectorizerno toma en cuenta los IDFpuntajes como lo TfidfVectorizerhace. La razón por la que todavía estoy trabajando con a HashingVectorizeres la flexibilidad que …

11 nlp scikit-learn text-mining tfidf

4

Uso de la agrupación en el procesamiento de texto

Hola, esta es mi primera pregunta en la pila de Data Science. Quiero crear un algoritmo para la clasificación de texto. Supongamos que tengo un gran conjunto de textos y artículos. Digamos alrededor de 5000 textos simples. Primero uso una función simple para determinar la frecuencia de las palabras de …

11 text-mining clustering

3

Aprendizaje de funciones no supervisadas para NER

He implementado el sistema NER con el uso del algoritmo CRF con mis características artesanales que dieron resultados bastante buenos. El caso es que utilicé muchas características diferentes, incluidas etiquetas POS y lemas. Ahora quiero hacer el mismo NER para un idioma diferente. El problema aquí es que no puedo …

11 nlp text-mining feature-extraction

3

Los mejores idiomas para la informática científica [cerrado]

Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 5 años . Parece que la mayoría de los idiomas tienen cierto número de bibliotecas …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

1

Texto-Clasificación-Problema: ¿Es Word2Vec / NN el mejor enfoque?

Estoy buscando diseñar un sistema que, dado un párrafo de texto, pueda clasificarlo e identificar el contexto: Está entrenado con párrafos de texto generados por el usuario (como comentarios / preguntas / respuestas) Se etiquetará cada elemento del conjunto de entrenamiento. Entonces, por ejemplo, ("categoría 1", "párrafo de texto") Habrá …

10 neural-network text-mining multiclass-classification word-embeddings

3

Modelo de espacio vectorial coseno tf-idf para encontrar documentos similares

Tener un corpus de más de un millón de documentos. Para un documento dado, desea encontrar documentos similares usando coseno como en el modelo de espacio vectorial re1⋅ d2/ ( | | d1El | El | El | El | re2El | El | )d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| …

10 text-mining similarity

1

Múltiples etiquetas en algoritmo de aprendizaje supervisado

Tengo un corpus de texto con los temas correspondientes. Por ejemplo, "A rapper Tupac was shot in LA"y fue etiquetado como ["celebrity", "murder"]. Entonces, básicamente, cada vector de entidades puede tener muchas etiquetas (no la misma cantidad. El primer vector de entidades puede tener 3 etiquetas, la segunda 1, la …

10 machine-learning text-mining

3

Análisis del archivo de registro: extracción de la parte de información de la parte de valor

Estoy tratando de construir un conjunto de datos en varios archivos de registro de uno de nuestros productos. Los diferentes archivos de registro tienen su propio diseño y contenido; Los agrupé con éxito, solo quedaba un paso ... De hecho, los "mensajes" de registro son la mejor información. No tengo …

10 text-mining clustering

Preguntas etiquetadas con text-mining