Programación nltk

7

¿Qué es "entropía y ganancia de información"?

Estoy leyendo este libro ( NLTK ) y es confuso. La entropía se define como : La entropía es la suma de la probabilidad de cada etiqueta por la probabilidad de registro de esa misma etiqueta ¿Cómo puedo aplicar la entropía y la entropía máxima en términos de minería de …

338 math text computer-science nltk text-mining

15

Error al cargar english.pickle con nltk.data.load

Al intentar cargar el punkttokenizer ... import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ... a LookupErrorse planteó: > LookupError: > ********************************************************************* > Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: nltk.download(). Searched in: > - 'C:\\Users\\Martinos/nltk_data' > - 'C:\\nltk_data' > - 'D:\\nltk_data' > - 'E:\\nltk_data' > - …

144 python jenkins nltk

8

¿Cuáles son todas las posibles etiquetas pos de NLTK?

¿Cómo encuentro una lista con todas las posibles etiquetas de posición utilizadas por Natural Language Toolkit (nltk)?

141 python nltk

15

n-gramos en pitón, cuatro, cinco, seis gramos?

Estoy buscando una manera de dividir un texto en n-gramas. Normalmente haría algo como: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams Soy consciente de que nltk solo ofrece bigrams y trigrams, pero ¿hay alguna forma de dividir …

137 python string nltk n-gram

9

¿Cómo verificar si una palabra es una palabra en inglés con Python?

Quiero comprobar en un programa de Python si una palabra está en el diccionario de inglés. Creo que la interfaz nltk wordnet podría ser el camino a seguir, pero no tengo idea de cómo usarla para una tarea tan simple. def is_english_word(word): pass # how to I implement is_english_word? is_english_word(token.lower()) …

134 python nltk wordnet

9

¿Cuál es la diferencia entre lemmatization vs stemming?

¿Cuándo uso cada uno? Además ... ¿la lematización de NLTK depende de las partes del discurso? ¿No sería más preciso si lo fuera?

131 python nlp nltk lemmatization

11

¿Cómo deshacerse de la puntuación usando el tokenizer NLTK?

Estoy empezando a usar NLTK y no entiendo cómo obtener una lista de palabras del texto. Si lo uso nltk.word_tokenize(), obtengo una lista de palabras y puntuación. Solo necesito las palabras en su lugar. ¿Cómo puedo deshacerme de la puntuación? Tampoco word_tokenizefunciona con varias oraciones: se agregan puntos a la …

125 python nlp tokenize nltk

12

Cómo eliminar las palabras vacías usando nltk o python

Así que tengo un conjunto de datos que me gustaría eliminar el uso de palabras vacías stopwords.words('english') Estoy luchando por cómo usar esto dentro de mi código para simplemente eliminar estas palabras. Ya tengo una lista de las palabras de este conjunto de datos, la parte con la que estoy …

110 python nltk stop-words

7

¿Cómo comprobar qué versión de nltk, scikit learn está instalada?

En el script de shell, estoy verificando si estos paquetes están instalados o no, si no están instalados, instálelos. Entonces, dentro del script de shell: import nltk echo nltk.__version__ pero detiene el script de shell en la importlínea en linux terminal traté de ver de esta manera: which nltk que …

102 python linux shell scikit-learn nltk

26

problema de pip al instalar casi cualquier biblioteca

Tengo dificultades para usar pip para instalar casi cualquier cosa. Soy nuevo en la codificación, así que pensé que tal vez esto es algo que he estado haciendo mal y he optado por easy_install para obtener la mayor parte de lo que necesitaba, que generalmente ha funcionado. Sin embargo, ahora …

101 python pip nltk easy-install

17

Recurso u'tokenizers / punkt / english.pickle 'no encontrado

Mi código: import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') Mensaje de error: [ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py Traceback (most recent call last): File "mapper_local_v1.0.py", line 16, in <module> tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load opened_resource = _open(resource_url) File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open return find(path_, path + ['']).open() File "/usr/lib/python2.6/site-packages/nltk/data.py", …

96 python unix nltk

6

Python: tf-idf-cosine: para encontrar la similitud del documento

Estaba siguiendo un tutorial que estaba disponible en la Parte 1 y la Parte 2 . Desafortunadamente, el autor no tuvo tiempo para la sección final que involucraba el uso de la similitud de coseno para encontrar la distancia entre dos documentos. Seguí los ejemplos del artículo con la ayuda …

93 python machine-learning nltk information-retrieval tf-idf

18

Stanford Parser y NLTK

¿Es posible utilizar Stanford Parser en NLTK? (No estoy hablando de POS de Stanford).

90 python parsing nlp nltk stanford-nlp

7

¿Cómo configurar el directorio de datos nltk desde el código?

85 python path directory nlp nltk

4

Creando un nuevo corpus con NLTK

Calculé que a menudo la respuesta a mi título es ir y leer la documentación, pero revisé el libro NLTK pero no da la respuesta. Soy un poco nuevo en Python. Tengo un montón de .txtarchivos y quiero poder usar las funciones de corpus que NLTK proporciona para el corpus …

83 python nlp nltk corpus

Preguntas etiquetadas con nltk