El DEFAULT_URL
utilizado en downloader.py
la versión empaquetada de Ubuntu todavía usa:
DEFAULT_URL = 'http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml'
Pero el servidor de datos actual es:
DEFAULT_URL = "http://nltk.github.com/nltk_data/"
Por supuesto, puede instalar desde la fuente o ... modificar su versión ya instalada para que apunte al nuevo servidor de esta manera:
sudo perl -pi -e 's#DEFAULT_URL = .*#DEFAULT_URL = "http://nltk.github.com/nltk_data/"#' /usr/lib/python2.7/dist-packages/nltk/downloader.py
Luego puede instalar el corpus "marrón":
$ python
Python 2.7.6 (default, Mar 22 2014, 22:59:56)
[GCC 4.8.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>> nltk.download('brown')
[nltk_data] Downloading package 'brown' to /home/sylvain/nltk_data...
[nltk_data] Unzipping corpora/brown.zip.
True
>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
>>>
wget https://github.com/nltk/nltk/archive/develop.zip; unzip develop.zip; cd nltk-develop; python setup.py install
. Pero se ha planteado un problema en github.com/nltk/nltk/issues/747