¿Cómo obtener una base de datos de palabras en inglés? [cerrado]


148

Necesito una base de datos de cada palabra válida en inglés. Revisé el /usr/share/dict/wordsarchivo, contiene menos de 100k palabras. Wikipedia dice que el inglés tiene 475 mil palabras. ¿Dónde obtengo la lista completa (ortografía estadounidense)?

Además, ¿hay un sitio web único que también proporcione palabras para otros idiomas, incluidos los asiáticos y europeos?

Editar: Olvidé agregar, no necesito nombres, etc., solo palabras en inglés válidas.


9
Mi /usr/share/dict/wordstiene 479829 palabras, por lo que tal vez haya alguna variación aquí (y podría ser adecuada para otras).
marshall.ward

44
wc -l /usr/share/dict/wordsen Mac son 235.886 palabras (julio de 2014 - OSX Mavericks 10.9.4)
nelsonic

2
La mejor lista que he encontrado: raw.githubusercontent.com/docdis/english-words/master/… . Gracias a @nelsonic.
james.garriss


1
puede obtener una lista de favoritos aquí marcoagpinto.cidadevirtual.pt/proofingtoolgui.html .. busque el enlace WORDLIST a la derecha
kofifus

Respuestas:


75

La base de datos de WordNet puede ser útil. Una vez trabajé en un complemento de Firefox que trata con palabras y todo tipo de asociaciones simples o complicadas entre ellas y otras cosas. Parece que WordNet te será muy útil.

Aquí está en formato MySQL . Y este (enlace archivado en la web) utiliza datos de Wordnet v3.0, en lugar de los datos anteriores de Wordnet 2.0.


¿tienen también una lista descargable?

1
Sí, le brindan la posibilidad de descargar su base de datos en muchos formatos: CSV, MySQL Database, etc. e incluso tienen API que puede usar a través de .Net, Java, etc. Esta es la página de descarga: wordnet.princeton .edu / wordnet / download
user266803


No lo he descargado personalmente, pero estaba listo cuando comencé a codificar. Así que no sé qué archivos estarán allí en qué descarga. Solo sé que puedes descargar en diferentes formatos. Si puede decirme en qué formato desea, puedo ayudarlo.
user266803

Parece un proyecto muy interesante de hecho.
Wim Hollebrandse

36

Puede encontrar lo que necesita en infochimps.org .

Tienen una lista de 350,000 palabras simples (es decir, no compuestas) disponibles para descarga gratuita.

Lista de palabras: más de 350,000 palabras simples en inglés

Con respecto a otros idiomas, es posible que desee hurgar en Wiktionary. Aquí hay un enlace a todas las copias de seguridad de la base de datos : la información no está organizada tan probablemente, pero si tienen un idioma, puede descargar los datos en formato SQL.


66
El enlace de descarga ha cambiado - infochimps.com/datasets/…
Chris Rae

36
Molesto, el archivo infochimps es .xls (un archivo de Excel con las palabras divididas en 6 hojas de trabajo) ... Extraje las 354986 palabras en un archivo txt : github.com/nelsonic/english-words
nelsonic

@nelsonic muchas gracias, el enlace infochimps es 404

1
@ChrisRae ambos enlaces no funcionan
garg10may

55
parece que incluyen palabras con errores ortográficos, como tecnología , presumiblemente porque recopilan todo lo que aparece en la web. entonces es bueno para descifrar / validar contraseñas, pero no es bueno para aplicaciones que requieren palabras reales (como correctores ortográficos, etc.).
max

13

No veo http://wordlist.sourceforge.net/ mencionado aquí, pero ahí es donde comenzaría si estuviera buscando algo como esto (y lo estaba, cuando tropecé con esta pregunta).

Si no puede encontrar lo que quiere allí, y lo que quiere es una lista de palabras en inglés, entonces probablemente debería dedicar un tiempo extra para describir cómo reconocer qué es lo que quiere.


1
Tenía la esperanza de que estas listas más amplias contendrían palabras con puntuación, como "C ++" o "C #", pero no pude encontrar ninguna. Entonces, si eso es lo que buscas, puedes hacer un cortocircuito, puedes saltarte este (y las listas más estrechas en otras respuestas).
placas

9

No existe una lista "completa". Diferentes personas tienen diferentes formas de medir, por ejemplo, pueden incluir jerga, neologismos, frases de varias palabras, términos ofensivos, palabras extranjeras, conjugaciones verbales, etc. ¡Algunas personas incluso han contado un millón de palabras ! Entonces tendrá que decidir qué quiere en una lista de palabras.


3
Gracias por ese enlace. Una lectura muy esclarecedora sobre cuántas palabras hay en inglés y la inutilidad de tratar de llegar a un conteo definitivo de ellas. Para una lectura más concisa y actualizada, también hay esto: en.oxforddictionaries.com/explore/language-questions/… .
Prometeo

4

Puede consultar el *spell diccionario en-GB utilizado por Mozilla, OpenOffice y muchos otros programas.


enlace en mozilla en-gb.pyxidium.co.uk/dictionary/en_GB.zip dice Servidor no encontrado, ¿alguna actualización? gracias

@AMB Thx, actualicé el enlace para que apunte a una fuente alternativa del diccionario en extensiones.openoffice.org/en/project/…
mloskot

Y ahora el nuevo enlace es 404, @mloskot.
james.garriss

@ james.garriss Me temo que parece que todo el sitio extensiones.openoffice.org está inactivo.
mloskot

3

No dijiste para qué necesitabas esta lista. Si algo usado como una lista negra para verificar las contraseñas es suficiente, cracklib podría ser bueno para usted. Contiene más de 1,5 millones de palabras.


1
no, no para la lista negra. Estoy haciendo algún tipo de juego de palabras / gráfico.

Esto tiene una gran cantidad de "palabras basura", sin embargo todavía estoy muy agradecido que se pone esto aquí - es perfecto en la búsqueda de palabras específicas que los otros diccionarios no tienen (por ejemplo, camión de bomberos)
kangalioo
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.