Fuentes de lista de palabras


11

Estoy buscando una fuente de sustantivos, adverbios, adjetivos y verbos en varios idiomas.

Me gustaría que las listas ya estén divididas, y no tener que pasar por el OED (y equivalentes que no están en inglés) volviendo a crear dichas listas a mano.

Realmente no me importan las definiciones, y entiendo que algunas palabras pueden ser múltiples partes del discurso, eso está bien, palabras como "muchos" podrían ser un sustantivo o un adjetivo, y pueden aparecer en ambas listas.

¿Alguien aquí sabe de tal fuente? Si no, ¿alguien podría señalarme en la dirección correcta?

Estoy de acuerdo con que el formato sea cualquiera de los siguientes (o similar si la gente tiene ideas):

  • csv: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • archivos de texto sin formato como "sustantivos", "verbos", etc.
  • una tabla mysql
  • etc.

Respuestas:



4

Esto puede no ayudar en absoluto, no lo sé. Pero MediaWiki tiene una API para enumerar todas las páginas que pertenecen a una determinada categoría. Puedes intentar usarlo en Wiktionary.org.

Notas:

  • Cada consulta solo devuelve 500 resultados. Sin embargo, al final, también especifica un parámetro para usar en otra consulta para obtener los siguientes 500 resultados.
  • Incluye todo en la categoría especificada, incluso otras subcategorías.
  • Los resultados parecen estar en orden alfabético, aunque todo lo que comienza con una letra mayúscula va antes que nada en minúscula.

Ejemplos:

Espero que esto ayude, es lo que se me ocurrió.


1

Respaldaré la sugerencia de wordnet de @ teknikqa, pero sugeriría que revises sus API;

HISTORIA : Tenía un curso de IA que tenía una parte de análisis de lenguaje; Utilicé las API de perl de wordnet para buscar automáticamente los tres tipos de definición principales y clasificar la redacción a partir de eso casi en tiempo real FIN DEL TIEMPO DE HISTORIA

Hay API disponibles para muchos idiomas

FYI: El proyecto obtuvo una A +

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.