Tengo muchas cadenas de direcciones:
1600 Pennsylvania Ave, Washington, DC 20500 USA
Quiero analizarlos en sus componentes:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
Pero, por supuesto, los datos están sucios: provienen de muchos países en muchos idiomas, están escritos de diferentes maneras, contienen errores ortográficos, faltan piezas, tiene basura adicional, etc.
En este momento, nuestro enfoque es utilizar reglas combinadas con la coincidencia difusa del diccionario geográfico, pero nos gustaría explorar técnicas de aprendizaje automático. Hemos etiquetado los datos de capacitación para el aprendizaje supervisado. La pregunta es, ¿qué tipo de problema de aprendizaje automático es este? Realmente no parece ser agrupación, clasificación o regresión ...
Lo más cercano que se me ocurre sería clasificar cada ficha, pero entonces realmente desea clasificarlas todas simultáneamente, satisfaciendo restricciones como "debería haber como máximo un país"; y realmente hay muchas maneras de tokenizar una cadena, y desea probar cada una y elegir la mejor ... Sé que existe una cosa llamada análisis estadístico, pero no sé nada al respecto.
Entonces: ¿qué técnicas de aprendizaje automático podría explorar para analizar direcciones?