Aquí hay un poco de una pregunta detallada relacionada con el análisis de direcciones / geocodificación que creo que debería ser interesante para muchos usuarios.
Entonces, esencialmente tengo curiosidad por saber si alguien ha tenido alguna experiencia instalando, construyendo o extendiendo una herramienta de geocodificación de código abierto y / o corrección de direcciones.
Soy consciente del geocodificador: las iniciativas de US 2.0 que creo que son mantenidas por geocommons, pero no estoy seguro de si hay mejores alternativas, otras herramientas de código abierto, si su sistema se puede extender de manera efectiva o si hay algún desarrollo que no conozca.
Mis objetivos son los siguientes:
- Necesito una herramienta altamente precisa que sea capaz de analizar y / o estandarizar automáticamente los datos de ubicación ingresados por los usuarios desde un solo campo de entrada, todo en tiempo real y con el mayor volumen posible.
- Los datos de entrada serían uno o más de los siguientes componentes de dirección: código postal, condado, ciudad, calle, dirección, estado.
- Los datos de entrada también deben poder buscar desde nuestra base de datos de geonames personalizada. Por ejemplo, puede ingresar el nombre de un vecindario o un nombre de ubicación que no sea USPS que, naturalmente, no son variables de dirección estándar.
Teniendo en cuenta estos objetivos, soy muy consciente del hecho de que cuando se le da un solo campo de formulario para realizar dicha búsqueda, cada usuario ingresará sus datos en diferentes formatos, mientras que el otro factor generalmente cae en errores ortográficos.
Además de utilizar la base de datos del censo como núcleo para las direcciones / rangos válidos (todo lo que creo que Geocoder: EE. UU. Hace, creo que algún tipo de capacidad para definir "alias" conocidos sería ideal para errores ortográficos conocidos de nombres de calles. cosas como que un usuario ingrese a Ave en comparación con Ave. en comparación con Avenue. No piense que tales capacidades de alias son completamente posibles con la herramienta Geocoder: US.
Si bien los elementos anteriores pueden resolver la mayoría de los problemas, creo que debe existir algún tipo de coincidencia difusa efectiva cuando la entrada no puede coincidir con un% de edad lo suficientemente alto.
Si los datos de entrada se pueden analizar efectivamente en elementos individuales basados en algunas reglas supuestas y luego utilizar un tipo de componente de "puntaje de coincidencia" para igualar de forma difusa, cualquier elemento no emparejado tendría que basarse en aquellos elementos que ya estaban "emparejados" con un alto la licenciatura.
Por ejemplo: voy a suponer que para que la geocodificación sea lo más efectiva posible, primero necesitamos extraer elementos de datos individuales del campo de entrada en un intento de reducir el "área" para la que el usuario está tratando de encontrar resultados. En mi opinión, esto significa que se podría suponer que un número de 5 dígitos es un código postal, si hay otro elemento como un nombre de ciudad que coincida con el código postal, suponiendo que tenemos el "área" correcta ... A continuación, usamos el resto datos para tratar de encontrar una coincidencia completa, parcial o difusa, anotar y enumerar los posibles resultados.
En cualquier caso, agradecería enormemente si alguien pudiera proporcionar algún consejo aquí junto con cualquier consejo, estadísticas de rendimiento o desarrollos futuros que conozcan que puedan ajustar mi dirección (como el uso de postgis 2.0 como un medio para mejorar las capacidades de correspondencia)