Soy el fundador de IPinfo , ¡así que definitivamente puedo ofrecer algunos detalles sobre esto! No hay un solo método que usemos, o una sola fuente de datos, para producir nuestra propia base de datos de geolocalización (o cualquiera de nuestros otros conjuntos de datos, como IP a empresa o IP a operador). ¡Es una combinación de un conjunto de diferentes conjuntos de datos, técnicas de procesamiento de datos y lecciones aprendidas haciendo esto desde hace varios años!
Algunas fuentes de datos y técnicas que no se mencionan con frecuencia incluyen:
Alimentaciones directas de los ISP. Nuestro servicio maneja alrededor de 500 millones de solicitudes API por día, y se utiliza en muchos sitios web populares de alto perfil. Por lo tanto, los ISP tienen el incentivo de proporcionarnos datos de geolocalización precisos y actualizados para que sus clientes obtengan una gran experiencia en la web. Estamos trabajando directamente con más y más ISP todo el tiempo.
Datos de ubicación GPS. Es posible recopilar información de ubicación precisa con GPS en dispositivos móviles. Puede vincular eso con la dirección IP y algunas inferencias de topología de red para calcular la ubicación de los rangos de IP con solo unas pocas mediciones.
Correcciones enviadas por el usuario. Cuando nos equivocamos en la ubicación (o no se ha actualizado después de un cambio), a menudo recibimos rápidamente comentarios de los usuarios, y podemos corregir manualmente la ubicación o ajustar nuestro algoritmo para asegurarnos de que esté ubicado correctamente en la próxima ejecución de nuestra tubería de procesamiento de datos.
Para nuestro conjunto de datos de IP a empresa, de hecho eliminamos todos los nombres de dominio todos los meses y hacemos referencias cruzadas de los datos que extraemos allí con información de propiedad de IP, registros de quién es y más. Luego también usamos los datos de raspado de dominio para mostrar qué dominios están alojados en qué direcciones IP, y también en nuestro clasificador de tipo de IP, junto con muchas otras fuentes de datos, para determinar la probabilidad de que una dirección IP se use principalmente como un ISP residencial, empresa o proveedor de alojamiento. También analizamos la estructura de enlaces de esas páginas, y mostrar algunos de estos datos en host.io .