¿Consideraría que la geocodificación en línea es una violación de la privacidad?


21

Supongamos que tengo un montón de direcciones de personas que participan en cierto estudio (muy probablemente relacionadas con la salud, donde la privacidad y las consideraciones éticas son siempre cuestiones importantes).

Hoy en día, proveedores como Google o Yahoo ofrecen resultados decentes en términos de precisión posicional.

La Asociación Norteamericana de Registros Centrales del Cáncer ( NAACCR ) enumera tales opciones en sus guías de ' Mejores prácticas de geocodificación: revisión de ocho sistemas de geocodificación de uso común ' y ' Guía de mejores prácticas de geocodificación '.

Cinnamon y Schuurman (2010), por ejemplo, utilizaron el servicio BatchGeocode como parte de su herramienta para investigar lesiones en entornos de bajos recursos.

¿Consideraría que la codificación geográfica de dichas direcciones mediante servicios en línea, como Google Maps u OpenStreetMap, constituye una violación de la privacidad?

Pregunta posiblemente relacionada con PS1 .

El artículo reciente de PS2 en Epidemiology (una de las principales revistas de revisión por pares en el campo) publicó una breve comunicación que detalla las instrucciones sobre cómo geocodificar utilizando las API de Google Maps & Places. Curiosamente, no se mencionó una palabra sobre seguridad / privacidad ...


¿Pregunta de alcance de wiki comunitario?
artwork21

Respuestas:


11

Definitivamente hay una implicación de privacidad aquí, particularmente si está trabajando con pequeños lotes de datos. Cualquiera que intente extraer el flujo de datos podrá hacer suposiciones de que todas las solicitudes en el mismo lote tienen algo en común, incluso si la condición médica o la información personal no se divulga por cable.

Una mejor técnica es agrupar muchos datos / pacientes no relacionados para la geocodificación masiva.

Por ejemplo, combine sus datos que necesitan geocodificación con otros investigadores: cuantos más problemas no relacionados, mejor. Aleatorizar el orden de las solicitudes. Y una vez al día procesa por lotes a través de esta cola, todo a la vez.

Ahora se vuelve mucho más difícil extraer los datos, incluso si un atacante puede escuchar las solicitudes de geocodificación.


¡Interesante! ¿Alguna herramienta / plataforma que pueda facilitar este proceso?
Nicolas Raoul

8

La geocodificación local con archivos cifrados en un servidor seguro definitivamente sería el estándar de oro para la privacidad. Usar Tor sería la siguiente mejor opción si se necesita geocodificar usando una API remota.

Tor lo protege al hacer rebotar sus comunicaciones en una red distribuida de retransmisores gestionados por voluntarios de todo el mundo: evita que ... los sitios que visita conozcan su ubicación física.

Junto con la inyección de direcciones aleatorias (como recomiendan otros aquí) y el uso de SSL (https) para cifrar las comunicaciones a sus puntos finales (asegúrese de que también lo esté haciendo), no puedo pensar en una forma más segura de geocodificar de forma remota que a través de El Proyecto Tor . Cualquier servicio de geocodificación que esté utilizando nunca podrá identificar de dónde provienen las solicitudes, y con https, nadie más lo hará. Nota: no use un servicio de geocodificación que requiera una clave de API para esto, o ya no será anónimo. (Google ya no requiere una clave de API).

Más detalles sobre el uso de Tor están en mi respuesta a una pregunta relacionada aquí.


Gracias, no he pensado en Tor, pero parece una buena idea.
radek

Incluso si usa Tor, el servidor de geocodificación aún recibe su información, lo cual es una violación fundamental de la privacidad. No puede confiar en el servidor de geocodificación.
Nicolas Raoul

8

Esta es una excelente pregunta que me han hecho varias veces últimamente desde que trabajo para una compañía de verificación de direcciones llamada SmartyStreets.

En primer lugar, una dirección postal representa un único punto localizable en el mapa. Una dirección en sí misma es inherentemente benigna porque no tiene ninguna información adicional. Dibujar un punto en un mapa no hace nada. Solo cuando comienza a asignar CONTEXTO a ese punto (dirección) comienza a significar algo.

Con eso en mente, una dirección postal puede representar a una persona, una organización, un edificio, un automóvil, lo que sea. Una vez que comienza a recopilar varias direcciones postales, aumenta el contexto que se puede derivar de esa agrupación. Se pueden determinar las similitudes para ver qué tienen en común las direcciones. Aún así, solo una agrupación de direcciones en un área similar no denota mucho contexto. Puedo mirar un mapa de google y ver todas las casas en un área determinada. Eso no es una violación de la privacidad a menos que tenga acceso no autorizado a información privilegiada.

Deben combinarse otros puntos de contexto para realmente entregar cualquier tipo de datos privados. Por ejemplo, un grupo de direcciones postales que se envían a un servicio en línea para verificación de direcciones y / o geocodificación no proporciona información a menos que sepa quién envió la lista para su procesamiento. Una vez que se conoce al propietario de la lista, se pueden hacer ciertas inferencias sobre el uso previsto de la lista. Conocer este contexto adicional, como el propietario de la lista y el uso previsto, sin duda calificaría como información privilegiada y puede ser una fuente de violación de la privacidad.

Una opción es llevar el procesamiento "internamente" para que no participe ningún servicio de datos externo. Ciertamente excluye cualquier tipo de acceso no autorizado a información privilegiada. La verificación de direcciones y la geocodificación no son tareas para los no iniciados y ciertamente requieren habilidades avanzadas (lo que significa experiencia adquirida con el tiempo) para procesar listas muy grandes sin consumir cantidades excesivas de tiempo y recursos. Por lo tanto, llevarlo a casa es ciertamente una opción, pero ¿todas las empresas que tienen información confidencial de la dirección tienen los recursos para hacer su propio procesamiento de direcciones "seguro" (incluida la geocodificación) en la empresa? No. (Aunque ciertamente significaría seguridad laboral para los lectores de este sitio web).

Hay formas de mantener la privacidad requerida y seguir utilizando los servicios en línea. Un método sería crear una cuenta, hacer que todo se pruebe y se resuelva y luego, utilizando una dirección de correo electrónico temporal, configure una nueva cuenta con una dirección de facturación no relacionada asociada con una tarjeta de crédito que no pueda rastrearse. El procesamiento de las direcciones en esta cuenta teóricamente no revelaría ningún contexto valioso y, por lo tanto, mantendría la privacidad de las personas en la lista. (Esto comienza a sonar como la película Enemy Of The State .

Si eso suena complejo e innecesario, estoy de acuerdo. Un método más simple sería aprovechar una API que utiliza HTTPS y POST y que no almacena ni registra ninguno de los datos que procesa. El uso de HTTPS significa que el único registro sería una marca de tiempo y la dirección IP desde la que llama. La URL subyacente no se conocería. Por supuesto, la cuenta que usa le devolvería PERO, eso no es un problema porque el uso de una solicitud POST le permite adjuntar una carga útil (en este caso, un lote de direcciones) y el contenido de la carga útil no se registra. Por lo tanto, las direcciones que envía no están en ningún registro del servidor. Y el hecho de que la memoria se borre entre cada proceso significa que esas direcciones nunca se almacenan o registran y su transmisión se realiza a través de una conexión segura.

13 de marzo de 2012 06:31 (-6) IP: 12.134.223.12 ID de usuario: 875564 - CANTIDAD POST: 3439942 - [Procesado]

Cualquiera que mire los registros vería solo que usted procesó algunas direcciones y no sabría qué direcciones se procesaron. Esto satisface incluso los requisitos de política de privacidad más estrictos. No tendría sentido señalar que este tipo de servicio está disponible (y súper rápido ) sin mencionar dónde encontrarlo. Ya está integrado en el servicio API LiveAddress de SmartyStreets. Otros servicios como Cdyne, QAS y ServiceObjects también pueden ofrecer servicios similares, pero aún no he oído hablar de ninguno.


Gracias por la información detallada. HTTPS definitivamente suena como una idea razonable. ¿Supongo que SmartyStreets está limitado a EE. UU.?
radek

Sí, la verificación de direcciones y geocodificación de SmartyStreets se limita a las direcciones del Servicio Postal de los EE. UU.
Jeffrey

5

Posiblemente podría crear una identificación, dividir su tabla. Eliminación de información de identificación personal. luego vuelva a unirse a la tabla después de geocodificar.

En el sentido de (PCness federado) supongo que podría probar que una vez que ejecuta los datos en un servidor en algún lugar, no mantiene la cadena de custodia.

Encontré un poco de escritura sobre el tema si desea seguir ...

Posesión y control de la nube

Posesión y control electrónico de la edad.

Libro de Google

Implicación legal de la computación en la nube

Si la aplicación se lleva a cabo conforme a la ley, la computación en la nube podría quedar completamente excluida de los servicios gubernamentales.


5

No, puedes geocodificar sin conexión. Si está utilizando geocodificadores por lotes en línea, ¿cómo se convierte la conversión de direcciones en coordenadas geográficas en un problema de privacidad? Sería más problemático si se incluyera y publicitara el nombre de todos. Como Brad menciona una dirección separada con una ID y la vuelve a asociar cuando las direcciones han sido geocodificadas. Práctica estándar.


55
Acepto que puede geocodificar sin conexión y no tener que revelar ninguna información personal. Pero no estoy de acuerdo con su sugerencia que solo considera el nombre y la identificación como información que debe mantenerse privada. Si revela la dirección particular de una persona, incluso sin su nombre, esencialmente la ha identificado. Piense en publicar un mapa con puntos en las casas de personas con enfermedades transmisibles altamente embarazosas.
DavidF

2
Como dijo Mapperz, siempre que la información que envíe se limite a la dirección, no debería haber ningún problema. No incluya "HECD", ni ninguna otra información confidencial, en la información que está enviando.
jvangeld

1
@DavidF cada dirección tiene coordenadas geográficas: la geocodificación es 99.9% automatizada [computación], no se pierde privacidad. Si no le gusta en línea, no lo ponga allí, use una versión sin conexión.
Mapperz

2
@jvangeld Sigo pensando que se podría violar la privacidad en la situación en línea cuando un tercero puede combinar la identidad de la organización que envía la solicitud de geocodificación y las direcciones. Si el Frente Popular para el Tratamiento del Vampirismo presenta un geocódigo por lotes con 100 direcciones, ¿no cree que un tercero podría suponer razonablemente que las 100 casas tenían personas que intentaban curarse de su 'estilo de vida alternativo'? Obviamente, este es un argumento bastante académico, pero si realmente desea proteger la privacidad y el anonimato, creo que es relevante.
DavidF

1
La opinión de @DavidF es muy importante aquí: la dirección del hogar se considera muy sensible y podría conducir a la divulgación de los participantes del estudio. Si hay 1000 solicitudes de una dirección IP de una institución que estudia vampirismo, uno podría simplemente asumir que tienen direcciones de 1000 vampiros potenciales. Mi problema aquí es: ¿se puede considerar el servicio de geocodificación en línea como "parte segura" en tales condiciones? ¿Se le puede acusar de compartir sus datos con terceros no autorizados que no forman parte del estudio? ¿Le parece que a través del proceso de geocodificación tiene acceso potencial a los datos?
radek

4

La geocodificación es de bajo riesgo A principios de este año trabajamos con algunos hospitales y surgió esta pregunta. El servicio de geocodificación en sí mismo no fue una gran preocupación porque eliminamos todo menos la identificación y la dirección de los datos, utilizamos la transferencia segura (https) y los TOS, nuestro geocodificador interno especificó protecciones de privacidad que fueron suficientes para cumplir con sus criterios.

Mostrar ubicaciones anónimamente es más difícil El aspecto más complicado fue mostrar mapas de datos escasos mientras se mantenía el anonimato. La primera opción que solicitó el cliente fue agregar un "fudge" aleatorio en cada punto para que la ubicación real de la casa quedara oculta. El problema con este enfoque es que el tamaño del dulce requerido es bastante grande (1/2 milla o más) (¿y si alguien vive en una granja?) Y la tendencia de los usuarios del mapa a tomar las ubicaciones de los puntos como precisas. Nos decidimos a agregar los puntos que mostraban lo suficiente como para ser anónimos y al mismo tiempo tener un mapa útil. Una norma de otras industrias en las que hemos trabajado parece ser que la unidad de agregación debe tener al menos 7 a 10 registros.


2

¿Supongo que lo está geocodificando y no haciendo públicos los resultados? Si es así, ¿cómo sería consciente la nube de lo que representan esos datos?

Presumiblemente, también puede ofuscar cualquier información que geocodifique con datos aleatorios que oculten cualquier patrón inherente que pueda existir.


correcto, el punto es obtener un conjunto de coordenadas geográficas para un conjunto de datos dado. todo el resto del análisis estará fuera de línea y todo lo publicado más adelante nunca utilizará información de nivel individual. ¡Me gusta la idea de ofuscar el conjunto de datos!
radek

2

No sé si esto es nuevo ya que se hizo la pregunta, pero si alguien se preguntaba en la API v3 de Google Maps, puede usar SSL (https). Además, la sección de privacidad de la Guía de mejores prácticas de NAACCR trata estos temas.


2

En Austria esto definitivamente sería un problema de privacidad.

En primer lugar: los datos de salud se clasifican como sensibles y no hay duda de que no está permitido cederlos a terceros sin el consentimiento explícito de la persona que está relacionada con ese conjunto de datos.

Incluso si está anonimizado: es posible geocodificar estos datos de salud, pero también es posible geocodificar registros de nombre a dirección (agenda telefónica) disponibles públicamente y conectar datos de salud a personas que viven allí, por lo que las direcciones también se clasifican como personales. datos.

Esto lleva al resultado, que no se le permitiría geocodificar este conjunto de datos enviándolo a un tercero sin preguntar explícitamente a sus participantes.


1

¿Necesita un geocódigo exacto o un área general? Es posible que pueda usar solo el código postal o el código postal parcial f


@ user1466: el geocódigo exacto definitivamente sería una preferencia aquí.
radek

1

Trabajo para una empresa de geocodificación ( YAddress.net ), y tenemos una gran cantidad de clientes con estrictos requisitos de privacidad: industria financiera, salud, derecho, etc.

Abordamos sus preocupaciones de privacidad de dos maneras:

  1. Procesamiento de datos en línea a través de conexiones encriptadas SSL (evita el espionaje de datos en tránsito), además de acuerdos de privacidad de nuestro lado. Esto es suficiente para algunos clientes, pero no para todos.

  2. Para una máxima privacidad, una opción de implementación de software en el sitio, donde la geocodificación se lleva a cabo completamente en las instalaciones del cliente y nunca se envían datos a través de Internet.

Como los otros comentaristas señalaron correctamente, una dirección postal en sí misma es una información pública y sin ningún dato contextual (como nombres de clientes, números, etc.) no representa ninguna divulgación de nada. Sin embargo, las empresas de la vida real operan en entornos legales de la vida real, donde esta línea de razonamiento puede o no presentarse ante los tribunales. Si la privacidad es una preocupación apremiante, el costo adicional de una solución en el sitio puede valer la pena para evitar el riesgo de posibles complicaciones legales en el futuro.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.