¿Necesita un conjunto de datos de referencia de trayectoria GPS?


13

Estoy buscando un conjunto de datos GPS de referencia, disponible para fines de investigación de forma gratuita. Encontré el conjunto de datos GeoLife GPS Trajectories de Microsoft Research pero lo encuentro un poco incompleto.

Lo que necesito son los datos de actividad GPS de una persona, como en tuplas (latitud, longitud, fecha), rastreados durante al menos varios meses, preferiblemente de forma continua. También me gustaría que las grabaciones no sean escasas; como máximo 1 minuto entre cada registro.

Realmente lo agradecería si me puede señalar hacia un conjunto de datos tan confiable.


2
¿Este conjunto de datos tiene que ser de un ser humano? (La forma en que ha estado redactando todo hasta ahora implica que sí, pero no creo que se haya dicho explícitamente).
Dan S.

Respuestas:


17

Creo que tu mejor oportunidad será rastrearte. Si la idea te molesta, esa es la razón por la cual no encontrarás tales datos públicos en ningún lado.



4

No aguantaría la respiración. Los datos con tal precisión serían una tarea masiva y tendrían enormes implicaciones de privacidad (incluso si solo fuera por 30 días para un individuo que incluiría 43.200 puntos de datos (si se registran cada minuto) e indudablemente identificarían la ubicación de su hogar).

Si está interesado en preguntas sustantivas de que dichos datos contengan este consejo, no lo ayudará. Pero si solo está interesado en algún tipo de estrategia analítica para manejar datos tan masivos, debería poder simplemente simular datos a esa escala para cumplir con sus propósitos. Simular a los datos que sugeriría que eche un vistazo en el programa estadístico R, y la spatstat y el viaje de paquete en particular (así como todos los módulos espaciales en I).

Sería escéptico, incluso los datos de seguimiento de animales cumplirían sus requisitos para puntos de datos en intervalos tan cortos. Podría enumerar algunos artículos que he leído que usan datos de teléfonos celulares para estimar los patrones de actividad humana, pero ninguno de los que he leído se acercaría tanto tiempo o mediría la actividad de las personas con tanta frecuencia.


4

Una opción es redactar un contrato y contratar a mucha gente. Proporcione unidades GPS configuradas para tomar lecturas que brinden los datos que necesita, suficientes baterías para durar el contrato e instrucciones (conéctelo con este cable para cargarlo todas las noches, envíeme este archivo por correo electrónico, etc.)

Definitivamente necesitaría escribir en el contrato cómo restringiría la distribución de los datos y anonimizarlos para protegerlos (tal vez proporcionando un radio de exclusión aproximado de media milla alrededor de los puntos que la persona indica que son privados) e incluso podría considere comprar un seguro contra pérdidas. Si las huellas de la actividad de las personas se hicieran públicas, se llenarían de información como: "Me voy al trabajo todas las mañanas a las 7:00 y vuelvo a casa todas las noches a las 19:00", y una trama se vería como un asterisco gigante centrado en su casa diciendo "robar este lugar entre las 8:00 y las 18:00". Puede ver por qué debería preocuparse por la privacidad y la seguridad.

Si lo piensa, está pidiendo algunos datos muy caros. Y sin un conjunto estadísticamente lo suficientemente grande, será de dudoso valor. Piense en cuán diferentes serían los rastros entre un trabajador de la construcción (un nuevo viaje repetitivo después de cada edificio terminado), un transportista postal (una ruta muy repetitiva y muy serpentina), un empleado de oficina (una ruta directa en su mayoría repetitiva) y una grúa conductor (nuevas rutas continuamente.) El estado socioeconómico puede afectar las huellas: los ingresos más bajos pueden seguir más las líneas de transporte público y viajar menos. Los padres de niños en edad escolar pueden tener un promedio mayor de millas de trabajo después del trabajo. Sin mencionar al tipo que conduce los autos de Google Street View.

Es probable que ninguno de esos rastros se cruce con ninguno de los otros de manera significativa.

Es probable que el número de estilos únicos sea finito, pero tan alto que requiera un presupuesto significativo para obtenerlo. Y eso sería en una sola ciudad.

Es posible que pueda obtener un conjunto de datos más pequeño (más barato) si define mejor sus objetivos. Si está tratando de cuantificar los diversos tipos de patrones, tal vez muestree una amplia gama de personas en una variedad de ciudades. Si está tratando de averiguar quién se beneficiaría del transporte público o dónde ubicar los corredores ferroviarios de cercanías, probablemente sea mejor que cuente los automóviles en las diversas carreteras alrededor del área que planea servir y realice encuestas.


2

También estoy buscando el tipo exacto de conjunto de datos que estás buscando. Desafortunadamente, hasta ahora no he encontrado uno todavía. A pesar de los datos de GeoLife, otra fuente que encontré es CRAWDAD . El sitio tiene registros GPS de taxis de San Francisco y también de peatones de Nueva York. Desafortunadamente, para los peatones de Nueva York solo proporcionan coordenadas relativas en lugar de lat / lon.


2

Hay muchos temas de investigación donde los datos necesarios para responder la pregunta no están disponibles por razones morales, y los experimentos que sobrepasan estos límites pueden conducir a restricciones futuras, como fue el caso con el experimento de Milgram . Más recientemente, AOL tuvo que extraer un corpus de consultas de búsqueda debido a las preocupaciones de privacidad, y el único conjunto de datos confiable que tenemos sobre los hábitos de correo electrónico provino de la prueba de Enron .

Entonces, si bien es técnicamente posible obtener tal conjunto de datos de trayectoria, puede que nunca sea práctico debido a las implicaciones de privacidad. Como han mencionado otras respuestas, los conjuntos de datos relativos, la agregación sobre individuos o la simulación pueden ser mejores enfoques para abordar su pregunta, evitando el problema de privacidad.



2

El proyecto Open PFLOW ofrece:

conjunto de datos abierto para movimiento de masas típico de personas en áreas urbanas

El área metropolitana de Tokio está disponible y el área metropolitana de Chukyo parece estar en preparación.

Los detalles se pueden encontrar en una publicación reciente:

Takehiro Kashiyama, Yanbo Pang, Yoshihide Sekimoto, Open PFLOW: creación y evaluación de un conjunto de datos abierto para el movimiento de masas de personas típicas en áreas urbanas, Investigación de transporte Parte C: Tecnologías emergentes (2017) Volumen 85, páginas 249–267.


El conjunto de datos de trayectoria de T-Drive es un hallazgo reciente. Proporciona:

una trayectoria de una semana de 10,357 taxis. El número total de puntos en este conjunto de datos es de aproximadamente 15 millones y la distancia total de las trayectorias alcanza los 9 millones de kilómetros.


Aunque no se trata de movimientos humanos, la compañía Liquid Robotics pone a disposición un conjunto de datos interesante de su desafío PacX . Los datos sobre la ubicación y las lecturas del sensor ambiental de cuatro planeadores robot que navegan por el Océano Pacífico están disponibles para descargar . Más información sobre el proyecto (realmente genial) en el blog , a través de WIRED y esta charla .


Otra opción para abordar los problemas de privacidad sería utilizar datos de seguimiento de animales. Supongo que la protección de datos será un problema menor aquí. Como ventaja, es posible que aún pueda probar su software / métodos con datos de movimiento del mundo real. La desventaja podría ser que si su aplicación necesita movimientos 'específicos para humanos', es posible que no se ajusten a su propósito.

Eche un vistazo a los sitios web de Movebank o DRYAD para verificar si algunos de sus datos podrían encajar en su proyecto.


En cuanto a los datos de iPhone, mencionados por Matthew , puedes echar un vistazo a los proyectos de flujo de público y rutas abiertas . ¿Quizás hay una manera de obtener algunos datos a través de ellos? Actualización: ambos enlaces parecen estar muertos ahora.


Otra opción es la parte espacial de los datos de taxi de Chris Whong en Nueva York . Solo proporcionan ubicaciones de recogida y entrega, sin embargo, el volumen (¡11 GB!) Y la información contextual (tarifa, pasajeros, etc.) los hacen realmente atractivos ( descarga alternativa , más información sobre preocupaciones de privacidad planteadas por los datos).


La publicación de Urška Demšar sobre su reciente artículo sobre 'Análisis de la movilidad humana a partir de datos de movimiento voluntario e información contextual' promete:

También habrá un conjunto de datos gratuitos de trayectorias GPS voluntarias vinculadas a este documento disponibles en breve. Manténganse al tanto.

( más información )

Actualización: el documento menciona que los datos estarán disponibles en CRAWDAD mencionado por @ejel pero no lo he encontrado allí.


Otra opción podría ser crear un conjunto de datos sintético usted mismo . Si necesita algo de inspiración, mire el artículo reciente de van Dijk J (2018) Identificación de puntos de viaje de actividad a partir de datos GPS con múltiples ventanas móviles Computadoras, medio ambiente y sistemas urbanos ( enlace ). Se proporcionan más detalles en el apéndice y el código del documento, y el conjunto de datos de ejemplo está disponible en github .


1

Tahina Expedition (Blog de Google Earth) http://www.tahinaexpedition.com/map ha estado navegando durante la mayor parte del año pasado.

KML se puede procesar http://maps.google.com/maps/ms?source=embed&hl=en&geocode=&ie=UTF8&t=k&msa=0&output=nl&msid=103005318482134016767.0004670ab348ba9fa7b1f [era una pista gps ahora convertida a kml]


@Mapperez - Gracias Mapperez, pero lo que necesito es un poco diferente. Quisiera los puntos GPS registrados día a día, minuto a minuto de una persona en tierra. Una persona con una rutina diaria (algo así como una rutina), como levantarse, ir a trabajar, pasar horas allí, ir de compras, volver a casa, repetir.
Murat

1

Las personas proporcionan esos datos a Google de forma gratuita durante todo el día. Se llama Latitud. Tal vez lo compartirán tan generosamente como sus usuarios lo han compartido con ellos.


1
Ciertamente espero que no lo hagan. Estoy bastante seguro de que no se les permitirá publicar ningún dato en el nivel requerido por la aplicación de @ Murat.
oscuro
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.