Generando variables aleatorias causalmente dependientes

Estoy tratando de generar conjuntos de variables aleatorias causalmente conectadas y comencé a hacer esto con un enfoque de Monte Carlo.

La línea de base es un histograma medido bidimensional del que extraigo valores aleatorios.

En mis ejemplos concretos, estas variables son la aceleración $\bf{a}$ y velocidad $\bf{v}$ - obviamente $v_{i+1} = v_{i} + a_i * dt$ tiene que aguantar.

Mi enfoque ingenuo actual es:

Empiezo con un poco $v_0$ . Entonces genero un azar $a_0$ de acuerdo con la probabilidad medida de $\bf{a}$ por el valor de $v_0$ . Usando esto $a_0$ Puedo calcular $v_1$ y todo el procedimiento comienza de nuevo.

Entonces cuando reviso las aceleraciones generadas $\bf{a}$ en contenedores de $\bf{v}$ todo está bien. Pero obviamente esto no respeta en absoluto la distribución marginal de $\bf{v}$ .

Estoy un poco familiarizado con los métodos básicos de Monte Carlo, aunque carece de algunos antecedentes teóricos, como puede suponer. Estaría bien si las dos variables en las que simplemente conectados por alguna matriz de correlación, pero la conexión causal entre los dos me da dolores de cabeza.

No pude encontrar un ejemplo para este tipo de problema en alguna parte, podría estar buscando los términos incorrectos. Estaría satisfecho si alguien pudiera señalarme algún tipo de literatura / ejemplo o un método prometedor para conseguir esto.

(O dígame que eso no es realmente posible debido a mis aportes, eso es lo que supongo ocasionalmente ...)

EDITAR:

El objetivo real de todo este procedimiento: tengo un conjunto de medidas $\bf{a}$ y $\bf{v}$ , representado en un histograma bidimensional $N(a,v)$ . Dada esta entrada, me gustaría generar conjuntos de aleatorios $\bf{a_r}$ y $\bf{v_r}$ que reproducen la distribución medida.

monte-carlo random-generation

— sebastian
fuente

Una pregunta interesante Sin embargo, el segundo "obviamente" (acerca de no respetar la distribución marginal) no está nada claro para mí. ¿Por qué es obvio? La distribución de

(v, a)

$(v,a)$ , como se refleja en su "histograma bidimensional", depende de cómo haya muestreado estas variables; Me pregunto si esto podría explicar las posibles diferencias. ¿Qué tipo de datos representa este histograma y cómo "dibuja valores" exactamente?

— whuber

Bueno, para mí es algo obvio, porque el

a

$\bf{a}$ Las distribuciones son bastante simétricas alrededor de cero. Entonces, cuando generamos el

a_{i}

$a_i$ no hay dependencia de

v

$v$ . Cuando la corriente

v

$v$ está en el borde superior del marginal

v

$\bf{v}$ distribución, asumirías que debería haber un sesgo hacia lo negativo

a_{i}

$a_i$ . "dibujar valores" se refiere a: tomar la distribución de probabilidad 1-dim, construir la distribución acumulativa, arrojar un número aleatorio

r

$r$ entre 0 y 1, encuentre el

x

$x$ donde el cum la distribución tiene el valor

r

$r$ . Esta

x

$x$ es mi "valor dibujado"

— sebastian

Para completar: los datos se originan a partir del registro gps. Tengo un conjunto de viajes registrados en automóviles, que registran la velocidad con 1Hz. Entonces hay un par de

v

$v$ y

a

$a$ para cada punto de datos. Estos se rellenan en el histograma.

— Sebastian

Tus comentarios indican que estás asumiendo que

a

$\mathbf{a}$ y

v

$\mathbf{v}$ son independientes Eso no puede ser posible, porque existen limitaciones físicas a las velocidades: eso significa que muchas aceleraciones no se experimentarán a las velocidades más extremas. Sin embargo, no es fácil proporcionar consejos más detallados porque no ha articulado lo que está tratando de lograr; en su lugar, ha descrito un enfoque para resolver un problema no declarado. ¿Por qué no cambia esta pregunta y pregunta sobre el problema que necesita resolver en lugar de cómo implementar una solución que parece no válida?

— whuber

Respuestas:

Parece que para reproducir la distribución conjunta $\rho(a,v)$ , debes seleccionar nuevo $a$ no solo basado en $v$ , pero basado en el viejo $a$ además:

$a_{i+1} \sim \rho'(a_{i+1}|a_i, v_i)$

La pregunta (para la cual aún no sé la respuesta) es cómo encontrar $\rho'$ que produce $\rho$ .

UPD: debe resolver la siguiente ecuación integral:

ρ (a, v) = \int d a^{'} ρ^{'} (a | a^{'}, v - \frac{a + a^{'}}{2} Δ t) ρ (a^{'}, v - \frac{a + a^{'}}{2} Δ t)

$\rho(a, v) = \int da' \rho'\left(a|a', v-{a+a'\over 2}\Delta t\right) \rho(a', v-{a+a'\over 2}\Delta t)$

Aproximando la función $\rho$ con un histograma, conviertes esto en un sistema de ecuaciones lineales:

{\begin{cases} ρ (a, v) = \sum_{a^{'}} ρ^{'} (a | a^{'}, v - \frac{a + a^{'}}{2} Δ t) ρ (a^{'}, v - \frac{a + a^{'}}{2} Δ t) \\ \sum_{a} ρ^{'} (a | a^{'}, v^{'}) = 1 \end{cases}

$\cases{ \rho(a, v) = \sum_{a'} \rho'\left(a|a', v-{a+a'\over 2}\Delta t\right) \rho(a', v-{a+a'\over 2}\Delta t) \\ \sum_a \rho'\left(a|a', v'\right) = 1}$

Este sistema está subdeterminado. Puede aplicar una penalización por suavidad para obtener una solución.

— usuario31264
fuente

¿Los datos GPS no contienen posición? $p$ ? Hubiera pensado que, no solo es $v_{i+1}$ depende de $v_{i}$ y $a_{i}$ pero $a_{i+1}$ también dependería de $p_{i}$ . Considere: en cualquier red de carreteras hay cuellos de botella, límites de velocidad, señales, intersecciones, pendientes pronunciadas, etc. que están geolocalizados. Entonces, algo así como un conjunto (distribución) definido por:

$F_{a} = Pr ( A_{i+1} \le a_{i+1}\ |\ a_{i},v_{i},p_{i} )$
$v_{i+1} = v_{i} + a_{i}dt$

Para tal conjunto, la dificultad radicará en la naturaleza de los datos. Es probable que la verdadera población sea asimétrica, no lineal (por partes) y no tenga momentos definidos. Estas características pueden no ser evidentes dentro de la muestra que tiene a mano.

Como ha dicho @whuber, el problema, es decir, exactamente lo que está buscando producir, todavía no parece estar completamente y claramente definido. No está claro si está interesado en el conjunto o más en los individuos.

— AsymLabs
fuente

Creo que mi problema es bastante claro: tengo la distribución medida de

v

$\bf{v}$ y

a

$\bf{a}$ y de esto me gustaría probar un pseudoaleatorio

v_{r a n d}

$\bf{v_{rand}}$ , que en última instancia reproduce la entrada. Soy muy consciente de su punto sobre si lo que sale de él es realista, pero esa es una pregunta diferente ...

— Sebastian

Como mínimo, como se indica en la ecuación anterior, esto no sería un efecto estacionario. Creo que un primer paso sería agrupar las lecturas según el intervalo de tiempo y luego compararlas. No sé cuántas lecturas tienes, pero esta comparación podría ejecutarse a través de algo como la Distribución de Pearson como punto de partida, para tratar de clasificar la naturaleza de la distribución.

— AsymLabs