Bootstrap vs Monte Carlo, estimación de error

12

Estoy leyendo el artículo Propagación de errores por el método Monte Carlo en cálculos geoquímicos, Anderson (1976) y hay algo que no entiendo del todo.

Considere algunos datos medidos y un programa que los procese y devuelva un valor dado. En el artículo, este programa se utiliza para obtener primero el mejor valor utilizando los medios de los datos (es decir: ). $\{A\pm\sigma_A, B\pm\sigma_B, C\pm\sigma_C\}$ $\{A, B, C\}$

Luego, el autor utiliza un método de Monte Carlo para asignar una incertidumbre a este mejor valor, variando los parámetros de entrada dentro de sus límites de incertidumbre (dados por una distribución gaussiana con medias y desviaciones estándar ) antes de alimentarlos al programa. Esto se ilustra en la siguiente figura: $\{A, B, C\}$ $\{\sigma_A, \sigma_B, \sigma_C\}$

( Copyright: ScienceDirect )

donde la incertidumbre se puede obtener de la distribución final . $Z$

¿Qué pasaría si, en lugar de este método de Monte Carlo, aplicara un método de arranque? Algo como esto:

Esto es: en lugar de variar los datos dentro de sus incertidumbres antes de enviarlos al programa, muestro con reemplazo de ellos.

¿Cuáles son las diferencias entre estos dos métodos en este caso? ¿Qué advertencias debo tener en cuenta antes de aplicar alguna de ellas?

Soy consciente de esta pregunta Bootstrap, Monte Carlo , pero no resuelve mi duda ya que, en este caso, los datos contienen incertidumbres asignadas.

bootstrap monte-carlo error

— Gabriel
fuente

Solo para aclarar: ¿el "cambio aleatorio" en el método MC es generado aleatoriamente por el investigador? Es decir, ¿se agregan artificialmente ruido / errores a los datos de entrada?

— shadowtalker

σ

$\sigma$

No creo entender. Eso es ruido artificial, pero con una desviación estándar estimada de los datos

— shadowtalker

Entonces, probablemente no entiendo qué es "ruido artificial" (y qué constituiría "ruido no artificial"). ¿Has visto el artículo? Ciertamente explica las cosas mucho mejor que yo.

— Gabriel

Ruido natural: variación aleatoria en mis datos. Ruido artificial: uso de un generador de números aleatorios para dibujar números de una distribución de probabilidad y agregar esos números a mis datos

— shadowtalker

7

Hasta donde entiendo su pregunta, la diferencia entre el enfoque "Monte Carlo" y el enfoque bootstrap es esencialmente la diferencia entre las estadísticas paramétricas y no paramétricas.

$x_1,\ldots,x_N$ $A$ $\sigma_A$ $Z$

$F$ $\hat F$ $1/n$ $\hat F$ $F$ $Z$

Por lo tanto, la principal diferencia entre ambos enfoques es si uno hace o no esta suposición paramétrica sobre la distribución de los datos.

— Xi'an
fuente

2

Casi dos años después, sé que esta es la mejor respuesta porque menciona explícitamente la diferencia entre los enfoques paramétricos y no paramétricos (que no sabía en ese momento). Por lo tanto, estoy cambiando la respuesta aceptada a esta. .

— Gabriel

pero para el enfoque paramrtric también se puede usar bootstrap paramétrico ¿verdad?

— Tom Wenseleers

12

El cambio aleatorio en su modelo de Monte Carlo está representado por una curva de campana y el cálculo probablemente supone un "error" o "cambio" distribuido normalmente. Al menos, su computadora necesita alguna suposición sobre la distribución de la cual extraer el "cambio". Bootstrapping no necesariamente hace tales suposiciones. Toma las observaciones como observaciones y si su error se distribuye asimétricamente, entonces entra en el modelo de esa manera.

Bootstrapping se basa en la observación y, por lo tanto, necesita una serie de observaciones verdaderas. Si lees en un libro, ese promedio de C es 5 con una desviación estándar de 1, entonces puedes configurar un Monte Carlo Modell incluso si no tienes observaciones para sacar. Si su observación es escasa (piense en astronomía), puede configurar un Monte Carlo Modell con 6 observaciones y algunas suposiciones sobre su distribución, pero no iniciará con 6 observaciones.

Son posibles modelos mixtos con alguna entrada extraída de datos observados y algunos de datos simulados (digamos hipotéticos).

Editar: En la siguiente discusión en los comentarios, el póster original encontró lo siguiente útil:

Al "programa original" no le importa, si obtiene un valor, que usted calculó a partir de una media y una desviación o que es una verdadera realización de una media y una desviación en un proceso natural.

— Bernhard
fuente

1

N \to \infty

$N\to\infty$

1

Soy autodidacta estadística / de aprendizaje automático, por lo que no afirmaré que ninguna de las diferencias que mencioné son las únicas. Ni siquiera estoy seguro, si Bootstrapping se considera un método de Monte Carlo en sí mismo. Ambos algoritmos simulan una gran cantidad de escenarios realistas. Puede dibujar la entrada de suposiciones o de observaciones. Mi campo es la medicina y las suposiciones son notoriamente erróneas en ese campo. Por lo tanto, trataría de hacer observaciones cuando estén disponibles en cantidades suficientemente grandes. Bien puede ser, que en un campo más cercano a la física o la química, ...

— Bernhard

1

... que en campos más cercanos a la física o la química, las suposiciones son más confiables. En cuanto al punto 2: supongo que si utiliza muestras e iteraciones lo suficientemente grandes, encontrará que los datos reales nunca se distribuyen realmente de manera normal y que sus suposiciones siempre son un poco incorrectas, pero no puedo afirmar ningún conocimiento. En cuanto al punto 3: no estoy seguro de haber entendido lo que quiere decir al descartar datos valiosos en el método bootstrap. "Asignar incertidumbre" es hecho por el hombre, los datos provienen de la realidad. Nuevamente, esta es mi creencia basada en mi campo. En realidad, rara vez tendrá una buena teoría y grandes datos

— Bernhard

1

σ_{A}, σ_{B}, σ_{C}

$\sigma_A, \sigma_B, \sigma_C$

1

Cada observación es un valor medido y, por lo tanto, ya contiene su propio error de medición e incertidumbre. Al "programa original" no le importa, si obtiene un valor, que usted calculó a partir de una media y una desviación o que es una verdadera realización de una media y una desviación en un proceso natural. Pero, por supuesto, todas las técnicas de remuestreo se basan en una gran base de datos y puede calcular números arbitrarios o números aleatorios, pero generalmente no hace números arbitrarios de observaciones. Entonces, en los casos en que tiene una gran cantidad de observaciones, no veo, donde se descartan los datos.

— Bernhard

1

Si la función que relaciona la salida Z con las entradas es razonablemente lineal (es decir, dentro del rango de variación de las entradas), la varianza de Z es una combinación de las variaciones y covarianzas de las entradas. Los detalles de la distribución no importan demasiado ... Entonces, ambos métodos deberían devolver resultados similares.

Ver el Suplemento 1 a la GOMA

— Pascal
fuente

¿Qué sucede cuando la función no es razonablemente lineal? ¿Cómo diferirán estos dos métodos entonces?

— Gabriel

En ese caso, debe consultar la respuesta anterior, de Bernhard. Es decir, para que coincidan, debe tener una descripción fiel de los datos PDF para Monte Carlo.

— Pascal

0

Bootstrap significa dejar que los datos hablen por sí mismos. Con el método Monte Carlo, se toman muestras de muchos sorteos aleatorios del CDF impuesto (normal; gamma; beta ...) a través de una distribución uniforme y se crea un PDF empírico (siempre que el CDF sea continuo y derivable). Una explicación interesante de todo el proceso de Monte Carlo se informa en: Briggs A, Schulper M, Claxton K. Modelado de decisiones para la evaluación económica de la salud. Oxford: Oxford University Press, 2006: 93-95.

— Carlo Lazzaro
fuente