Preguntas sobre bootstrap paramétrico y no paramétrico


14

Estoy leyendo el capítulo sobre Estadísticas frecuentes del libro de Kevin Murphy " Aprendizaje automático: una perspectiva probabilística ". La sección sobre bootstrap dice:

El bootstrap es una técnica simple de Monte Carlo para aproximar la distribución de muestreo. Esto es particularmente útil en casos donde el estimador es una función compleja de los parámetros verdaderos.

La idea es simple. Si supiéramos los parámetros verdaderos , podríamos generar muchos (digamos ) conjuntos de datos falsos, cada uno de tamaño N , a partir de la distribución verdadera, x_i ^ s \ sim p (· | θ ^ ∗) , para s = 1: S, i = 1: N . Entonces podríamos calcular nuestro estimador de cada muestra, \ hat {\ theta ^ s} = f (x ^ s_ {1: N}) y usar la distribución empírica de las muestras resultantes como nuestra estimación de la distribución de muestreo. Como se desconoce \ theta , la idea del bootstrap paramétrico es generar las muestras usando \ hat {\ theta} (D) en su lugar. SN x s ip(· | θ )s=1:S,i=1:N ^ θ s =f( x s 1 : N )θθSNxisp(·|θ)s=1:S,i=1:Nθs^=f(x1:Ns)θθ^(D)

Una alternativa, llamada bootstrap no paramétrica , es muestrear xis (con reemplazo) de los datos originales D y luego calcular la distribución inducida como antes. Algunos métodos para acelerar el bootstrap cuando se aplican a conjuntos de datos masivos se discuten en (Kleiner et al. 2011).

  • 1 . El texto dice:

    Si supiéramos los parámetros verdaderos θ ... podríamos calcular nuestro estimador de cada muestra, θs^ ...

        pero ¿por qué usaría el estimador de cada muestra si ya conozco los parámetros verdaderos θ ?

  • 2 . Además, ¿cuál es la diferencia aquí entre la distribución empírica y la distribución de muestreo?

  • 3 . Finalmente, no entiendo la diferencia entre bootstrap paramétrico y no paramétrico de este texto. Ambos infieren del conjunto de observaciones , pero ¿cuál es exactamente la diferencia?DθD

Respuestas:


14

La respuesta dada por miura no es del todo precisa, así que estoy respondiendo esta vieja pregunta para la posteridad:

(2) Estas son cosas muy diferentes. El cdf empírico es una estimación de la CDF (distribución) que generó los datos. Precisamente, es el CDF discreto el que asigna la probabilidad a cada punto de datos observado, , para cada . Este estimador converge al verdadero cdf: casi seguramente para cada (de hecho de manera uniforme).F ( x ) = 11/nx F (x)F(x)=P(Xix)xF^(x)=1ni=1nI(Xix)xF^(x)F(x)=P(Xix)x

La distribución de muestreo de un estadístico es, en cambio, la distribución del estadístico que esperaría ver bajo la experimentación repetida. Es decir, realiza su experimento una vez y recopila datos . es una función de sus datos: . Ahora, suponga que repite el experimento y recopila datos . Al T en la nueva muestra se obtiene . Si se recogieron 100 muestras tendríamos 100 estimaciones de . Estas observaciones de forman la distribución muestral deX 1 , , X n T T = T ( X 1 , , X n ) X 1 , , X n T = T ( X 1 , , X n ) T T TTX1,,XnTT=T(X1,,Xn)X1,,XnT=T(X1,,Xn)TTT. Es una verdadera distribución. A medida que el número de experimentos llega al infinito, su media converge a y su varianza a .V a r ( T )E(T)Var(T)

En general, por supuesto, nosotros no repetir los experimentos de este tipo, que sólo he ver una instancia de . Averiguar cuál es la varianza de partir de una sola observación es muy difícil si no conoce la función de probabilidad subyacente de a priori. Bootstrapping es una manera de estimar que la distribución de muestreo de mediante la ejecución artificialmente "nuevos experimentos" en el que para calcular nuevas instancias de . Cada nueva muestra es en realidad solo una muestra de los datos originales. Que esto le proporcione más información de la que tiene en los datos originales es misterioso y totalmente increíble.T T T TTTTTT

(1) Tienes razón, no harías esto. El autor está tratando de motivar el bootstrap paramétrico describiéndolo como "lo que haría si supiera la distribución", pero sustituyendo un muy buen estimador de la función de distribución: el cdf empírico.

Por ejemplo, suponga que sabe que su estadístico de prueba se distribuye normalmente con media cero, varianza uno. ¿Cómo estimaría la distribución muestral de ? Bueno, dado que conoce la distribución, una forma tonta y redundante de estimar la distribución de muestreo es usar R para generar aproximadamente 10.000 variables aleatorias normales estándar, luego tomar su media y varianza de muestra, y usarlas como nuestras estimaciones de la media y varianza de la distribución de muestreo de .T TTTT

Si no conocemos a priori los parámetros de , pero sabemos que normalmente está distribuido, lo que podemos hacer en su lugar es generar aproximadamente 10.000 muestras del cdf empírico, calcular en cada una de ellas y luego tomar la media de la muestra y la varianza de estos 10.000 s, y los utilizan como nuestras estimaciones del valor esperado y la varianza de . Como el cdf empírico es un buen estimador del cdf verdadero, los parámetros de la muestra deben converger a los parámetros verdaderos. Esta es la rutina de arranque paramétrica: usted posiciona un modelo en la estadística que desea estimar. El modelo está indexado por un parámetro, p. Ej. , que calcula a partir del muestreo repetido del ecdf.TTTT(μ,σ)

(3) La rutina de arranque no paramétrica ni siquiera requiere que sepas a priori que se distribuye normalmente. En cambio, simplemente extrae muestras repetidas del ecdf y calcula en cada una. Después de haber extraído aproximadamente 10.000 muestras y calculado 10.000 s, puede trazar un histograma de sus estimaciones. Esta es una visualización de la distribución muestral deTTTT. El bootstrap no paramétrico no le dirá que la distribución de muestreo es normal, o gamma, etc., pero le permite estimar la distribución de muestreo (generalmente) con la precisión necesaria. Hace menos suposiciones y proporciona menos información que la rutina de arranque paramétrica. Es menos preciso cuando la suposición paramétrica es verdadera pero más precisa cuando es falsa. El que uses en cada situación que encuentres depende completamente del contexto. Es cierto que más personas están familiarizadas con el bootstrap no paramétrico, pero con frecuencia una suposición paramétrica débil hace que un modelo completamente intratable sea susceptible de estimación, lo cual es encantador.


1
Estoy confundido acerca de su descripción de la rutina de arranque paramétrica "lo que podemos hacer en su lugar es generar aproximadamente 10.000 muestras del cdf empírico". Mi comprensión de la rutina de arranque paramétrica es que tomaría muestras de un modelo que se ajuste a los datos. Esto es lo que describe la cita original del libro de Murphy. Podría estar malinterpretando, pero el muestreo del CDF empírico de los datos sería un muestreo directo de los puntos de datos, que sería el arranque estándar, ¿no?
user20160

@ user20160 estás malinterpretando la respuesta "En cambio": está describiendo el bootstrap no paramétrico, no el paramétrico.
daknowles

4

Realmente aprecio el esfuerzo aportado por guest47, pero no estoy del todo de acuerdo con su respuesta, en algunos aspectos menores. No plantearía directamente mis desacuerdos, sino que los reflejaría en esta respuesta.

  1. En muchos casos, es redundante para calcular θ s cuando ya se sabe el verdadero subyacente parámetro θ * . Sin embargo, todavía es útil cuando queremos mirar la exactitud y precisión de θ s en la estimación de θ * . Además, el primer párrafo de su pasaje citado le facilitará la comprensión de la noción de "arranque paramétrico", que abordaré poco después.θ^sθθ^sθ

  2. Guest47 da buena respuesta. No hay necesidad de elaborar más.

  3. En bootstrap paramétrico, lo que tienes es los datos observados D. llegar a un modelo paramétrico para ajustar los datos, y el uso de estimadores theta (que es una función de los datos D) para los verdaderos parámetros theta * . A continuación, se genera miles de conjuntos de datos del modelo paramétrico con θ , y podrá valorar θ s para estos modelos. En bootstrapping no paramétrico, usted usa directamente D, muestra (por miles de veces) exactamente de D, en lugar de datos generados. θ^θθ^θ^s


2

No soy un experto, pero por lo que vale:

  1. Porque está interesado en la distribución de muestreo, como se menciona en la primera oración de su cita.

  2. La distribución empírica es la distribución que ve en su número finito de muestras. La distribución de muestreo es lo que vería si tomara un número infinito de muestras.

No puedo responder 3. Siempre entendí lo que aquí se describe como bootstrap no paramétrico como "el" bootstrap.

Si aún no ha comprendido completamente el concepto de la distribución de muestreo, aquí hay un hilo realmente agradable que presenta un código R muy ilustrativo.


55
La diferencia entre el bootstrap paramétrico y no paramétrico es que el primero genera sus muestras a partir de la distribución (supuesta) de los datos, utilizando los valores de los parámetros estimados, mientras que el segundo genera sus muestras mediante muestreo con reemplazo de los datos observados; no se supone un modelo paramétrico .
jbowman

@jbowman - el sistema de arranque "no paramétrico" no tiene un modelo subyacente - sólo que es un modelo diferente al que se utiliza para motivar a la estimación del parámetro.
probabilityislogic

@miura Por favor, no destroces tu respuesta. Si desea que el autor de la pregunta elija una respuesta diferente, comente debajo de la pregunta. Si desea que se elimine su respuesta, márquela y solicítela.
Glen_b -Reinstate Monica
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.