Bloquear bootstrap para un novato

Para poner mi pregunta en contexto, soy un físico pero con una exposición limitada a las estadísticas y lo que aprendí al respecto fue hace más de 30 años.

Estoy tratando de aprender sobre el arranque de bloques ya que esa técnica podría ser adecuada para resolver un problema en el que estoy trabajando. Puedo encontrar muchos documentos / libros / información sobre las matemáticas del arranque en bloque, pero me gustaría encontrar primero una descripción genérica del proceso de arranque en bloque antes de 'aventurarme' en cuestiones como el arranque en bloque en movimiento, el arranque en bloque circular, el arranque en bloque estacionario , longitudes de bloque, tamaño de muestra, etc.

He sobremuestreado datos correlacionados, 5 variables (columnas) por 10000 observaciones (filas) que quiero reducir a aproximadamente 100 filas de datos. Los datos son una serie de tiempo, pero no son continuos y puede haber datos de diferentes ubicaciones también, lo que significa que puede tener datos diferentes al mismo tiempo (si esto último es un problema para el arranque de bloques, podría eliminar datos 'duplicados' a tiempo). El arranque en bloque permitiría replicar la correlación de los datos.

El objetivo final es reducir el conjunto de datos a ~ 100 filas de datos, de modo que tanto pdf como cdf del conjunto de datos completo y el conjunto de datos reducido sean iguales (dentro de un rango de error mínimo aún por definir) para las 5 variables.

Pregunta: 1) ¿Bloquear bootstrapping podrá hacer esto? 2) ¿Cuál es el proceso paso a paso que se realiza? No espero que nadie escriba el proceso completo en detalle aquí, pero tal vez alguien haya puesto un video de youtube o un 'bootstrapping for dummies' con el que pueda comenzar.

He examinado preguntas similares sobre el arranque de bloques aquí y hay una sobre "Recursos para aprender sobre el arranque de bloques en el análisis de series de tiempo", pero las referencias en las respuestas suponen una alfabetización estadística que todavía tengo que dominar.

time-series bootstrap

— Frank Drost
fuente

¿Qué tal esta introducción ? Tiene una introducción al bootstrap y luego al bootstrap de bloque.

— David G Williams

El remuestreo sin series de modelos de series de tiempo se logra mediante el remuestreo en bloque, también llamado bootstrapping en bloque, que se puede implementar utilizando la función tsboot en el paquete de inicio de R. La idea es dividir la serie en bloques de aproximadamente la misma longitud de observaciones consecutivas, volver a muestrear el bloque con reemplazo y luego pegar los bloques juntos. Por ejemplo, si la serie temporal es de longitud 200 y uno usa 10 bloques de longitud 20, entonces los bloques son las primeras 20 observaciones, las siguientes 20, y así sucesivamente. Una posible nueva muestra es el cuarto bloque (observación 61 a 80), luego el último bloque (observación 181 a 200), luego el segundo bloque (observación 21 a 40), luego el cuarto bloque nuevamente, y así sucesivamente hasta que haya 10 bloques en el remuestreo. ¿Cómo haces bootstrapping con datos de series temporales?

— economia
fuente

Lo que explica la economía sobre el boostrapping es correcto, pero tenga en cuenta que la muestra bootstrapped no se usa para reducir un conjunto de datos a un conjunto de datos más pequeño con la misma distribución subyacente. (lo cual dijiste que era tu objetivo). Bootstrapping se utiliza para probar algunas hipótesis al crear la muestra bootstrapped y luego ver dónde cae el estadístico (el que se está probando) con respecto a la distribución empírica de la muestra bootstrapped. Por lo tanto, la reducción de un conjunto de datos a un conjunto de datos más pequeño no es el objetivo de bstrapping. Se utiliza para la prueba de hipótesis de forma gratuita.

— mlofton