¿Cuáles son algunos usos importantes de la generación de números aleatorios en las estadísticas computacionales?


15

¿Cómo y por qué son importantes los generadores de números aleatorios (RNG) en las estadísticas computacionales?

Entiendo que la aleatoriedad es importante al elegir muestras para muchas pruebas estadísticas para evitar sesgos hacia cualquiera de las hipótesis, pero ¿hay otras áreas de estadística computacional donde los generadores de números aleatorios son importantes?



1
¿Que estas preguntando? Tu pregunta realmente no tiene mucho sentido.
Carl Witthoft

2
Puede ser que sea mejor pedir las áreas en las que son no importante. Probablemente sería una lista más corta.
John Coleman el

2
La pregunta es amplia pero el título es atractivo y la respuesta de Matthew es una buena descripción. ¡Voté por reabrir!
Benoit Sanchez

3
Esto es claramente demasiado amplio para los estándares de SE convencionales, y equivale a una pregunta de 'lista grande' que probablemente acumule muchas respuestas pequeñas, apenas elaboradas, que a menudo duplican las respuestas ya proporcionadas. Sin embargo, parece haber algún valor real aquí. Un compromiso es que esto sea CW y protegido. En el futuro, las respuestas que mencionen algo sin elaboración y / o que los usos duplicados ya mencionados se eliminen rápidamente y sin comentarios.
gung - Restablece a Monica

Respuestas:


17

Hay muchos, muchos ejemplos. Demasiados para enumerar, y probablemente demasiados para que alguien los conozca por completo (además de posiblemente @whuber, a quien nunca se debe subestimar).

Como mencionas, en los experimentos controlados evitamos el sesgo de muestreo al dividir aleatoriamente a los sujetos en grupos de tratamiento y control.

En bootstrapping , aproximamos el muestreo repetido de una población mediante un muestreo aleatorio con reemplazo de una muestra fija. Esto nos permite estimar la varianza de nuestras estimaciones, entre otras cosas.

En la validación cruzada , estimamos el error fuera de la muestra de una estimación al dividir aleatoriamente nuestros datos en segmentos y al ensamblar conjuntos de entrenamiento y pruebas al azar.

En las pruebas de permutación utilizamos permutaciones aleatorias para muestrear bajo la hipótesis nula, lo que permite realizar pruebas de hipótesis no paramétricas en una amplia variedad de situaciones.

En el ensacado , controlamos la varianza de una estimación realizando repetidamente la estimación en muestras de arranque de datos de entrenamiento y luego promediando los resultados.

En los bosques aleatorios , controlamos aún más la varianza de una estimación mediante el muestreo aleatorio de los predictores disponibles en cada punto de decisión.

En la simulación, le pedimos a un modelo de ajuste que genere aleatoriamente nuevos conjuntos de datos que podamos comparar con los datos de entrenamiento o prueba, lo que ayuda a validar el ajuste y los supuestos en un modelo.

En la cadena de Markov Monte Carlo, tomamos muestras de una distribución explorando el espacio de posibles resultados utilizando una cadena de Markov (gracias a @Ben Bolker por este ejemplo).

Esas son solo las aplicaciones comunes y cotidianas que vienen a la mente de inmediato. Si cavara profundo, probablemente podría duplicar la longitud de esa lista. La aleatoriedad es a la vez un importante objeto de estudio y una herramienta importante para ejercer.


Todo esto es cierto, pero no aborda el problema principal: un PRNG con cualquier tipo de estructura resultante o previsibilidad en la secuencia hará que las simulaciones fallen.
Carl Witthoft

3
Una de las cosas que merece mención son los costos computacionales y de memoria de generar grandes números de números aleatorios o pseudoaleatorios. Algunas aplicaciones de RNG en estadísticas requieren de cientos a millones de números aleatorios, pero algunas requieren muchos órdenes de magnitud más, lo que tiene en cuenta estos dos costos.
Alexis

5

Todo esto es cierto, pero no aborda el problema principal: un PRNG con cualquier tipo de estructura resultante o previsibilidad en la secuencia hará que las simulaciones fallen. Carl Witthoft 31 de enero a las 15:51

Si esto le preocupa, quizás el título de la pregunta debería cambiarse a "Impacto de la elección de RNG en los resultados de Monte Carlo" o algo así. En este caso, ya considerado en la validación cruzada SE , aquí hay algunas instrucciones

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.