Preguntas etiquetadas con resampling

El remuestreo es tomar una muestra de una muestra. Los usos comunes son jackknifing (tomar una submuestra, por ejemplo, todos los valores excepto 1) y bootstrapping (muestreo con reemplazo). Estas técnicas pueden proporcionar una estimación sólida de una distribución de muestreo cuando sería difícil o imposible derivar analíticamente.

2
Métodos de remuestreo / simulación: monte carlo, bootstrapping, jackknifing, validación cruzada, pruebas de aleatorización y pruebas de permutación
Estoy tratando de entender la diferencia entre los diferentes métodos de remuestreo (simulación Monte Carlo, bootstrapping paramétrico, bootstrapping no paramétrico, jackknifing, validación cruzada, pruebas de aleatorización y pruebas de permutación) y su implementación en mi propio contexto usando R. Digamos que tengo la siguiente situación: quiero realizar ANOVA con una …

5
¿Puedes sobreajustar entrenando algoritmos de aprendizaje automático usando CV / Bootstrap?
Esta pregunta puede ser demasiado abierta para obtener una respuesta definitiva, pero espero que no. Los algoritmos de aprendizaje automático, como SVM, GBM, Random Forest, etc., generalmente tienen algunos parámetros libres que, más allá de alguna guía práctica, deben ajustarse a cada conjunto de datos. Esto generalmente se hace con …


2
¿Por qué usar validación cruzada estratificada? ¿Por qué esto no daña el beneficio relacionado con la varianza?
Me han dicho que es beneficioso usar la validación cruzada estratificada, especialmente cuando las clases de respuesta no están equilibradas. Si un propósito de la validación cruzada es ayudar a explicar la aleatoriedad de nuestra muestra de datos de entrenamiento original, seguramente hacer que cada pliegue tenga la misma distribución …


2
Métodos de muestreo de Caret
Estoy usando la biblioteca careten R para probar varios procedimientos de modelado. El trainControlobjeto permite especificar un método de remuestreo. Los métodos se describen en la documentación de la sección 2.3 e incluyen: boot, boot632, cv, LOOCV, LGOCV, repeatedcvy oob. Aunque algunos de estos son fáciles de inferir, no todos …
20 r  resampling  caret 

2
Prueba de clasificación en datos de desequilibrio sobremuestreados
Estoy trabajando en datos gravemente desequilibrados. En la literatura, se utilizan varios métodos para reequilibrar los datos mediante re-muestreo (sobremuestreo o submuestreo). Dos buenos enfoques son: SMOTE: Técnica de sobremuestreo de minorías sintéticas ( SMOTE ) ADASYN: Enfoque de muestreo sintético adaptativo para el aprendizaje desequilibrado ADASYN ) He implementado …

2
Prueba de muestreo IID
¿Cómo probaría o comprobaría que el muestreo es IID (Independiente e idénticamente distribuido)? Tenga en cuenta que no me refiero a gaussiano e idénticamente distribuido, solo IID. Y la idea que me viene a la mente es dividir repetidamente la muestra en dos submuestras de igual tamaño, realizar la prueba …



1
¿Es este método de remuestreo de series temporales conocido en la literatura? Eso tiene un nombre?
Recientemente estaba buscando formas de volver a muestrear series temporales, de manera que Preservar aproximadamente la autocorrelación de los procesos de memoria larga. Preservar el dominio de las observaciones (por ejemplo, una serie de enteros de muestras repetidas sigue siendo una serie de enteros). Puede afectar solo algunas escalas, si …


1
¿Es necesario centrar cuando se inicia la muestra de arranque?
Cuando leí acerca de cómo aproximar la distribución de la muestra significa que encontré el método de arranque no paramétrico. Aparentemente uno puede aproximar la distribución de por la distribución de ˉ X ∗ n - ˉ X n , donde ˉ X ∗ nX¯n−μX¯n−μ\bar{X}_n-\muX¯∗n−X¯nX¯n∗−X¯n\bar{X}_n^*-\bar{X}_nX¯∗nX¯n∗\bar{X}_n^* denota la media muestral de …


5
¿Cómo realizar la imputación de valores en una gran cantidad de puntos de datos?
Tengo un conjunto de datos muy grande y faltan alrededor del 5% de valores aleatorios. Estas variables están correlacionadas entre sí. El siguiente conjunto de datos R de ejemplo es solo un ejemplo de juguete con datos correlacionados ficticios. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.