Estadísticas y Big Data cross-validation

1

¿Por qué se filtra información sobre los datos de validación si evalúo el rendimiento del modelo en los datos de validación al ajustar los hiperparámetros?

En el aprendizaje profundo de François Chollet con Python dice: Como resultado, ajustar la configuración del modelo en función de su rendimiento en el conjunto de validación puede resultar rápidamente en un ajuste excesivo para el conjunto de validación, aunque su modelo nunca esté directamente capacitado sobre él. Central a …

9 neural-networks cross-validation hyperparameter

2

¿Es cierto que los bayesianos no necesitan conjuntos de prueba?

Recientemente vi esta charla de Eric J. Ma y revisé su entrada de blog , donde cita a Radford Neal, que los modelos bayesianos no se sobreajustan (pero pueden sobreajustar ) y cuando los usamos , no necesitamos conjuntos de prueba para validarlos (para Me parece que las citas hablan …

9 machine-learning bayesian cross-validation deep-learning

1

¿Qué modelo de aprendizaje profundo puede clasificar categorías que no son mutuamente excluyentes?

Ejemplos: Tengo una oración en la descripción del trabajo: "Ingeniero senior de Java en el Reino Unido". Quiero usar un modelo de aprendizaje profundo para predecirlo en 2 categorías: English y IT jobs. Si uso el modelo de clasificación tradicional, solo puede predecir 1 etiqueta con softmaxfunción en la última …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

2

¿Está realmente bien realizar una selección de funciones sin supervisión antes de la validación cruzada?

En Los elementos del aprendizaje estadístico , he encontrado la siguiente declaración: Hay una calificación: los pasos iniciales de detección no supervisada se pueden realizar antes de dejar muestras. Por ejemplo, podríamos seleccionar los 1000 predictores con la mayor varianza en las 50 muestras, antes de comenzar la validación cruzada. …

9 machine-learning cross-validation feature-selection

2

¿Deberíamos hacer siempre CV?

Mi pregunta: ¿debería hacer CV incluso para un conjunto de datos relativamente grande? Tengo un conjunto de datos relativamente grande y aplicaré un algoritmo de aprendizaje automático al conjunto de datos. Como mi PC no es rápida, el CV (y la búsqueda en la cuadrícula) a veces lleva demasiado tiempo. …

9 machine-learning cross-validation

1

Clasificadores algebraicos, más información?

He leído clasificadores algebraicos: un enfoque genérico para la validación cruzada rápida, la capacitación en línea y la capacitación paralela, y me sorprendió el desempeño de los algoritmos derivados. Sin embargo, parece que más allá de Naive Bayes (y GBM) no hay muchos algoritmos adaptados al marco. ¿Hay otros trabajos …

9 cross-validation references random-forest computational-statistics naive-bayes

1

Selección de modelo original (?) Con CV plegable

Cuando utilizo k-fold CV para seleccionar entre los modelos de regresión, generalmente calculo el error CV por separado para cada modelo, junto con su error estándar SE, y selecciono el modelo más simple dentro de 1 SE del modelo con el error CV más bajo (el 1 regla de error …

9 regression cross-validation model-selection

1

Regresión cruzada de validación de lazo en R

La función R cv.glm (biblioteca: arranque) calcula el error estimado de predicción de validación cruzada K-fold para modelos lineales generalizados y devuelve delta. ¿Tiene sentido usar esta función para una regresión de lazo (biblioteca: glmnet) y, de ser así, ¿cómo se puede llevar a cabo? La biblioteca glmnet utiliza una …

9 r regression cross-validation lasso glmnet

2

Volver a probar o validar de forma cruzada cuando el proceso de construcción del modelo fue interactivo

Tengo algunos modelos predictivos cuyo rendimiento me gustaría probar (es decir, tomar mi conjunto de datos, "rebobinarlo" a un punto anterior en el tiempo y ver cómo el modelo hubiera funcionado de manera prospectiva). El problema es que algunos de mis modelos se construyeron a través de un proceso interactivo. …

9 cross-validation modeling outliers splines overfitting

2

¿Estimación de error fuera de bolsa para aumentar?

En Random Forest, cada árbol se cultiva en paralelo en una muestra boostrap única de los datos. Debido a que se espera que cada muestra de boostrap contenga aproximadamente el 63% de las observaciones únicas, esto deja aproximadamente el 37% de las observaciones, que se pueden usar para probar el …

9 machine-learning cross-validation data-mining random-forest boosting

3

Validación cruzada K-fold o hold-out para la regresión de crestas usando R

Estoy trabajando en la validación cruzada de la predicción de mis datos con 200 sujetos y 1000 variables. Estoy interesado en la regresión de crestas ya que el número de variables (que quiero usar) es mayor que el número de muestra. Entonces quiero usar estimadores de contracción. Los siguientes son …

9 r cross-validation prediction ridge-regression

2

¿Cómo encontrar valores óptimos para los parámetros de ajuste en el impulso de árboles?

Me doy cuenta de que hay 3 parámetros de ajuste en el modelo de árboles de refuerzo, es decir El número de árboles (número de iteraciones) parámetro de contracción Número de divisiones (tamaño de cada árbol constituyente) Mi pregunta es: para cada uno de los parámetros de ajuste, ¿cómo debo …

9 machine-learning cross-validation computational-statistics boosting gbm

1

R / caret: ¿entrenar y probar conjuntos versus validación cruzada?

Esta puede ser una pregunta tonta, pero cuando se genera un modelo con cuidado y se usa algo como LOOCVo (aún más importante) LGOCV, ¿cuál es el beneficio de dividir los datos en trenes y conjuntos de pruebas si esto es esencialmente el paso de validación cruzada? lo hace de …

9 r machine-learning cross-validation caret

1

¿Cómo comparar los eventos observados con los esperados?

Supongamos que tengo una muestra de frecuencias de 4 eventos posibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 y tengo las probabilidades esperadas de que ocurran mis eventos: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Con la suma de las …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

4

Selección y rendimiento del modelo en regresión logística.

Tengo una pregunta sobre la selección del modelo y el rendimiento del modelo en regresión logística. Tengo tres modelos que se basan en tres hipótesis diferentes. Los primeros dos modelos (vamos a nombrarlos z y x) solo tienen una variable explicativa en cada modelo, y el tercero (vamos a llamarlo …

9 logistic model-selection cross-validation

Preguntas etiquetadas con cross-validation