Estadísticas y Big Data cross-validation

2

Validación cruzada y regresión logística ordinal

Estoy tratando de entender la validación cruzada para la regresión logística ordinal. El objetivo del juego es validar el modelo utilizado en un análisis ... Primero construyo un conjunto de datos de juguete: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs …

12 regression cross-validation ordered-logit rms

2

Keras: ¿por que disminuye la pérdida mientras aumenta val_loss?

Configuré una búsqueda de cuadrícula para un montón de parámetros. Estoy tratando de encontrar los mejores parámetros para una red neuronal Keras que hace una clasificación binaria. La salida es 1 o 0. Hay alrededor de 200 características. Cuando hice una búsqueda en la cuadrícula, obtuve un montón de modelos …

12 machine-learning cross-validation deep-learning tensorflow theano

1

¿Cómo elegir un kernel para kernel PCA?

¿Cuáles son las formas de elegir qué núcleo daría lugar a una buena separación de datos en la salida de datos final por el núcleo PCA (análisis de componentes principales), y cuáles son las formas de optimizar los parámetros del núcleo? Los términos simples, si es posible, serían muy apreciados, …

12 pca cross-validation dimensionality-reduction kernel-trick manifold-learning

2

¿Definición exacta de la medida de desviación en el paquete glmnet, con validación cruzada?

Para mi investigación actual, estoy usando el método Lasso a través del paquete glmnet en R en una variable dependiente binomial. En glmnet, el lambda óptimo se encuentra a través de la validación cruzada y los modelos resultantes se pueden comparar con varias medidas, por ejemplo, error de clasificación errónea …

12 cross-validation lasso glmnet deviance lars

2

¿Es la tasa de error una función convexa del parámetro de regularización lambda?

Al elegir el parámetro de regularización lambda en Ridge o Lasso, el método recomendado es probar diferentes valores de lambda, medir el error en el conjunto de validación y finalmente elegir el valor de lambda que devuelve el error más bajo. No está claro para mí si la función f …

11 cross-validation error regularization validation optimization

2

¿Dividir los datos en conjuntos de prueba y entrenamiento es puramente una "estadística"?

Soy un estudiante de física que estudia el aprendizaje automático / ciencia de datos, así que no me refiero a que esta pregunta inicie ningún conflicto :) Sin embargo, una gran parte de cualquier programa de pregrado de física es hacer laboratorios / experimentos, lo que significa una gran cantidad …

11 regression machine-learning cross-validation dataset experiment-design

4

¿Cuál es la forma más adecuada de crear un conjunto de espera: eliminar algunos sujetos o eliminar algunas observaciones de cada sujeto?

Tengo un conjunto de datos con 26 características y 31000 filas. Es el conjunto de datos de 38 sujetos. Es para un sistema biométrico. Entonces quiero poder identificar sujetos. Para tener un conjunto de pruebas, sé que tengo que eliminar algunos valores. Entonces, ¿qué es mejor hacer y por qué? …

11 machine-learning cross-validation out-of-sample

1

¿Por qué una gran opción de K baja mi puntaje de validación cruzada?

Jugando con el conjunto de datos de vivienda de Boston y RandomForestRegressor(con parámetros predeterminados) en scikit-learn, noté algo extraño: la puntuación media de validación cruzada disminuyó a medida que aumentaba el número de pliegues más allá de 10. Mi estrategia de validación cruzada fue la siguiente: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) …

11 machine-learning cross-validation random-forest sample-size scikit-learn

2

Validación cruzada después de LASSO en datos de encuestas complejas

Estoy tratando de hacer una selección de modelo en algunos predictores candidatos que usan LASSO con un resultado continuo. El objetivo es seleccionar el modelo óptimo con el mejor rendimiento de predicción, que generalmente se puede hacer mediante validación cruzada K-fold después de obtener una ruta de solución de los …

11 cross-validation survey lasso glmnet

3

Intervalo de confianza para la precisión de clasificación con validación cruzada

Estoy trabajando en un problema de clasificación que calcula una métrica de similitud entre dos imágenes de rayos X de entrada. Si las imágenes son de la misma persona (etiqueta de "derecho"), se calculará una métrica más alta; las imágenes de entrada de dos personas diferentes (etiqueta de "incorrecto") darán …

11 classification confidence-interval cross-validation matlab

1

Promedio de precisión y recuperación cuando se utiliza la validación cruzada

He realizado la clasificación usando múltiples clasificadores para datos etiquetados de 2 clases, y utilicé la validación cruzada 5 veces. Para cada pliegue calculé tp, tn, fp y fn. Luego calculé la precisión, precisión, recuperación y puntaje F para cada prueba. Mi pregunta es, cuando quiero promediar los resultados, tomé …

11 classification cross-validation precision-recall

1

¿Cómo puede detectar si un proceso gaussiano se sobreajusta?

Estoy entrenando un proceso gaussiano con un núcleo ARD con muchos parámetros maximizando la capacidad marginal de los datos, en lugar de la validación cruzada. Sospecho que es demasiado adecuado. ¿Cómo puedo probar esta sospecha en un contexto bayesiano?

11 machine-learning cross-validation gaussian-process

1

¿Interpretación bayesiana, MDL o ML de validación cruzada?

¿Hay alguna interpretación Bayesiana, ML o MDL conocida de validación cruzada? ¿Puedo interpretar la validación cruzada como la actualización correcta en una versión previa específicamente diseñada?

11 bayesian cross-validation maximum-likelihood

3

División de datos de series temporales en conjuntos de tren / prueba / validación

¿Cuál es la mejor manera de dividir los datos de series temporales en conjuntos de tren / prueba / validación, donde el conjunto de validación se usaría para el ajuste de hiperparámetros? Tenemos 3 años de datos de ventas diarias, y nuestro plan es usar 2015-2016 como datos de capacitación, …

11 time-series cross-validation validation

1

R / mgcv: ¿Por qué los productos tensoriales te () y ti () producen superficies diferentes?

El mgcvpaquete Rtiene dos funciones para ajustar las interacciones del producto tensorial: te()y ti(). Entiendo la división básica del trabajo entre los dos (ajustar una interacción no lineal versus descomponer esta interacción en efectos principales y una interacción). Lo que no entiendo es por qué te(x1, x2)y ti(x1) + ti(x2) …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

Preguntas etiquetadas con cross-validation