Estadísticas y Big Data cross-validation

2

PRESIONE la estadística para la regresión de cresta

En mínimos cuadrados ordinarios, regresando un vector objetivo yyy contra un conjunto de predictores XXX, la matriz del sombrero se calcula como H= X(XtX)- 1XtH=X(XtX)−1XtH = X (X^tX)^{-1} X^t y la PRENSA (suma residual de cuadrados prevista) se calcula mediante SSPAGS=∑yo(miyo1 -hyo i)2SSP=∑i(ei1−hii)2SS_P = \sum_i \left( \frac{e_i}{1-h_{ii}}\right)^2 dónde miyoeie_i es …

9 regression cross-validation ridge-regression

2

Validación cruzada en una dimensión muy alta (para seleccionar el número de variables utilizadas en una clasificación dimensional muy alta)

Mi pregunta es acerca de la validación cruzada cuando hay muchas más variables que observaciones. Para arreglar ideas, propongo restringir al marco de clasificación en una dimensión muy alta (más características que observación). Problema: Suponga que para cada variable tiene una medida de importancia que medir exactamente el interés de …

8 machine-learning classification cross-validation

1

¿Cómo se puede usar el AIC o BIC en lugar de la división de tren / prueba?

Recientemente me he encontrado con varias fuentes "informales" que indican que, en algunas circunstancias, si usamos el AIC o el BIC para entrenar un modelo de serie temporal, no necesitamos dividir los datos en prueba y entrenamiento, podemos usar todos Los datos para el entrenamiento. (Las fuentes incluyen, entre otras, …

8 time-series cross-validation aic train bic

1

¿Cómo obtener hiperparámetros óptimos después de la validación cruzada anidada?

En general, si tenemos un gran conjunto de datos, podemos dividirlo en (1) capacitación, (2) validación y (3) prueba. Utilizamos la validación para identificar los mejores hiperparámetros en la validación cruzada (por ejemplo, C en SVM) y luego entrenamos el modelo usando los mejores hiperparámetros con el conjunto de entrenamiento …

8 machine-learning cross-validation scikit-learn hyperparameter optimization

1

¿Cómo interpretar el diagrama cv.glmnet ()?

Realicé el lazo y luego dejé una validación cruzada cv<-cv.glmnet(df, df$Price, nfolds = 1500) Cuando trazo cv me sale lo siguiente: También noté que obtengo 2 lambdas diferentes: lambda.minylambda.1se ¿Cuál es la diferencia entre estas lambdas? ¿Qué puedo entender de la gráfica anterior en general (de qué se tratan estos …

8 r cross-validation interpretation lasso

3

Parada temprana vs validación cruzada

Actualmente estoy usando una parada temprana en mi trabajo para evitar un ajuste excesivo. Específicamente, los que se tomaron antes de parar pero ¿cuándo? . Ahora quiero comparar con otros algoritmos de clasificación donde parece que la validación cruzada 10 veces se usa ampliamente. Sin embargo, estoy confundido acerca de …

8 cross-validation overfitting

1

Validación cruzada con regresiones de suavizado no paramétricas

Cuando utilizo modelos de regresión, me siento receloso de incumplir un supuesto de asociación lineal; en su lugar, me gusta explorar la forma funcional de las relaciones entre las variables dependientes y explicativas utilizando la regresión de suavizado no paramétrico (por ejemplo , modelos aditivos generalizados , lowess / lowess …

8 cross-validation nonparametric-regression

3

Elegir una métrica de rendimiento de clasificación para la selección de modelo, selección de características y publicación

Tengo un pequeño conjunto de datos no balanceados (70 positivos, 30 negativos), y he estado jugando con la selección del modelo para los parámetros SVM usando BAC (precisión equilibrada) y AUC (área bajo la curva). Utilicé diferentes pesos de clase para el parámetro C en libSVM para compensar los datos …

8 svm cross-validation model-selection auc

2

Tratar con un buen desempeño en los datos de capacitación y validación, pero muy mal desempeño en los datos de prueba

Tengo un problema de regresión con 5-6k variables. Divido mis datos en 3 conjuntos no superpuestos: capacitación, validación y pruebas. Entreno usando solo el conjunto de entrenamiento y genero muchos modelos de regresión lineal diferentes eligiendo un conjunto diferente de 200 variables para cada modelo (intento aproximadamente 100k de tales …

8 regression cross-validation model-selection r-squared overfitting

1

Validación cruzada de dejar uno fuera: ¿Estimación relativamente imparcial del rendimiento de generalización?

He leído que la validación cruzada de dejar uno fuera proporciona una estimación relativamente "imparcial del verdadero rendimiento de generalización" (por ejemplo, aquí ) y que esta es una propiedad ventajosa del CV de dejar uno fuera. Sin embargo, no veo cómo esto se deduce de las propiedades del CV …

8 cross-validation model-selection bias

6

¿El uso de los mismos datos para la selección de características y la validación cruzada está sesgado o no?

Tenemos un pequeño conjunto de datos (alrededor de 250 muestras * 100 características) en el que queremos construir un clasificador binario después de seleccionar el mejor subconjunto de características. Digamos que dividimos los datos en: Entrenamiento, Validación y Pruebas Para la selección de características, aplicamos un modelo de envoltura basado …

8 machine-learning cross-validation feature-selection train

3

¿Puedo realizar una búsqueda exhaustiva con validación cruzada para la selección de funciones?

He estado leyendo algunas de las publicaciones sobre selección de características y validación cruzada, pero todavía tengo preguntas sobre el procedimiento correcto. Supongamos que tengo un conjunto de datos con 10 funciones y quiero seleccionar las mejores funciones. Supongamos también que estoy usando un clasificador vecino más cercano. ¿Puedo realizar …

8 cross-validation model-selection feature-selection

1

Jack-cuchillo con modelos de series temporales

Introducción Mi objetivo es pronosticar las tasas de crecimiento anual para una serie de indicadores macroeconómicos (denotar uno por YtYtY_t) Una de las tareas es probar el rendimiento de pronóstico de modelos de series temporales rivales con y sin variables exógenas (XtXtX_t, una T×kT×kT\times kmatriz). La lista de modelos rivales …

8 r regression time-series cross-validation forecasting

3

Admite regresión vectorial en datos de curtosis sesgada / alta

Estoy usando la regresión vectorial de soporte para modelar algunos datos bastante sesgados (con curtosis alta). Intenté modelar los datos directamente, pero estoy obteniendo predicciones erróneas, creo que principalmente debido a la distribución de los datos, que está sesgada con colas muy gruesas. Estoy bastante seguro de que algunos valores …

8 machine-learning svm cross-validation predictive-models outliers

2

SVM rbf kernel - método heurístico para estimar gamma

Leí en este intercambio un método heurístico para estimar gamma para el kernel rbf en SVM. Me preguntaba si alguien podría explicármelo con un poco más de detalle. Creo que selecciona 1000 (o una gran cantidad) de pares de puntos de datos del conjunto de datos y luego calcula la …

8 machine-learning cross-validation svm

Preguntas etiquetadas con cross-validation