Preguntas etiquetadas con classification

La clasificación estadística es el problema de identificar la subpoblación a la que pertenecen las nuevas observaciones, donde se desconoce la identidad de la subpoblación, sobre la base de un conjunto de entrenamiento de datos que contienen observaciones cuya subpoblación es conocida. Por lo tanto, estas clasificaciones mostrarán un comportamiento variable que puede ser estudiado por las estadísticas.


1
Clasificadores de aprendizaje automático big-O o complejidad
Para evaluar el rendimiento de un nuevo algoritmo clasificador, estoy tratando de comparar la precisión y la complejidad (big-O en entrenamiento y clasificación). De Machine Learning: una revisión obtengo una lista completa de clasificadores supervisados, también una tabla de precisión entre los algoritmos y 44 problemas de prueba del repositorio …

3
Ponderación de datos más recientes en el modelo de bosque aleatorio
Estoy entrenando un modelo de clasificación con Random Forest para discriminar entre 6 categorías. Mis datos transaccionales tienen aproximadamente 60k + observaciones y 35 variables. Aquí hay un ejemplo de cómo se ve aproximadamente. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 …

1
Usando LASSO en bosque aleatorio
Me gustaría crear un bosque aleatorio usando el siguiente proceso: Construya un árbol en muestras aleatorias de los datos y características usando la ganancia de información para determinar divisiones Termine un nodo de hoja si excede una profundidad predefinida O cualquier división daría como resultado un recuento de hojas menor …





1
Cuando las clases desequilibradas de sobremuestreo o submuestreo, ¿la precisión de maximización difiere de la minimización de los costos de clasificación errónea?
En primer lugar, me gustaría describir algunos diseños comunes que usan los libros de minería de datos que explican cómo tratar con conjuntos de datos no balanceados . Por lo general, la sección principal se denomina Conjuntos de datos no balanceados y cubren estas dos subsecciones: Clasificación sensible al costo …

2
¿Por qué mejora la estimación de error OOB de bosque aleatorio cuando disminuye el número de características seleccionadas?
Estoy aplicando un algoritmo de bosque aleatorio como clasificador en un conjunto de datos de microarrays que se dividen en dos grupos conocidos con miles de características. Después de la ejecución inicial, miro la importancia de las características y ejecuto nuevamente el algoritmo del árbol con las 5, 10 y …

3
¿Pueden los modelos CART hacerse robustos?
Un colega de mi oficina me dijo hoy: "Los modelos de árbol no son buenos porque quedan atrapados por observaciones extremas". Una búsqueda aquí resultó en este hilo que básicamente respalda el reclamo. Lo que me lleva a la pregunta: ¿bajo qué situación puede ser robusto un modelo CART y …


1
Caret glmnet vs cv.glmnet
Parece haber mucha confusión en la comparación de usar glmnetdentro caretpara buscar una lambda óptima y usar cv.glmnetpara hacer la misma tarea. Se plantearon muchas preguntas, por ejemplo: Modelo de clasificación train.glmnet vs. cv.glmnet? ¿Cuál es la forma correcta de usar glmnet con caret? Validación cruzada de `glmnet` usando` caret` …

1
GAM vs LOESS vs splines
Contexto : Quiero trazar una línea en un diagrama de dispersión que no aparece paramétrico, por lo tanto, estoy usando geom_smooth()en ggploten R. Devuelve automáticamente. geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to …


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.