Estadísticas y Big Data classification

1

Beneficios del muestreo estratificado versus aleatorio para generar datos de entrenamiento en clasificación

Me gustaría saber si existen algunas / algunas ventajas de usar el muestreo estratificado en lugar del muestreo aleatorio, al dividir el conjunto de datos original en un conjunto de entrenamiento y prueba para la clasificación. Además, ¿el muestreo estratificado introduce más sesgos en el clasificador que el muestreo aleatorio? …

20 classification cross-validation random-forest train stratification

2

¿El bosque al azar está sobreajustado?

Estoy experimentando con bosques aleatorios con scikit-learn y obtengo excelentes resultados de mi conjunto de entrenamiento, pero resultados relativamente pobres en mi conjunto de pruebas ... Aquí está el problema (inspirado en el póker) que estoy tratando de resolver: Dadas las cartas de mano del jugador A, las cartas de …

19 classification random-forest scikit-learn

3

Aprendizaje semi-supervisado, aprendizaje activo y aprendizaje profundo para la clasificación.

Edición final con todos los recursos actualizados: Para un proyecto, estoy aplicando algoritmos de aprendizaje automático para la clasificación. Reto: datos etiquetados bastante limitados y muchos más datos sin etiquetar. Metas: Aplicar clasificación semi-supervisada Aplicar un proceso de etiquetado semi-supervisado de alguna manera (conocido como aprendizaje activo) He encontrado mucha …

19 machine-learning classification software svm text-mining

7

Datos sesgados en el aprendizaje automático

Estoy trabajando en un proyecto de Machine Learning con datos que ya están (muy) sesgados por la selección de datos. Supongamos que tiene un conjunto de reglas codificadas. ¿Cómo se construye un modelo de aprendizaje automático para reemplazarlo, cuando todos los datos que puede usar son datos que ya fueron …

18 machine-learning classification data-mining bias extrapolation

1

Opiniones sobre Oversampling en general, y el algoritmo SMOTE en particular [cerrado]

Cerrada . Esta pregunta está basada en la opinión . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que pueda ser respondida con hechos y citas editando esta publicación . Cerrado hace 2 años . ¿Cuál es su opinión sobre el sobremuestreo en la clasificación …

18 machine-learning classification oversampling

5

Clasificación de texto a gran escala

Estoy buscando hacer una clasificación en mis datos de texto. Tengo 300 classes200 documentos de capacitación por clase (más o menos 60000 documents in total) y es probable que esto genere datos dimensionales muy altos (es posible que estemos buscando más de 1 millón de dimensiones ). Me gustaría realizar …

18 machine-learning classification text-mining

10

Conjuntos de datos de redes sociales

Bloqueado . Esta pregunta y sus respuestas están bloqueadas porque la pregunta está fuera de tema pero tiene un significado histórico. Actualmente no acepta nuevas respuestas o interacciones. Estoy buscando conjuntos de datos de redes sociales (twitter, friendfeed, facebook, lastfm, etc.) para tareas de clasificación, preferiblemente en formato arff. Mis …

18 classification dataset

3

¿Es mejor construir un clasificador multiclase que varios binarios?

Necesito clasificar las URL en categorías. Digamos que tengo 15 categorías en las que planeo poner cero a cada URL. ¿Es mejor un clasificador de 15 vías? Donde tengo 15 etiquetas y genero características para cada punto de datos. O construyendo 15 clasificadores binarios, diga: Película o No película, y …

18 machine-learning classification categorical-data svm feature-selection

2

¿Por qué el clasificador de regresión de cresta funciona bastante bien para la clasificación de texto?

Durante un experimento para la clasificación de texto, encontré que el clasificador de cresta genera resultados que constantemente superan las pruebas entre los clasificadores que se mencionan y aplican con mayor frecuencia para las tareas de minería de texto, como SVM, NB, kNN, etc. Sin embargo, no he elaborado en …

18 machine-learning classification text-mining ridge-regression

2

Prueba de clasificación en datos de desequilibrio sobremuestreados

Estoy trabajando en datos gravemente desequilibrados. En la literatura, se utilizan varios métodos para reequilibrar los datos mediante re-muestreo (sobremuestreo o submuestreo). Dos buenos enfoques son: SMOTE: Técnica de sobremuestreo de minorías sintéticas ( SMOTE ) ADASYN: Enfoque de muestreo sintético adaptativo para el aprendizaje desequilibrado ADASYN ) He implementado …

18 classification dataset resampling unbalanced-classes oversampling

1

Prueba: dígale al clasificador por su límite de decisión

Los siguientes son los 6 límites de decisión a continuación. Los límites de decisión son las líneas violett. Los puntos y cruces son dos conjuntos de datos diferentes. Tenemos que decidir cuál es un: SVM lineal SVM kernelized (núcleo polinomial de orden 2) Perceptrón Regresión logística Red neuronal (1 capa …

17 machine-learning self-study classification neural-networks svm

3

¿Cuándo no debo usar un clasificador de conjunto?

En general, en un problema de clasificación donde el objetivo es predecir con precisión la pertenencia a una clase fuera de la muestra, ¿cuándo no debo usar un clasificador de conjunto? Esta pregunta está estrechamente relacionada con ¿Por qué no usar siempre el aprendizaje conjunto? . Esa pregunta pregunta por …

17 classification boosting ensemble bagging

1

¿Cuándo Naive Bayes funciona mejor que SVM?

En un pequeño problema de clasificación de texto que estaba viendo, Naive Bayes ha estado exhibiendo un rendimiento similar o mayor que un SVM y estaba muy confundido. Me preguntaba qué factores deciden el triunfo de un algoritmo sobre el otro. ¿Hay situaciones en las que no tiene sentido usar …

17 machine-learning classification svm naive-bayes

1

Quiero construir un índice de criminalidad e índice de inestabilidad política basado en noticias

Tengo este proyecto paralelo en el que rastreo los sitios web de noticias locales en mi país y quiero crear un índice de criminalidad e índice de inestabilidad política. Ya he cubierto la parte de recuperación de información del proyecto. Mi plan es hacer: Extracción de temas sin supervisión. Detección …

17 machine-learning classification text-mining

3

Comparación de dos resultados de precisión del clasificador para la significación estadística con la prueba t

Quiero comparar la precisión de dos clasificadores para la significación estadística. Ambos clasificadores se ejecutan en el mismo conjunto de datos. Esto me lleva a creer que debería estar usando una prueba t de una muestra de lo que he estado leyendo . Por ejemplo: Classifier 1: 51% accuracy Classifier …

17 machine-learning statistical-significance classification t-test

Preguntas etiquetadas con classification