¿Qué es la combinación de datos?


15

Este término aparece con frecuencia en los hilos relacionados con el método .

¿ Combinar es un método específico en minería de datos y aprendizaje estadístico? No puedo obtener un resultado relevante de google.

Parece que la combinación está mezclando los resultados de muchos modelos y dando como resultado un mejor resultado. ¿Hay algún recurso que me ayude a saber más al respecto?

Respuestas:


10

http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf Algunos documentos para ayudarlo a comprender mejor qué es la mezcla. Creo que también puedes buscar en Google para la selección / aprendizaje de conjuntos, y también para apilar.

Sin embargo, su comprensión general de "mezclar los resultados de muchos modelos y obtener un mejor resultado" es correcta.


Ese enlace también fue tomado de algún lugar del foro de kaggle. Solo guardé el enlace del pdf, pero no la discusión ...
Rey

12

Impulsar (como se menciona en la discusión vinculada) es un método que combina un conjunto de algoritmos para obtener un resultado mejor que el que puede obtener de cualquier algoritmo individual. Por ejemplo, los bosques aleatorios son un método para combinar varios árboles de clasificación para un algoritmo de clasificación. Este enfoque se denomina formalmente promedio de conjunto (aunque el algoritmo generalmente aplica la regla de la mayoría). Mezclar parece ser una palabra que algunas personas usan para describir un enfoque impulsor de la clasificación.


Entonces, ¿se puede llamar mezcla, si reemplazo los árboles de clasificación en un modelo adaboost normal con otro conjunto de algoritmos?
TomHall

Hola, Michael. Tu respuesta es realmente útil, pero, lástima, soy nuevo en las estadísticas y todavía no tengo suficiente reputación para votar tu respuesta.
TomHall

1
Bueno, entonces recuerda hacerlo después de obtener algunos puntos de repetición.
Michael R. Chernick

0

En la industria, la combinación de datos no se trata de modelos, sino de preprocesamiento : es cuando se fusionan los datos que provienen de diferentes fuentes, como uno de una base de datos y otros datos de archivos CSV.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.