Tengo dos conjuntos de datos A y B que son exactamente iguales en términos de número de columnas, nombre de columnas y valores. La única diferencia es el orden de esas columnas. Luego entreno el modelo LightGBM en cada uno de los dos conjuntos de datos con los siguientes pasos
- Divida cada conjunto de datos en capacitación y pruebas (use la misma semilla aleatoria y la misma proporción para A y B)
- Deje los hiperparámetros como predeterminados.
- Establecer un estado aleatorio como un número fijo (para reproducción)
- Ajuste la tasa de aprendizaje utilizando una búsqueda de cuadrícula
- Entrene un modelo LightGBM en el conjunto de entrenamiento y pruébelo en el conjunto de prueba
- Se elegirá la tasa de aprendizaje con el mejor rendimiento en el conjunto de pruebas
Los modelos de salida en los dos conjuntos de datos son muy diferentes, lo que me hace pensar que el orden de las columnas sí afecta el rendimiento del entrenamiento del modelo con LightGBM.
¿Sabes por qué este es el caso?