Aplicar EDA en los datos de prueba es incorrecto.
La capacitación es el proceso de buscar las respuestas correctas para crear el mejor modelo. Este proceso no solo se limita a ejecutar código en los datos de entrenamiento. El uso de la información de EDA para decidir qué modelo usar, ajustar los parámetros, etc., es parte del proceso de capacitación y, por lo tanto, no se debe permitir el acceso a los datos de la prueba. Para ser sincero con usted mismo, use los datos de prueba solo para verificar el rendimiento de su modelo.
Además, si se da cuenta de que el modelo no funciona bien durante las pruebas y luego vuelve a ajustar su modelo, entonces eso tampoco es bueno. En su lugar, divide tus datos de entrenamiento en dos. Use uno para entrenamiento y otro para probar y ajustar sus modelos. Consulte ¿Cuál es la diferencia entre el conjunto de prueba y el conjunto de validación?