¿Es mejor hacer un análisis exploratorio de datos solo en el conjunto de datos de capacitación?

15

Estoy haciendo análisis de datos exploratorios (EDA) en un conjunto de datos. Luego seleccionaré algunas características para predecir una variable dependiente.

La pregunta es:
¿Debo hacer el EDA solo en mi conjunto de datos de entrenamiento? ¿O debería unirme a los conjuntos de datos de entrenamiento y prueba y luego hacer el EDA en ambos y seleccionar las características basadas en este análisis?

— Aboelnour
fuente

6

Recomiendo echar un vistazo a "7.10.2 La validación cruzada de manera incorrecta y correcta" en http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf .

Los autores dan un ejemplo en el que alguien hace lo siguiente:

Analice los predictores: encuentre un subconjunto de predictores "buenos" que muestren una correlación bastante fuerte (univariante) con las etiquetas de clase
Usando solo este subconjunto de predictores, construya un clasificador multivariado.
Utilice la validación cruzada para estimar los parámetros de ajuste desconocidos y para estimar el error de predicción del modelo final

Esto suena muy similar a hacer EDA en todos sus datos (es decir, entrenamiento más prueba) y usar el EDA para seleccionar predictores "buenos".

Los autores explican por qué esto es problemático: la tasa de error con validación cruzada será artificialmente baja, lo que podría llevarlo a pensar que ha encontrado un buen modelo.

— Adrian
fuente

1

¿Desea identificar variables independientes que tengan un efecto en su variable dependiente?

Entonces, ambos enfoques no son realmente recomendables.

Después de haber definido su pregunta de investigación, debe desarrollar su teoría. Es decir, que utilizando la literatura, debe identificar variables que deberían tener un efecto (debería poder explicar el motivo).

— Peter Clark
fuente

66

Si bien este punto de vista parece estar de acuerdo con el concepto clásico de las pruebas estadísticas (y, como tal, me duele no estar de acuerdo), hay muchos problemas modernos para los que esto simplemente no es factible. Por ejemplo, suponga que desea ver si alguno de los 20,000 genes codificadores de proteínas están asociados con una nueva enfermedad hereditaria. No hay antecedentes que lo preparen, no hay forma de "proponer una teoría" y un EDA es la única forma de comenzar. Y si tiene suficientes datos para un EDA y un análisis confirmatorio, puede llegar a algún lado.

— Cliff AB

3

"Deberías desarrollar tu teoría", es una buena idea, pero no siempre es posible, especialmente en la industria. A veces, simplemente continúas con el pronóstico sin desarrollar ninguna teoría

— Aksakal

1

Aplicar EDA en los datos de prueba es incorrecto.

La capacitación es el proceso de buscar las respuestas correctas para crear el mejor modelo. Este proceso no solo se limita a ejecutar código en los datos de entrenamiento. El uso de la información de EDA para decidir qué modelo usar, ajustar los parámetros, etc., es parte del proceso de capacitación y, por lo tanto, no se debe permitir el acceso a los datos de la prueba. Para ser sincero con usted mismo, use los datos de prueba solo para verificar el rendimiento de su modelo.

Además, si se da cuenta de que el modelo no funciona bien durante las pruebas y luego vuelve a ajustar su modelo, entonces eso tampoco es bueno. En su lugar, divide tus datos de entrenamiento en dos. Use uno para entrenamiento y otro para probar y ajustar sus modelos. Consulte ¿Cuál es la diferencia entre el conjunto de prueba y el conjunto de validación?

— desvanecer
fuente

0

Después del párrafo de esta respuesta . Hastie explica además p.245 :

"Aquí está la forma correcta de llevar a cabo la validación cruzada en este ejemplo:

Divida las muestras en K pliegues de validación cruzada (grupos) al azar.

Para cada pliegue k = 1, 2,. . . , K
(a) Encuentre un subconjunto de predictores "buenos" que muestren una correlación bastante fuerte (univariante) con las etiquetas de clase, utilizando todas las muestras excepto las del pliegue k.
(b) Utilizando solo este subconjunto de predictores, construya un clasificador multivariado, utilizando todas las muestras excepto las del pliegue k.
(c) Use el clasificador para predecir las etiquetas de clase para las muestras en el pliegue k ".

— usuario2672299
fuente

-3

Realiza EDA en todo el conjunto de datos. Por ejemplo, si está utilizando la validación cruzada de dejar uno afuera , ¿cómo haría EDA solo en un conjunto de datos de capacitación ? En este caso, cada observación es entrenamiento y resistencia al menos una vez.

Entonces, no, usted forma su comprensión de los datos en toda la muestra. Si estás en la configuración industrial, es aún más evidente. Se espera que muestre las tendencias y la descripción general de los datos a las partes interesadas de la empresa, y lo hace en toda la muestra.

— Aksakal
fuente