Obviamente, sí.
El análisis de datos podría llevarlo a muchos puntos que dañarían su modelo predictivo:
Datos incompletos
Suponiendo que estamos hablando de datos cuantitativos, tendrá que decidir si desea ignorar la columna (si faltan demasiados datos) o averiguar cuál será su valor "predeterminado" (media, modo, etc.). No puede hacer esto sin explorar primero sus datos.
Datos anormales
Digamos que tiene datos que están bastante correlacionados, pero hay un 2% de sus datos que está muy lejos de esta correlación. Es posible que desee eliminar estos datos por completo para ayudar a su modelo predictivo
Eliminar columnas con demasiada correlación
Ok, esto contradice un poco mi punto anterior, pero el inglés no es mi idioma principal, así que espero que lo entiendas.
Tomaré un ejemplo tonto, digamos que analiza el conjunto de datos de un estadio de fútbol y tiene Width, Length, Area
como parámetros. Bueno, podemos imaginar fácilmente que estos tres parámetros estarán fuertemente correlacionados. Tener demasiada correlación entre su columna lleva al modelo predictivo en una dirección incorrecta. Puede decidir eliminar uno o más de los parámetros.
Encuentra nuevas funciones
Tomaré el ejemplo de la pequeña "Competencia" de Titanic Kaggle . Al mirar los nombres de las personas, puede darse cuenta de que puede extraer una característica que es la Title
de la persona. Esta característica resulta ser muy importante cuando se trata de modelar, pero te la habrías perdido si no analizaras tus datos primero.
Puede decidir agrupar sus datos continuos porque se siente más apropiado o convertir una característica continua en una categórica.
Encuentra qué tipo de algoritmo usar
No puedo dibujar tramas en este momento, pero hagamos de esto un ejemplo simple.
Imagine que tiene un modelo pequeño con una columna de características y una columna de "resultado" binario (solo 0 o 1). Desea crear un modelo de clasificación predictivo para este conjunto de datos.
Si, una vez más, como ejemplo, tuviera que trazarlo (así, analizar sus datos), podría darse cuenta de que el diagrama forma un círculo perfecto alrededor de su valor 1. En tal escenario, sería bastante obvio que podría usar un clasificador polinómico para tener un gran modelo en lugar de saltar directamente al DNN. (Obviamente, considerando que solo hay dos columnas en mi ejemplo, no es un excelente ejemplo, pero entiendes el punto)
En general, no puede esperar que un modelo predictivo funcione bien si no mira los datos primero.
[descriptive-statistics]
etiqueta y su pregunta final es si las estadísticas descriptivas son importantes. En este contexto, ¿te refieres a calcular varias estadísticas descriptivas cuando mencionas EDA, o preguntas sobre estadísticas descriptivas y EDA? Pregunto porque muchas personas (incluyéndome a mí) piensan en EDA como algo más que estadísticas descriptivas.