Generación de características : este es el proceso de tomar datos brutos y no estructurados y definir características (es decir, variables) para su uso potencial en su análisis estadístico. Por ejemplo, en el caso de la minería de texto, puede comenzar con un registro sin procesar de miles de mensajes de texto (por ejemplo, SMS, correo electrónico, mensajes de redes sociales, etc.) y generar funciones eliminando palabras de bajo valor (es decir, palabras vacías), utilizando cierto tamaño bloques de palabras (es decir, n-gramas) o aplicando otras reglas.
Extracción de características : después de generar características, a menudo es necesario probar las transformaciones de las características originales y seleccionar un subconjunto de este conjunto de posibles características originales y derivadas para usar en su modelo (es decir, extracción y selección de características). Probar valores derivados es un paso común porque los datos pueden contener información importante que tiene un patrón o relación no lineal con su resultado, por lo tanto, la importancia del elemento de datos solo puede ser evidente en su estado transformado (por ejemplo, derivados de orden superior). El uso de demasiadas características puede dar como resultado una colinealidad múltiple o confundir modelos estadísticos, mientras que la extracción del número mínimo de características para el propósito de su análisis sigue el principio de la parsimonia.
Mejorar su espacio de características de esta manera es a menudo un paso necesario en la clasificación de imágenes u otros objetos de datos porque el espacio de características sin procesar generalmente se llena con una cantidad abrumadora de datos no estructurados e irrelevantes que comprenden lo que a menudo se conoce como "ruido" en el paradigma de una "señal" y "ruido" (es decir, algunos datos tienen valor predictivo y otros no). Al mejorar el espacio de funciones, puede identificar mejor los datos importantes que tienen un valor predictivo u otro en su análisis (es decir, la "señal") mientras elimina la información de confusión (es decir, "ruido").