La minería de datos se clasifica como descriptiva o predictiva. La minería de datos descriptiva es buscar conjuntos de datos masivos y descubrir las ubicaciones de estructuras o relaciones inesperadas, patrones, tendencias, grupos y valores atípicos en los datos. Por otro lado, Predictive es construir modelos y procedimientos para tareas de regresión, clasificación, reconocimiento de patrones o aprendizaje automático, y evaluar la precisión predictiva de esos modelos y procedimientos cuando se aplican a datos nuevos.
El mecanismo utilizado para buscar patrones o estructuras en datos de alta dimensión puede ser manual o automatizado; la búsqueda puede requerir la consulta interactiva de un sistema de gestión de bases de datos, o puede implicar el uso de software de visualización para detectar anomalías en los datos. En términos de aprendizaje automático, la minería de datos descriptiva se conoce como aprendizaje no supervisado, mientras que la minería de datos predictiva se conoce como aprendizaje supervisado.
La mayoría de los métodos utilizados en la minería de datos están relacionados con los métodos desarrollados en estadística y aprendizaje automático. Los principales de esos métodos son los temas generales de regresión, clasificación, agrupamiento y visualización. Debido a los enormes tamaños de los conjuntos de datos, muchas aplicaciones de minería de datos se centran en técnicas de reducción de dimensionalidad (p. Ej., Selección de variables) y situaciones en las que se sospecha que los datos de alta dimensión se encuentran en hiperplanos de menor dimensión. Se ha dirigido recientemente la atención a métodos para identificar datos de alta dimensión que se encuentran en superficies o colectores no lineales.
También hay situaciones en la minería de datos cuando la inferencia estadística , en su sentido clásico, no tiene significado o es de dudosa validez: la primera ocurre cuando tenemos a toda la población para buscar respuestas, y la segunda ocurre cuando un conjunto de datos es un Muestra de "conveniencia" en lugar de ser una muestra aleatoria extraída de una gran población. Cuando los datos se recopilan a través del tiempo (por ejemplo, transacciones minoristas, transacciones bursátiles, registros de pacientes, registros meteorológicos), el muestreo también puede no tener sentido; La ordenación temporal de las observaciones es crucial para comprender el fenómeno que genera los datos, y tratar las observaciones como independientes cuando pueden estar altamente correlacionadas proporcionará resultados sesgados.
Los componentes centrales de la minería de datos son, además de la teoría y los métodos estadísticos, la eficiencia informática y computacional, el procesamiento automático de datos, las técnicas de visualización de datos dinámicos e interactivos y el desarrollo de algoritmos.
Uno de los problemas más importantes en la minería de datos es el problema computacional de la escalabilidad . Los algoritmos desarrollados para calcular métodos estadísticos exploratorios y confirmatorios estándar fueron diseñados para ser rápidos y computacionalmente eficientes cuando se aplican a conjuntos de datos pequeños y medianos; Sin embargo, se ha demostrado que la mayoría de estos algoritmos no están a la altura del desafío de manejar grandes conjuntos de datos. A medida que crecen los conjuntos de datos, muchos algoritmos existentes demuestran una tendencia a disminuir drásticamente (o incluso detenerse).