Primero, algunas advertencias
No estoy seguro de por qué no puede usar su (sub) paradigma de programación preferido *, la Programación lógica inductiva (ILP) o qué es lo que está tratando de clasificar. Dar más detalles probablemente conduciría a una respuesta mucho mejor; especialmente porque es un poco inusual abordar la selección de algoritmos de clasificación sobre la base del paradigma de programación con el que están asociados. Si su ejemplo del mundo real es confidencial, simplemente invente un ejemplo ficticio pero análogo.
Clasificación de Big Data sin ILP
Dicho esto, después de descartar ILP, tenemos otros 4 paradigmas de programación lógica en nuestro conjunto de consideraciones:
- Secuestrador
- Conjunto de respuestas
- Restricción
- Funcional
Además de las docenas de paradigmas y sub-paradigmas fuera de la programación lógica.
Dentro de la programación lógica funcional, por ejemplo, existen extensiones de ILP llamadas Programación lógica funcional inductiva , que se basa en el estrechamiento de la inversión (es decir, la inversión del mecanismo de estrechamiento). Este enfoque supera varias limitaciones de ILP y ( según algunos académicos, al menos ) es tan adecuado para la aplicación en términos de representación y tiene el beneficio de permitir que los problemas se expresen de una manera más natural.
Sin saber más acerca de los detalles de su base de datos y las barreras que enfrenta para usar ILP, no puedo saber si esto resuelve su problema o sufre los mismos problemas. Como tal, también descartaré un enfoque completamente diferente.
ILP se contrasta con los enfoques "clásicos" o "proposicionales" para la minería de datos . Esos enfoques incluyen la carne y los huesos del aprendizaje automático, como árboles de decisión, redes neuronales, regresión, embolsado y otros métodos estadísticos. En lugar de renunciar a estos enfoques debido al tamaño de sus datos, puede unirse a las filas de muchos científicos de datos, ingenieros de Big Data y estadísticos que utilizan High Performance Computing (HPC) para emplear estos métodos con conjuntos de datos masivos (hay también el muestreo y otras técnicas estadísticas que puede optar por utilizar para reducir los recursos computacionales y el tiempo requerido para analizar Big Data en su base de datos relacional).
HPC incluye cosas como utilizar múltiples núcleos de CPU, ampliar su análisis con el uso elástico de servidores con alta memoria y grandes cantidades de núcleos de CPU rápidos, usar dispositivos de almacenamiento de datos de alto rendimiento, emplear clústeres u otras formas de computación paralela, etc. No estoy seguro de con qué lenguaje o conjunto estadístico está analizando sus datos, pero como ejemplo, esta Vista de tareas CRAN enumera muchos recursos de HPC para el lenguaje R que le permitirían ampliar un algoritmo proposicional.