Estoy tratando de resolver un conjunto de ecuaciones que tiene 40 variables independientes (x1, ..., x40) y una variable dependiente (y). El número total de ecuaciones (número de filas) es ~ 300, y quiero resolver el conjunto de 40 coeficientes que minimiza el error total de la suma del cuadrado entre y y el valor predicho.
Mi problema es que la matriz es muy escasa y no conozco la mejor manera de resolver el sistema de ecuaciones con datos dispersos. A continuación se muestra un ejemplo del conjunto de datos:
y x1 x2 x3 x4 x5 x6 ... x40
87169 14 0 1 0 0 2 ... 0
46449 0 0 4 0 1 4 ... 12
846449 0 0 0 0 0 3 ... 0
....
Actualmente estoy usando un algoritmo genético para resolver esto y los resultados están saliendo aproximadamente con un factor de dos diferencia entre lo observado y lo esperado.
¿Alguien puede sugerir diferentes métodos o técnicas que sean capaces de resolver un conjunto de ecuaciones con datos dispersos?