No sé si esto califica como un comentario o como una respuesta. Lo estoy poniendo aquí porque parece una respuesta.
En k-fold cross-validation está dividiendo sus datos en k grupos. Si está cubriendo incluso los "conceptos básicos", entonces está seleccionando uniformemente miembros al azar para cada uno de los k contenedores.
Cuando hablo de datos, pienso en cada fila como una muestra, y cada columna como una dimensión. Estoy acostumbrado a usar varios métodos para determinar la importancia variable, la importancia de la columna.
¿Qué pasa si usted, como ejercicio mental, se alejó del uniforme de "libro de texto" al azar y determinó qué filas eran importantes? Tal vez informan una sola variable a la vez, pero tal vez informan más. ¿Hay algunas filas que son menos importantes que otras? Quizás muchos de los puntos son informativos, quizás pocos lo sean.
Conociendo la importancia de la variable, quizás podría agruparlos por importancia. Tal vez podría hacer un solo contenedor con las muestras más importantes. Esto podría definir el tamaño de su "k". De esta manera, estaría determinando el segmento kth "más informativo" y comparándolo con otros, y con el segmento menos informativo.
Esto podría darle una idea de la variación máxima de los parámetros de su modelo. Es solo una forma.
Una segunda forma de dividir los cubos k es por la magnitud y la dirección de la influencia. Por lo tanto, podría colocar muestras que influyan en un parámetro o parámetros en una dirección en un depósito y colocar muestras que influyan en el mismo parámetro o parámetros en la dirección opuesta en un depósito diferente.
La variación de parámetros en este formulario podría dar un alcance más amplio a las variables, en función de la densidad de información, sino de la raza de información.
La mejor de las suertes.