Suponga que puede observar "coincidencias" entre compradores y vendedores en un mercado. También puede observar las características de los compradores y vendedores que le gustaría utilizar para predecir futuras coincidencias y hacer recomendaciones a ambos lados del mercado.
Para simplificar, suponga que hay N compradores y N vendedores y que cada uno encuentra una coincidencia. Hay N coincidencias y (N-1) (N-1) no coincidencias. El conjunto de datos de entrenamiento todo incluido tiene observaciones N + (N-1) * (N-1), que pueden ser prohibitivamente grandes. Parecería que el muestreo aleatorio de las no coincidencias (N-1) (N-1) y el entrenamiento de un algoritmo sobre esos datos reducidos podría ser más eficiente. Mis preguntas son:
(1) ¿El muestreo de los no partidos para construir un conjunto de datos de entrenamiento es una forma razonable de abordar este problema?
(2) Si (1) es cierto, ¿hay una manera rigurosa de decidir qué tan grande de un pedazo de (N-1) (N-1) incluir?