No entiendo la pregunta completamente. En general, una muestra más grande producirá (por ejemplo) una mejor clasificación. A menos que más grande signifique observaciones de mala calidad. Una pequeña muestra hará que muchos modelos sean inútiles. Por ejemplo, dado que los modelos basados en árboles son una especie de enfoque de "divide y vencerás", su eficiencia depende mucho del tamaño de la muestra de entrenamiento.
Por otro lado, si está interesado en el aprendizaje estadístico en altas dimensiones, creo que su preocupación tiene más que ver con la maldición de la dimensionalidad. Si el tamaño de su muestra es "pequeño" y su espacio de características es de una dimensión "alta", sus datos se comportarán como si fueran escasos y la mayoría de los algoritmos lo pasarán mal tratando de darle sentido. Citando a John A. Richards en el análisis de imagen digital de teledetección:
Reducción de características y separabilidad
El costo de clasificación aumenta con el número de características utilizadas para describir los vectores de píxeles en el espacio multiespectral, es decir, con el número de bandas espectrales asociadas con un píxel. Para clasificadores como los procedimientos de paralelepípedo y distancia mínima, este es un aumento lineal con características; sin embargo, para la clasificación de máxima verosimilitud, el procedimiento que se prefiere con mayor frecuencia, el aumento de costos con las características es cuadrático. Por lo tanto, es razonable garantizar económicamente que no se utilicen más características de las necesarias al realizar una clasificación. La Sección 8.2.6 llama la atención sobre la cantidad de píxeles de entrenamiento necesarios para garantizar que se puedan obtener estimaciones confiables de las firmas de clase. En particular, el número de píxeles de entrenamiento requeridos aumenta con el número de bandas o canales en los datos. Para datos de alta dimensionalidad, como el de los espectrómetros de imágenes, ese requisito presenta un gran desafío en la práctica, por lo que es importante mantener el número de características utilizadas en una clasificación lo menos posible si se esperan resultados confiables de un número asequible de píxeles de entrenamiento. Las características que no ayudan a la discriminación, al contribuir poco a la separabilidad de las clases espectrales, deben descartarse. La eliminación de características menos efectivas se conoce como selección de características, siendo esta una forma de reducción de características. El otro es transformar el vector de píxeles en un nuevo conjunto de coordenadas en el que las características que se pueden eliminar se hacen más evidentes. Ambos procedimientos se consideran con cierto detalle en este capítulo. por lo tanto, es importante mantener el número de características utilizadas en una clasificación lo menos posible si se esperan resultados confiables de un número asequible de píxeles de entrenamiento. Las características que no ayudan a la discriminación, al contribuir poco a la separabilidad de las clases espectrales, deben descartarse. La eliminación de características menos efectivas se conoce como selección de características, siendo esta una forma de reducción de características. El otro es transformar el vector de píxeles en un nuevo conjunto de coordenadas en el que las características que se pueden eliminar se hacen más evidentes. Ambos procedimientos se consideran con cierto detalle en este capítulo. por lo tanto, es importante mantener el número de características utilizadas en una clasificación lo menos posible si se esperan resultados confiables de un número asequible de píxeles de entrenamiento. Las características que no ayudan a la discriminación, al contribuir poco a la separabilidad de las clases espectrales, deben descartarse. La eliminación de características menos efectivas se conoce como selección de características, siendo esta una forma de reducción de características. El otro es transformar el vector de píxeles en un nuevo conjunto de coordenadas en el que las características que se pueden eliminar se hacen más evidentes. Ambos procedimientos se consideran con cierto detalle en este capítulo. debe ser descartado La eliminación de características menos efectivas se conoce como selección de características, siendo esta una forma de reducción de características. El otro es transformar el vector de píxeles en un nuevo conjunto de coordenadas en el que las características que se pueden eliminar se hacen más evidentes. Ambos procedimientos se consideran con cierto detalle en este capítulo. debe ser descartado La eliminación de características menos efectivas se conoce como selección de características, siendo esta una forma de reducción de características. El otro es transformar el vector de píxeles en un nuevo conjunto de coordenadas en el que las características que se pueden eliminar se hacen más evidentes. Ambos procedimientos se consideran con cierto detalle en este capítulo.
Lo que significaría que el problema es doble, encontrar características relevantes y el tamaño de muestra que menciona. A partir de ahora puede descargar el libro de forma gratuita si lo busca en google.
Otra forma de leer su pregunta que me interesa particularmente sería esta: en el aprendizaje supervisado solo puede validar realmente sus modelos en los datos de prueba mediante validación cruzada y lo que no. Si la muestra etiquetada de la que obtuvo sus muestras de tren / prueba no representa bien su universo, los resultados de la validación podrían no aplicarse a su universo. ¿Cómo puede medir la representatividad de su muestra etiquetada?