El término de búsqueda que está buscando es "curva de aprendizaje", que proporciona el rendimiento (promedio) del modelo en función del tamaño de la muestra de entrenamiento.
Las curvas de aprendizaje dependen de muchas cosas, p. Ej.
- método de clasificación
- complejidad del clasificador
- qué tan bien están separadas las clases.
(Creo que para la LDA de dos clases es posible que pueda derivar algunos cálculos de potencia teóricos, pero el hecho crucial es siempre si sus datos realmente cumplen con la suposición de "COV multivariante normal normal". Me gustaría realizar alguna simulación para ambas LDA supuestos y remuestreo de sus datos ya existentes).
Hay dos aspectos del rendimiento de un clasificador entrenado en un tamaño de muestra finito (como de costumbre),norte
- sesgo, es decir, en promedio, un clasificador entrenado en muestras de entrenamiento es peor que el clasificador entrenado en casos de entrenamiento (esto generalmente se entiende por curva de aprendizaje), ynorten = ∞
- varianza: un conjunto de entrenamiento dado de casos puede conducir a un rendimiento del modelo bastante diferente.
Incluso con pocos casos, puede tener suerte y obtener buenos resultados. O tienes mala suerte y obtienes un clasificador realmente malo.
Como de costumbre, esta variación disminuye con el aumento del tamaño de la muestra de entrenamiento .nnorte
norte
Otro aspecto que debe tener en cuenta es que, por lo general, no es suficiente entrenar a un buen clasificador, pero también debe demostrar que el clasificador es bueno (o lo suficientemente bueno). Por lo tanto, debe planificar también el tamaño de muestra necesario para la validación con una precisión dada. Si necesita dar estos resultados como una fracción del éxito entre tantos casos de prueba (por ejemplo, precisión / precisión / sensibilidad / valor predictivo positivo del productor o consumidor), y la tarea de clasificación subyacente es bastante fácil, esto puede necesitar más casos independientes que la capacitación de Un buen modelo.
Como regla general, para el entrenamiento, el tamaño de la muestra generalmente se discute en relación con la complejidad del modelo (número de casos: número de variantes), mientras que los límites absolutos en el tamaño de la muestra de prueba se pueden dar para una precisión requerida de la medición del rendimiento.
Aquí hay un documento, donde explicamos estas cosas con más detalle, y también discutimos cómo
construir curvas de aprendizaje: Beleites, C. y Neugebauer, U. y Bocklitz, T. y Krafft, C. y Popp, J .: Planificación del tamaño de la muestra para modelos de clasificación. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrito aceptado en arXiv: 1211.1323
Este es el "avance", que muestra un problema de clasificación fácil (en realidad tenemos una distinción fácil como esta en nuestro problema de clasificación, pero otras clases son mucho más difíciles de distinguir):
No tratamos de extrapolar a tamaños de muestra de entrenamiento más grandes para determinar cuánto más se necesitan casos de entrenamiento, porque los tamaños de muestra de prueba son nuestro cuello de botella, y los tamaños de muestra de entrenamiento más grandes nos permitirían construir modelos más complejos, por lo que la extrapolación es cuestionable. Para el tipo de conjuntos de datos que tengo, abordaría esto de forma iterativa, midiendo un montón de casos nuevos, mostrando cuánto mejoraron las cosas, midiendo más casos, etc.
Esto puede ser diferente para usted, pero el documento contiene referencias bibliográficas a documentos que utilizan extrapolación a tamaños de muestra más altos para estimar el número requerido de muestras.