Tengo algunas preguntas sobre las anotaciones utilizadas en la Sección 9.2 Falta de superioridad inherente de cualquier clasificador en la clasificación de patrones de Duda, Hart y Stork . Primero permítanme citar algunos textos relevantes del libro:
- Para simplificar, considere un problema de dos categorías, donde el conjunto de entrenamiento consiste en patrones y las etiquetas de categoría asociadas para generado por la función objetivo desconocida a aprender, , donde .
- Deje denotar el conjunto (discreto) de hipótesis, o posibles conjuntos de parámetros a aprender. Una hipótesis particular podría describirse mediante pesos cuantificados en una red neuronal, o parámetros 0 en un modelo funcional, o conjuntos de decisiones en un árbol, y así sucesivamente.
- Además, es la probabilidad previa de que el algoritmo produzca la hipótesis después del entrenamiento; tenga en cuenta que esta no es la probabilidad de que sea correcta.
- A continuación, indica la probabilidad de que el algoritmo producirá hipótesis cuando entrenados en los datos . En algoritmos de aprendizaje deterministas como el vecino más cercano y los árboles de decisión, estará en todas partes cero, excepto por una sola hipótesis . Para los métodos estocásticos (como las redes neuronales entrenadas a partir de pesos iniciales aleatorios) o el aprendizaje estocástico de Boltzmann, puede ser una distribución amplia.
- Deje que sea el error para una función de pérdida de cero uno u otra.
El error de clasificación esperado del conjunto fuera del entrenamiento cuando la función verdadera es y la probabilidad para el algoritmo de aprendizaje ésimo candidato es viene dada pork PE k ( E | F , n ) = ∑ x ∉ D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D )
Teorema 9.1. (Sin almuerzo gratis) Para cualquiera de los dos algoritmos de aprendizaje y , los siguientes son verdaderos, independientemente de la distribución de muestreo y el número de puntos de entrenamiento:P 2 ( h | D ) P ( x ) n
Promedio uniforme sobre todas las funciones objetivo ,
Para cualquier conjunto de entrenamiento fijo , promediado uniformemente sobre ,
La parte 1 en realidad dice
La parte 2 en realidad dice
Mis preguntas son
- En la fórmula de , es decir, ¿puedo reemplazar con y moverlo fuera de la suma , porque es realmente una distribución de sobre dado para el algoritmo de aprendizaje estocástico ?
- Dado que el ésimo candidato algoritmo de aprendizaje es un método estocástico, por lo que en la fórmula de , no hay suma sobre , es decir, ?
¿En qué se diferencian y entre sí?
¿ significa la tasa de error fuera del entrenamiento dado un conjunto de entrenamiento ?
¿ significa la tasa de error fuera del entrenamiento, promedio sobre todo el conjunto de entrenamiento dado un tamaño de entrenamiento ? En caso afirmativo, ¿por qué la parte 1 en el teorema de la NFL promedia sobre los conjuntos de entrenamiento nuevamente escribiendo , y por qué en la fórmula para , no hay un promedio sobre todo el conjunto de entrenamiento dado un tamaño de entrenamiento ?
- En la parte 1 del teorema de la NFL, ¿ significa sumar sobre todos los conjuntos de entrenamiento con un tamaño de entrenamiento fijo ?
- Si suma más sobre todos los valores posibles en del tamaño de entrenamiento en la parte 1, el resultado sigue siendo 0, ¿verdad?
- En la fórmula de , si cambio a , es decir, no está necesariamente restringido a estar fuera del conjunto de entrenamiento, ambas partes El teorema de la NFL sigue siendo cierto?
- Si la verdadera relación entre y no se supone que son una función determinista como , pero en lugar distribuciones condicional , o una distribución conjunta que es equivalente a conociendo y (también vea mi otra pregunta ), entonces puedo cambiar
para que sea (con el extraño señalado en las partes 1 y 2). ¿Siguen siendo ciertas las dos partes del teorema de la NFL?
¡Gracias y saludos!