¿Qué significa la teoría de aprendizaje PAC?

15

Soy nuevo en aprendizaje automático. Estoy estudiando un curso de aprendizaje automático (Universidad de Stanford) y no entendí qué significa esta teoría y cuál es su utilidad. Me pregunto si alguien podría detallar esta teoría para mí.

Esta teoría se basa en esta ecuación. ingrese la descripción de la imagen aquí

machine-learning probability pac-learning

— Mejor inglés
fuente

2

PAC significa Probablemente Aproximadamente Correcto.

— Marc Claesen

@MarcClaesen, ¿podría explicarlo así: "Significa que los enfoques de aprendizaje automático ofrecen una solución de probabilidad para un problema dado y esta solución tiende a ser aproximadamente correcta"

— BetterEnglish

1

aquí hay un enlace divertido: autonlab.org/tutorials/pac.html o esto: autonlab.org/_media/tutorials/pac05.pdf

— EngrStudent - Reinstale Monica el

16

Probablemente, la teoría de aprendizaje aproximadamente correcta (PAC) ayuda a analizar si y bajo qué condiciones un alumno probablemente generará un clasificador aproximadamente correcto. (Verá que algunas fuentes usan en lugar de ). $L$ $A$ $L$

Primero, definamos "aproximado". Una hipótesis es aproximadamente correcta si su error sobre la distribución de entradas está limitado por algún $h \in H$ Es decir,, donde $\epsilon, 0 \le \epsilon \le \frac{1}{2}.$ $error_D(h)\lt \epsilon$ $D$ es la distribución sobre las entradas.

A continuación, "probablemente". Si generará dicho clasificador con probabilidad , con $L$ $1 - \delta$ , llamamos a ese clasificadorprobablementeaproximadamente correcto. $0 \le \delta \le \frac{1}{2}$

Saber que un concepto objetivo puede aprenderse con PAC le permite vincular el tamaño de muestra necesario para probablemente aprender un clasificador aproximadamente correcto, que es lo que se muestra en la fórmula que ha reproducido:

m \geq \frac{1}{ϵ} (l n | H | + l n \frac{1}{δ})

$m \ge\frac{1}{\epsilon}(ln|H| + ln\frac{1}{\delta})$

Para tener alguna intuición al respecto, tenga en cuenta los efectos en cuando modifique las variables en el lado derecho. A medida que disminuye el error permitido , crece el tamaño de muestra necesario. Asimismo, se crece con la probabilidad de que un alumno aproximadamente correcto, y con el tamaño del espacio de hipótesis . (En términos generales, un espacio de hipótesis es el conjunto de clasificadores que su algoritmo considera). Más claramente, a medida que considera más clasificadores posibles, o desea un menor error o una mayor probabilidad de corrección, necesita más datos para distinguirlos. $m$ $H$

Para más información, este y otros videos relacionados pueden ser útiles, como podría ser esta larga introducción o uno de los muchos textos de aprendizaje automático , por ejemplo, Mitchell .

— Sean Easter
fuente

Este es el tipo de respuesta que estaba buscando durante mucho tiempo; ambos simples pero con sonido. Aunque muchas fuentes proporcionarían una respuesta extensa, no es tan preferible para una referencia rápida.

— Ébe Isaac

3

$(x_i, y_i)$ $x_i$ $y_i$ $\tilde{x}$ $\tilde{y}$
Realmente uno no está interesado en la precisión de la hipótesis sobre los datos (de capacitación) dados, excepto que es difícil creer que un modelo creado con algunos datos no refleje con precisión ese conjunto de datos, pero será preciso en cualquier futuro conjuntos de datos Las dos advertencias importantes son que uno no puede predecir datos nuevos con una precisión del 100% y también existe la posibilidad de que los ejemplos de datos que uno ha visto pierdan algo importante. Un ejemplo de juguete sería que si le diera los 'datos' 1,2,3,4, uno 'predeciría' que 5 sería el siguiente número. Si probaste esto preguntando a la gente cuál era el siguiente número en la secuencia, la mayoría de la gente diría 5. Alguien podría

$x_i, 1 \leq i \leq m$ $y_i$ $f_{\theta}$ $f_{\Theta}$ $p >1-\delta$ $f_{\Theta}$ $\epsilon$ $(\delta,\epsilon)$ $(\delta,\epsilon)$ y cuán compleja es la clase de hipótesis dada.

$\mathcal{H}$ $f_{\theta}$ $(\epsilon, \delta)$ $0 < \epsilon,\delta , <.5$ $f_{\Theta}$ $\tilde{x}, \tilde{y}$ $Err(f_{\Theta}(\tilde{x}) ,\tilde{y} ) < \epsilon$ con probabilidad $p > 1-\delta$ si el modelo fue seleccionado (entrenado) con al menos $m = m(\delta,\epsilon,\mathcal{H})$ training examples. Here Err is the chosen loss function which is usually $(f_{\Theta}(\tilde{x}) -\tilde{y})^2$ .

The diagram you have gives a formula for how much data one needs to train on for a given class of hypotheses to satisfy a given pair $(\delta,\epsilon)$ . I could be wrong, but I believe that this definition was given by Valiant in a paper called "A Theory of the Learnable" and was in part responsible for Valiant winning the Turing prize.

— meh
fuente