Si la estadística se trata de maximizar la probabilidad, entonces el aprendizaje automático se trata de minimizar la pérdida. Como no conoce la pérdida en la que incurrirá en datos futuros, minimiza una aproximación, es decir, una pérdida empírica.
Por ejemplo, si tiene una tarea de predicción y es evaluado por el número de clasificaciones erróneas, podría entrenar parámetros para que el modelo resultante produzca el menor número de clasificaciones erróneas en los datos de entrenamiento. "Número de clasificaciones erróneas" (es decir, pérdida de 0-1) es una función de pérdida difícil de trabajar porque no es diferenciable, por lo que se aproxima con un "sustituto" suave. Por ejemplo, la pérdida de registro es un límite superior en la pérdida 0-1, por lo que podría minimizar eso, y esto será lo mismo que maximizar la probabilidad condicional de los datos. Con el modelo paramétrico, este enfoque se vuelve equivalente a la regresión logística.
En una tarea de modelado estructurado y una aproximación de pérdida de registro de pérdida 0-1, obtiene algo diferente de la probabilidad condicional máxima, en su lugar, maximizará el producto de las probabilidades marginales (condicionales).
Para obtener una mejor aproximación de la pérdida, las personas notaron que el modelo de entrenamiento para minimizar la pérdida y usar esa pérdida como una estimación de la pérdida futura es una estimación demasiado optimista. Entonces, para una minimización más precisa (pérdida real futura) agregan un término de corrección de sesgo a la pérdida empírica y minimizan eso, esto se conoce como minimización de riesgo estructurada.
En la práctica, descubrir el término correcto de corrección de sesgo puede ser demasiado difícil, por lo que agrega una expresión "en el espíritu" del término de corrección de sesgo, por ejemplo, la suma de cuadrados de parámetros. Al final, casi todos los enfoques de clasificación supervisada de aprendizaje automático paramétrico terminan entrenando el modelo para minimizar lo siguiente
∑yoL ( m ( xyo, w ) , yyo) + P( w )
donde es su modelo parametrizado por el vector w , i se toma sobre todos los puntos de datos { x i , y i } , L es una aproximación computacionalmente agradable de su pérdida real y P ( w ) es un término de corrección de sesgo / regularizaciónmetrowyo{ xyo, yyo}LPAG( w )
Por ejemplo, si su , y ∈ { - 1 , 1 } , un enfoque típico sería dejar que m ( x ) = signo ( w ⋅ x ) , L ( m ( x ) , y ) = - log ( y × ( x ⋅ w ) ) , P (x ∈ { - 1 , 1 }rey∈ { - 1 , 1 }m (x)= signo (w⋅x)L ( m ( x ) , y) = - log( y× ( x ⋅ w ) ) , y elija q por validación cruzadaPAG( w ) = q× ( w ⋅ w )q