Usted no tiene a. La función de pérdida tiene el mismo mínimo si incluye el suprimirlo Sin embargo, si lo incluye, obtendrá la buena interpretación de minimizar (la mitad) elerrorpromediopor punto de datos. Dicho de otra manera, está minimizando latasa deerrorenlugar del error total.1m
Considere comparar el rendimiento en dos conjuntos de datos de diferentes tamaños. La suma bruta de los errores al cuadrado no son directamente comparables, ya que los conjuntos de datos más grandes tienden a tener más errores totales debido a su tamaño. Por otro lado, el error promedio por punto de datos es .
¿Puedes elaborar un poco?
Seguro. Su conjunto de datos es una colección de puntos de datos . Una vez que tenga un modelo h , el error de mínimos cuadrados de h en un único punto de datos es{xi,yi}hh
(h(xi)−yi)2
esto es, por supuesto, diferente para cada punto de datos. Ahora, si simplemente sumamos los errores (y multiplicamos por la mitad por la razón que usted describe) obtenemos el error total
12∑i(h(xi)−yi)2
pero si dividimos por el número de sumandos obtenemos el error promedio por punto de datos
12m∑i(h(xi)−yi)2
El beneficio del error promedio es que si tenemos dos conjuntos de datos y { x ′ i , y ′ i } de diferentes tamaños , entonces podemos comparar los errores promedio pero no los errores totales. Porque si el segundo conjunto de datos es, digamos, diez veces el tamaño del primero, entonces esperaríamos que el error total sea aproximadamente diez veces mayor para el mismo modelo. Por otro lado, el error promedio divide el efecto del tamaño del conjunto de datos, por lo que esperaríamos que los modelos de rendimiento similar tengan los mismos errores promedio en diferentes conjuntos de datos.{xi,yi}{x′i,y′i}