TL; DR
La precisión es una regla de puntuación incorrecta. No lo uses
La versión un poco más larga
En realidad, la precisión ni siquiera es una regla de puntuación. Entonces, preguntar si es (estrictamente) apropiado es un error de categoría. Lo máximo que podemos decir es que, bajo supuestos adicionales , la precisión es consistente con una regla de puntuación que es incorrecta, discontinua y engañosa. (No lo uses)
Tu confusión
Su confusión se debe al hecho de que la pérdida de clasificación errónea según el documento que cita tampoco es una regla de puntuación.
Los detalles: reglas de puntuación versus evaluaciones de clasificación
Vamos a arreglar la terminología. Estamos interesados en un resultado binario , y tenemos una predicción probabilística . Sabemos que , pero nuestro modelo puede o no saber eso.q = P ( Y = 1 ) ∈ ( 0 , 1 ) P ( Y = 1 ) = η > 0,5 qy∈ { 0 , 1 }qˆ= Pˆ( Y= 1 ) ∈ ( 0 , 1 )PAG( Y= 1 ) = η> 0.5qˆ
Una regla de puntuación es un mapeo que toma una predicción probabilística y un resultado a una pérdida, yqˆy
s : ( qˆ, y) ↦ s ( qˆ, y) .
q = η s q = ηs es apropiado si está optimizado en expectativa por . ("Optimizado" generalmente significa "minimizado", pero algunos autores invierten los signos y tratan de maximizar una regla de puntuación). es estrictamente apropiado si está optimizado en expectativa solo por .qˆ=ηsqˆ=η
Normalmente evaluaremos en muchas predicciones y los resultados correspondientes y promedio para estimar esta expectativa.sqˆiyi
Ahora, ¿qué es la precisión ? La precisión no toma una predicción probabilística como argumento. Se necesita una clasificaciónyˆ∈{0,1} y un resultado:
a:(yˆ,y)↦a(yˆ,y)={1,0,yˆ=yyˆ≠y.
Por lo tanto, la precisión no es una regla de puntuación . Es una evaluación de clasificación. (Este es un término que acabo de inventar; no lo busques en la literatura).
Ahora, por supuesto, podemos tomar una predicción probabilística como nuestra y convertirla en una clasificación . Pero para hacerlo, necesitaremos las suposiciones adicionales aludidas anteriormente. Por ejemplo, es muy común usar un umbral y clasificar:qˆyˆθ
yˆ(qˆ,θ):={1,0,qˆ≥θqˆ<θ.
Un valor umbral muy común es . Tenga en cuenta que si usamos este umbral y luego evaluamos la precisión sobre muchas predicciones (como arriba) y los resultados correspondientes , entonces llegamos exactamente a la pérdida de clasificación errónea según Buja et al. Por lo tanto, la pérdida de clasificación errónea tampoco es una regla de puntuación, sino una evaluación de clasificación.θ=0.5qˆiyi
Si tomamos un algoritmo de clasificación como el anterior, podemos convertir una evaluación de clasificación en una regla de puntuación. El punto es que necesitamos los supuestos adicionales del clasificador. Y esa precisión o pérdida de clasificación errónea o cualquier otra evaluación de clasificación que elijamos puede depender menos de la predicción probabilística y más de la forma en que convertimos en una clasificación . Por lo tanto, optimizar la evaluación de clasificación puede estar persiguiendo un arenque rojo si realmente estamos interesados en evaluar .qˆqˆyˆ=yˆ(qˆ,θ)qˆ
Ahora, ¿qué tiene de incorrecto estas reglas de puntuación bajo supuestos adicionales? Nada, en el presente caso. , bajo el implícito , maximizará la precisión y minimizará la pérdida de clasificación errónea sobre todas las posibles . Entonces, en este caso, nuestra suposición de regla de puntuación bajo supuestos adicionales es correcta.qˆ=ηθ=0.5qˆ∈(0,1)
Tenga en cuenta que lo importante para la precisión o la pérdida de clasificación errónea es solo una pregunta: ¿clasificamos ( ) todo como la clase mayoritaria o no? yˆSi lo hacemos, la pérdida de precisión o clasificación errónea es feliz. Si no, no lo son. Lo importante de esta pregunta es que solo tiene una conexión muy tenue con la calidad de .qˆ
En consecuencia, nuestras suposiciones de reglas de puntaje bajo adicionales no son estrictamente apropiadas, ya que cualquier conducirá a la misma evaluación de clasificación. Podríamos usar el estándar , creer que la clase mayoritaria ocurre con y clasificar todo como la clase mayoritaria, porque . La precisión es alta, pero no tenemos ningún incentivo para mejorar nuestro al valor correcto de .theta=0,5 q =0,99 q ≥theta q ηqˆ≥θθ=0.5qˆ=0.99qˆ≥θqˆη
O podríamos haber hecho un análisis extenso de los costos asimétricos de la clasificación errónea y haber decidido que el mejor umbral de probabilidad de clasificación debería ser . Por ejemplo, esto podría suceder si significa que padece alguna enfermedad. Podría ser mejor tratarlo incluso si no padece la enfermedad ( ), en lugar de al revés, por lo que podría tener sentido tratar a las personas incluso si hay una baja probabilidad pronosticada (pequeño ) lo padecen. Entonces podríamos tener un modelo terriblemente incorrecto que cree que la verdadera clase mayoritaria solo ocurre cony = 1 y = 0 q q = 0,25 q ≥ θθ=0.2y=1y=0qˆqˆ=0.25- pero debido a los costos de clasificación errónea, todavía clasificamos todo como esta clase minoritaria (asumida), porque nuevamente . Si hiciéramos esto, la pérdida de precisión o clasificación errónea nos haría creer que estamos haciendo todo bien, incluso si nuestro modelo predictivo ni siquiera entiende cuál de nuestras dos clases es la mayoría.qˆ≥θ
Por lo tanto, la pérdida de precisión o clasificación errónea puede ser engañosa.
Además, la precisión y la pérdida de clasificación errónea son inadecuadas bajo los supuestos adicionales en situaciones más complejas donde los resultados no son idóneos. Frank Harrell, en su publicación de blog Daño causado por la precisión de clasificación y otras reglas de puntuación de precisión incorrecta discontinua, cita un ejemplo de uno de sus libros en el que el uso de la precisión o la pérdida de clasificación errónea conducirá a un modelo mal especificado, ya que no están optimizados por el predictivo condicional correcto probabilidad.
Otro problema con la precisión y la pérdida de clasificación errónea es que son discontinuos en función del umbral . Frank Harrell también aborda esto.θ
Se puede encontrar más información en ¿Por qué la precisión no es la mejor medida para evaluar los modelos de clasificación? .
La línea de fondo
No uses la precisión. Tampoco la pérdida de clasificación errónea.
El meollo de la cuestión: "estricto" vs. "estrictamente"
¿Deberíamos estar hablando de reglas de puntuación "estrictas" o de reglas de puntuación "estrictamente"? "Estricto" modifica "apropiado", no "regla de puntuación". (Hay "reglas de puntuación adecuadas" y "reglas de puntuación estrictamente apropiadas", pero no hay "reglas de puntuación estrictas"). Como tal, "estrictamente" debe ser un adverbio, no un adjetivo, y debe usarse "estrictamente". Como es más común en la literatura, por ejemplo, los artículos de Tilmann Gneiting.