¿Statistics.com publicó la respuesta incorrecta?


28

Statistics.com publicó un problema de la semana: la tasa de fraude de seguros residenciales es del 10% (una de cada diez reclamaciones es fraudulenta). Un consultor ha propuesto un sistema de aprendizaje automático para revisar las reclamaciones y clasificarlas como fraude o no fraude. El sistema es 90% efectivo para detectar reclamos fraudulentos, pero solo 80% efectivo para clasificar correctamente los reclamos que no son de fraude (erróneamente etiqueta a uno de cada cinco como "fraude"). Si el sistema clasifica un reclamo como fraudulento, ¿cuál es la probabilidad de que realmente sea fraudulento?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

Mi compañero y yo se nos ocurrió la misma respuesta de forma independiente y no coincide con la solución publicada.

Nuestra solución:

(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3

Su solución:

Este es un problema de probabilidad condicional. (También es un problema bayesiano, pero la aplicación de la fórmula en la regla de Bayes solo ayuda a ocultar lo que está sucediendo). Considere 100 afirmaciones. 10 serán fraudulentas, y el sistema etiquetará correctamente a 9 de ellas como "fraude". 90 reclamaciones estarán bien, pero el sistema clasificará incorrectamente 72 (80%) como "fraude". Por lo tanto, un total de 81 reclamaciones han sido etiquetadas como fraudulentas, pero solo 9 de ellas, el 11%, son realmente fraudulentas.

Quien tenia razon


44
Parece que corrigen la solución en su sitio web para estar en línea con lo que ha calculado
nop

2
@nope, corrigió silenciosamente la respuesta. astuto
Aksakal

Trivia: en la toma de decisiones conductuales, este problema a menudo se conoce como el "problema de la mamografía", ya que su presentación habitual es sobre la posibilidad de que una paciente tenga cáncer con una mamografía positiva.
Kodiólogo

"La buena noticia es que nuestro sistema clasifica el 90% del fraude como fraude. La mala noticia es que clasifica el 80% del no fraude como fraude". Tenga en cuenta que el 11% que calculan es solo un poco más alto que la tasa base del 10%. Un modelo de aprendizaje automático donde la tasa de fraude en los casos señalados es solo un 10% más que la tasa base es bastante terrible.
Acumulación

Esto se conoce como la paradoja
BlueRaja - Danny Pflughoeft

Respuestas:


41

Creo que usted y su colega están en lo correcto. Statistics.com tiene la línea correcta de pensamiento, pero comete un simple error. De los 90 reclamos "OK", esperamos que el 20% de ellos sean clasificados incorrectamente como fraude, no el 80%. El 20% de 90 es 18, lo que lleva a 9 reclamos identificados correctamente y 18 reclamos incorrectos, con una proporción de 1/3, exactamente lo que arroja la regla de Bayes.


11

Estás en lo correcto. La solución que publicó el sitio web se basa en una lectura errónea del problema, ya que el 80% de las reclamaciones no fraudulentas se clasifican como fraudulentas en lugar del 20% dado.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.