¿Cómo evaluar la significación estadística de la precisión de un clasificador?

8

Tengo la salida de precisión del clasificador en porcentaje y el número de muestras de entrada. ¿Hay alguna prueba que pueda decir cuán estadísticamente significativo es el resultado basado en esta información?

Gracias

statistical-significance classification

— Shan
fuente

¿Puede dar un ejemplo?

— Max Gordon

3

No me queda claro qué tienes y qué estás pidiendo. Hay pruebas de si una proporción es 0, pero esa no es una prueba significativa de precisión: la precisión de 0 sería perfecta de alguna manera, ¡siempre está mal!

— Peter Flom

10

Desea definir la distribución de la precisión de solo adivinar. Quizás esto es como donde binomial ( , ) para algunos conocidos (digamos 50%). $X/n$ $X \sim$ $n$ $p$ $p$

Luego calcule la posibilidad de observar los resultados que obtuvo, si este modelo nulo fuera cierto. En R, puede usarlo binom.testo calcularlo directamente con pbinom.

Por lo general, querrá comparar la precisión no con "adivinar" sino con algún método alternativo, en cuyo caso podría usar la prueba de McNemar ; en R, mcnemar.test.

— Karl
fuente

6

No veo dónde las pruebas contra la aleatoriedad completa son tan útiles. Un clasificador que solo puede vencer conjeturas aleatorias puras no es muy útil. Un problema mayor es su uso de proporción clasificada correctamente como su puntaje de precisión. Esta es una regla discontinua de puntaje impropia que se puede manipular fácilmente porque es arbitraria e insensible. Una (de muchas) formas de ver sus deficiencias es calcular la proporción clasificada correctamente si tiene un modelo con solo una intercepción. Será alto si los resultados no son cercanos a 0.5 en prevalencia.

Una vez que elija una regla más adecuada, sería valioso calcular un intervalo de confianza para el índice. La significación estadística es de poco valor.

— Frank Harrell
fuente

Acerca de la proporción de clasificados correctamente, ¿se refiere a la precisión de clasificación estándar? gracias

— Simone

1

Si; Una medida muy problemática.

— Frank Harrell

Sí, es una medida muy problemática. Estoy de acuerdo contigo.

— Simone

2

Los clasificadores que apenas superan las conjeturas aleatorias pueden ser extremadamente útiles en algunas situaciones. Por lo tanto, tener alguna prueba que cuantifique la confianza en que un clasificador sea mejor que el azar también es útil.

— ely

3

Seguro que puedes computar un intervalo de confianza . Si $\mbox{acc}$ es su precisión estimada en un conjunto de prueba de $N$ elementos, sostiene que

\frac{una C C - pags}{\sqrt{pags (1 - pags) / / norte}} \sim norte (0 0, 1)

$\frac{acc-p}{\sqrt{p(1-p)/N}} \sim \mathcal{N}(0,1)$ Así

PAGS (\frac{una C C - pags}{\sqrt{pags (1 - pags) / / norte}} \in [- z_{α / / 2}, + z_{α / / 2}]) \approx 1 - α

$P\bigg( \frac{acc-p}{\sqrt{p(1-p)/N}} \in [-z_{\alpha/2},+z_{\alpha/2}]\bigg) \approx 1 - \alpha$ Entonces puedes decir eso:

PAGS (pags \in [l, tu]) \approx 1 - α

$P(p \in [l,u]) \approx 1 - \alpha$ Por ejemplo, puede calcular el intervalo de Wilson .

l = \frac{2 norte acc + z_{α / / 2}^{2} - z_{α / / 2} \sqrt{z_{α / / 2}^{2} + 4 4 norte acc - 4 4 norte {acc}^{2}}}{2 (norte + z_{α / / 2}^{2})}

$l = \frac{2 \ N \ \mbox{acc} + z_{\alpha/2}^2 - z_{\alpha/2} \sqrt{z_{\alpha/2}^2+4 \ N \ \mbox{acc}-4 \ N \ \mbox{acc}^2}}{2(N+z_{\alpha/2}^2)}$

tu = \frac{2 norte acc + z_{α / / 2}^{2} + z_{α / / 2} \sqrt{z_{α / / 2}^{2} + 4 4 norte acc - 4 4 norte {acc}^{2}}}{2 (norte + z_{α / / 2}^{2})}

$u = \frac{2 \ N \ \mbox{acc} + z_{\alpha/2}^2 + z_{\alpha/2} \sqrt{z_{\alpha/2}^2+4 \ N \ \mbox{acc}-4 \ N \ \mbox{acc}^2}}{2(N+z_{\alpha/2}^2)}$

Creo que puede calcular cuánto difiere su rendimiento de uno aleatorio que calcula la ganancia . La precisión de un clasificador aleatorio es:

{acc}_{r} = \sum_{yo = 1}^{C} {pags}_{yo}^{2}

$\mbox{acc}_r = \sum_{i=1}^{c} p_i^2$ dónde

p_{i}

$p_i$ es la frecuencia empírica de la clase

i

$i$ estimado en el conjunto de prueba, y

c

$c$ es el número de clases diferentes En promedio, un clasificador aleatorio, que clasifica al azar adivinando la clase

i

$i$ confiando en la probabilidad previa del conjunto de prueba, clasifica

p_{i} \cdot n_{i} = \frac{n_{i}}{N} \cdot n_{i}

$p_i\cdot n_i = \frac{n_i}{N} \cdot n_i$ ejemplos de clase

i

$i$ correctamente. Dónde

n_{i}

$n_i$ es el número de registros de clase

i

$i$ en el set de prueba. Así

{acc}_{r} = \frac{{pags}_{1} \cdot {norte}_{1} + \dots + {pags}_{C} \cdot {norte}_{C}}{{norte}_{1} + \dots + {norte}_{C}} = \frac{{pags}_{1} \cdot {norte}_{1}}{norte} + \dots + \frac{{pags}_{C} \cdot {norte}_{C}}{norte} = \sum_{yo}^{C} {pags}_{yo}^{2}

$\mbox{acc}_r = \frac{p_1 \cdot n_1 + \dots + p_c \cdot n_c}{n_1 + \dots + n_c} = \frac{p_1\cdot n_1}{N} + \dots + \frac{p_c\cdot n_c}{N} = \sum_{i}^{c} p_i^2$ Puede echar un vistazo a una pregunta mía.

La ganancia es:

ganancia = \frac{acc}{{acc}_{r}}

$\mbox{gain} = \frac{\mbox{acc}}{\mbox{acc}_r}$

De hecho, creo que se puede esbozar una prueba estadística. El numerador podría verse como una variable aleatoria normal, $\mathcal{N}(\mbox{acc},p(1-p)/N)$ , pero debe averiguar qué tipo de variable aleatoria el denominador $\mbox{acc}_r$ podría ser.

— Simone
fuente

3

Nuevamente, no estoy convencido de que una prueba estadística contra absolutamente ningún valor predictivo sea de valor.

— Frank Harrell

2

Los clasificadores que apenas superan las conjeturas aleatorias pueden ser extremadamente útiles en algunas situaciones. Por lo tanto, tener alguna prueba que cuantifique la confianza en que un clasificador sea mejor que el azar también es útil.

— ely

1

En la gran mayoría de las situaciones, queremos saber qué tan bien discrimina una predicción, no solo si discrimina mejor que el azar.

— Frank Harrell

No si estás aumentando un montón de clasificadores débiles, que es una actividad muy común. Puede que te importe la discriminación una vez que alcances el clasificador final totalmente potenciado, pero hay mucho trabajo entre el inicio y el final, y es importante demostrar que un clasificador complicado funciona empíricamente mejor que el azar.

— ely

1

Y algunos dominios de aplicaciones, por ejemplo, los mercados financieros, donde puedes usar el clasificador en muchos casos más o menos independientes, solo ser un poco mejor que el azar (los R-cuadrados del 11% o 12% se consideran geniales) pueden significar mucho. En esos casos, si incluso el clasificador potenciado tiene R-cuadrado del 15%, eso podría considerarse muy bueno, en cuyo caso realmente importa si puede resolver estadísticamente si los clasificadores débiles son definitivamente mejores que adivinar.

— ely

1

Puede interesarle los siguientes documentos:

Eric W. Noreen, Métodos informáticos intensivos para probar hipótesis: una introducción, John Wiley & Sons, Nueva York, NY, EE. UU., 1989.
Alexander Yeh, Pruebas más precisas para la significación estadística de las diferencias de resultados, en: Actas de la 18a Conferencia Internacional de Lingüística Computacional, Volumen 2, páginas 947-953, 2000.

Creo que cubren lo que Dimitrios Athanasakis habla.

Implementé una opción de Yeh en la forma en que la entiendo:

http://www.clips.uantwerpen.be/~vincent/software#art

— vvasch
fuente

0

Creo que una cosa que podrías probar sería una prueba de permutación. Simplemente ponga al azar permuta los pares de entrada-salida deseados que alimenta a su clasificador varias veces. Si no puede reproducir nada al mismo nivel en más de 100 permutaciones diferentes de lo que es significativo en el intervalo del 99%, etc. Este es básicamente el mismo proceso utilizado para obtener valores p (que corresponden a la probabilidad de obtener una correlación lineal de la misma magnitud después de permutar los datos al azar) y así sucesivamente.

— Dimitrios Athanasakis
fuente

¿Podría explicar más a fondo qué significaba para los pares de entrada / salida deseados?

— Simone