¿Cuál es la relación entre el puntaje GINI y la razón de probabilidad logarítmica?

Estoy estudiando árboles de clasificación y regresión, y una de las medidas para la ubicación dividida es el puntaje GINI.

Ahora estoy acostumbrado a determinar la mejor ubicación dividida cuando el registro de la razón de probabilidad de los mismos datos entre dos distribuciones es cero, lo que significa que la probabilidad de membresía es igualmente probable.

Mi intuición dice que debe haber una conexión de algún tipo, que GINI debe tener una buena base en una teoría matemática de la información (Shannon) pero no entiendo a GINI lo suficiente como para derivar la relación yo mismo.

Preguntas:

¿Cuál es la derivación de los "primeros principios" del puntaje de impureza GINI como medida para dividir?
¿Cómo se relaciona el puntaje GINI con el logaritmo de la razón de probabilidad u otros fundamentos teóricos de la información (la entropía de Shannon, el pdf y la entropía cruzada son parte de esos)?

Referencias

La entropía de Shannon se describe como:

H (x) = Σ_{i} P (x_{i}) \log_{b} P (x_{i})

$H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right)$

Extendiendo esto al caso multivariante obtenemos:

H (X, Y) = Σ_{x} Σ_{y} P (x, y) \log_{b} P (x, y)

$H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right)$

La entropía condicional se define de la siguiente manera:

\begin{aligned} H (X | Y) & = Σ_{y} p (x, y) \log_{b} \frac{p (x)}{p (x, y)} \\ or, \\ H (X | Y) & = H (X, Y) - H (Y) \end{aligned}

$\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} \newline &\text{or,} \newline H \left(X|Y \right) &= H \left(X,Y \right) - H \left(Y \right) \end{align}$

El registro de la razón de probabilidades se usa para la detección de cambios abruptos y se deriva usando estos. (No tengo derivación delante de mí).

Impureza GINI:

La forma general de impureza GINI es $I = \sum_{i=1}^m f_{i} \cdot \left( 1-f_{i}\right)$

Pensamientos:

La división se realiza en una medida de impureza. La "pureza" alta es probablemente lo mismo que la baja entropía. El enfoque probablemente esté relacionado con la minimización de la entropía.
Es probable que la distribución de base supuesta sea uniforme, o posiblemente con gaussiano que agita a mano. Es probable que estén haciendo una mezcla de distribuciones.
Me pregunto si la derivación del gráfico Shewhart puede aplicarse aquí.
$P(x=k)= \begin{pmatrix} 2\\ 1\end{pmatrix} p \left( 1-p \right)$

(adicional)

La forma también es consistente con una distribución beta-binomial que es un conjugado previo para una distribución hipergeométrica. Las pruebas hipergeométricas a menudo se usan para determinar qué muestras están representadas de más o menos en una muestra. También hay una relación con la prueba exacta de Fisher, sea lo que sea (nota personal, ve a aprender más sobre esto).

Editar: sospecho que hay una forma de GINI que funciona muy bien con lógica digital y / o rb-trees. Espero explorar esto en un proyecto de clase este otoño.

— EngrStudent - Restablece a Monica
fuente

¿Es problemático si respondo mi propia pregunta?

— EngrStudent - Restablece a Mónica el

No, en absoluto. Si se te ocurre lo que crees que es una respuesta razonable, dispara.

— gung

@EngrStudent. buena pregunta, pero el primer enlace que proporciona en la sección de referencias se relaciona con el coeficiente de Gini, que no tiene nada que ver con la medida de Gini utilizada en CART

— Antoine

Con respecto al índice de Gini, acabo de publicar una interpretación simple: stats.stackexchange.com/questions/308885/…

— Picaud Vincent

Respuestas:

Usaré la misma notación que usé aquí: Matemáticas detrás de los árboles de clasificación y regresión.

$IG$ $I$

$\textit{Gini}: \mathit{Gini}(E) = 1 - \sum_{j=1}^{c}p_j^2$
$\textit{Entropy}: H(E) = -\sum_{j=1}^{c}p_j\log p_j$

$\beta$

H_{β} (mi) = \frac{1}{β - 1} (1 - \sum_{j = 1}^{do} {pags}_{j}^{β})

$H_\beta (E) = \frac{1}{\beta-1} \left( 1 - \sum_{j=1}^{c}p_j^\beta \right)$

$\textit{Gini}$ $\beta = 2$ $H$ $\beta \rightarrow 1$

$G$

sol -estadística = 2 \cdot El | mi El | \cdot yo sol

$G\text{-statistic} = 2 \cdot |E| \cdot IG$

Dependiendo de la comunidad (estadísticas / minería de datos), las personas prefieren una medida u otra (Pregunta relacionada aquí ). Pueden ser más o menos equivalentes en el proceso de inducción del árbol de decisión. Sin embargo, la probabilidad de registro puede dar puntajes más altos a las particiones equilibradas cuando hay muchas clases [Nota técnica: algunas propiedades de los criterios de división. Breiman 1996].

Gini Gain puede ser más agradable porque no tiene logaritmos y puede encontrar la forma cerrada para su valor esperado y su varianza bajo suposición de división aleatoria [Alin Dobra, Johannes Gehrke: corrección de sesgo en la construcción del árbol de clasificación. ICML 2001: 90-97]. No es tan fácil para obtener información (si está interesado, consulte aquí ).

— Simone
fuente

Buena pregunta. Desafortunadamente, todavía no tengo suficiente reputación para votar o comentar, ¡así que respondo en su lugar!

No estoy muy familiarizado con la prueba de razón, pero me parece que es un formalismo utilizado para comparar la probabilidad de que los datos surjan de dos (o más) distribuciones diferentes , mientras que el coeficiente de Gini es una estadística resumida de una sola distribución.

Una forma útil de pensar en el coeficiente de Gini (IMO) es como el área bajo la curva de Lorenz (relacionada con el cdf).

Puede ser posible equiparar la entropía de Shannon con Gini utilizando la definición dada en el OP para entropía:

$H = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right)$

y la definición de Gini:

$G = 1 - \frac{1}{\mu}\Sigma_i P(x_i)(S_{i-1} + S_i)$

$S_i = \Sigma_{j=1}^i P(x_i)x_i$ (i.e. the cumulative mean up to $x_i$ ).

It doesn't look like an easy task though!

— Gabriel
fuente

A log likelihood ratio is operated on the same data. One of the distributions can be the same general form as the other, but its parameters were fitted to data when some other criterion was true. For instance, you could have one distribution whose parameters describe healthy production process variation (not necessarily Gaussian) and another that is fit to current production process values, and operate both on current production process values compare the log-likelihood ratio to a threshold value indicating possibility of excursion. It can the actual to be compared with the ideal.

— EngrStudent - Reinstate Monica