Estoy estudiando árboles de clasificación y regresión, y una de las medidas para la ubicación dividida es el puntaje GINI.
Ahora estoy acostumbrado a determinar la mejor ubicación dividida cuando el registro de la razón de probabilidad de los mismos datos entre dos distribuciones es cero, lo que significa que la probabilidad de membresía es igualmente probable.
Mi intuición dice que debe haber una conexión de algún tipo, que GINI debe tener una buena base en una teoría matemática de la información (Shannon) pero no entiendo a GINI lo suficiente como para derivar la relación yo mismo.
Preguntas:
- ¿Cuál es la derivación de los "primeros principios" del puntaje de impureza GINI como medida para dividir?
- ¿Cómo se relaciona el puntaje GINI con el logaritmo de la razón de probabilidad u otros fundamentos teóricos de la información (la entropía de Shannon, el pdf y la entropía cruzada son parte de esos)?
Referencias
- ¿Cómo se define el Criterio de Gini ponderado?
- Matemáticas detrás de los árboles de clasificación y regresión.
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(agregado) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
La entropía de Shannon se describe como:
Extendiendo esto al caso multivariante obtenemos:
La entropía condicional se define de la siguiente manera:
El registro de la razón de probabilidades se usa para la detección de cambios abruptos y se deriva usando estos. (No tengo derivación delante de mí).
Impureza GINI:
- La forma general de impureza GINI es
Pensamientos:
- La división se realiza en una medida de impureza. La "pureza" alta es probablemente lo mismo que la baja entropía. El enfoque probablemente esté relacionado con la minimización de la entropía.
- Es probable que la distribución de base supuesta sea uniforme, o posiblemente con gaussiano que agita a mano. Es probable que estén haciendo una mezcla de distribuciones.
- Me pregunto si la derivación del gráfico Shewhart puede aplicarse aquí.
(adicional)
- La forma también es consistente con una distribución beta-binomial que es un conjugado previo para una distribución hipergeométrica. Las pruebas hipergeométricas a menudo se usan para determinar qué muestras están representadas de más o menos en una muestra. También hay una relación con la prueba exacta de Fisher, sea lo que sea (nota personal, ve a aprender más sobre esto).
Editar: sospecho que hay una forma de GINI que funciona muy bien con lógica digital y / o rb-trees. Espero explorar esto en un proyecto de clase este otoño.