No existe el mejor número de contenedores para estimar la información mutua (MI) con histogramas. La mejor manera es elegirlo mediante validación cruzada si puede, o confiar en una regla general. Esta es la razón por la cual se han propuesto muchos otros estimadores de IM que no se basan en histogramas.
El número de contenedores dependerá del número total de puntos de datos . Debe intentar evitar demasiados contenedores para evitar errores de estimación para la distribución conjunta entre las dos variables. También debe evitar muy pocos contenedores para poder capturar la relación entre las dos variables. Dado que genera un histograma 2D con bins de igual ancho para ambos y yo personalmente elegiría:
En este caso, en promedio para dos variables aleatorias distribuidas uniformemente, tendrá al menos puntos para cada celda del histograma:
D = ⌊ √nnp.histogram2d(x, y, D)
D
x
y
5 n
D=⌊n/5−−−√⌋
5nDXDY≥5⇒nD2≥5⇒D2≤n/5⇒D=⌊n/5−−−√⌋
Esta es una opción posible que simula el enfoque de partición adaptativo propuesto en
(Cellucci, 2005) . El último enfoque se usa a menudo para estimar MI para inferir redes genéticas: por ejemplo, en
MIDER .
Si tiene muchos puntos de datos y no faltan valores, no debe preocuparse demasiado por encontrar la mejor cantidad de contenedores; por ejemplo, si . Si este no es el caso, puede considerar corregir MI para muestras finitas. (Steuer et al., 2002) discute alguna corrección para MI para la tarea de inferencia de red genética.n = 100 , 000nn=100,000
Estimar el número de contenedores para un histograma es un viejo problema. Tal vez le interese esta charla de Lauritz Dieckman sobre la estimación del número de contenedores para MI. Esta charla se basa en un capítulo del libro de Mike X Cohen sobre series temporales neurales.
Puede elegir y independiente y usar la regla general utilizada para estimar el número de bins en los histogramas 1D.D YDXDY
Regla de Freedman-Diaconis (sin suposición sobre la distribución):
donde es la diferencia entre el 75-cuantil y el 25-cuantil. Mire esta pregunta relacionada en SE .
DX=⌈maxX−minX2⋅IQR⋅n−1/3⌉
IQR
Regla de Scott (suposición de normalidad):
donde es la desviación estándar para .
DX=⌈maxX−minX3.5⋅sX⋅n−1/3⌉
sXX
Regla de Sturges (puede subestimar el número de bins pero es bueno para grande ):
n
DX=⌈1+log2n⌉
Es difícil estimar correctamente el IM con histogramas. Entonces puede elegir un estimador diferente:
- El estimador NN de Kraskov , que es un poco menos sensible a la elección de parámetros: o vecinos más cercanos a menudo se usa por defecto. Documento: (Kraskov, 2003)kk=4k=6
- Estimación de MI con Kernels (Moon, 1995) .
Hay muchos paquetes para estimar MI:
- Caja de herramientas de estimación de entropía no paramétrica para Python. sitio .
- Kit de herramientas de dinámica de información en Java, pero también disponible para Python. sitio .
- Caja de herramientas ITE en Matlab. sitio .