Estoy tratando de aplicar la idea de información mutua a la selección de funciones, como se describe en estas notas de clase (en la página 5).
Mi plataforma es Matlab. Un problema que encuentro al calcular información mutua a partir de datos empíricos es que el número siempre está sesgado hacia arriba. Encontré alrededor de 3 ~ 4 archivos diferentes para calcular MI en Matlab Central y todos dan grandes números (como> 0.4) cuando introduzco variables aleatorias independientes.
No soy un experto, pero el problema parece ser que si simplemente usa densidades conjuntas y marginales para calcular el IM, se introduce un sesgo en el proceso porque el IM es, por definición, positivo. ¿Alguien tiene consejos prácticos sobre cómo estimar la información mutua con precisión?
Una pregunta relacionada es, en la práctica, ¿cómo las personas realmente usan MI para seleccionar funciones? No es obvio para mí cómo llegar a un valor umbral ya que MI es en teoría ilimitado. ¿O las personas simplemente clasifican las características por MI y toman las principales características k?