Suponga que tiene un conjunto de datos de una distribución continua con densidad compatible con que no se conoce, pero es bastante grande, por lo que la densidad del núcleo (por ejemplo) la estimación, , es bastante precisa. Para una aplicación particular, necesito transformar los datos observados en un número finito de categorías para obtener un nuevo conjunto de datos con una función de masa implícita .
Un ejemplo simple sería cuando y cuando . En este caso, la función de masa inducida sería
Los dos "parámetros de ajuste" aquí son el número de grupos, , y el vector de longitud de umbrales . Denote la función de masa inducida por .
Me gustaría un procedimiento que responda, por ejemplo, "¿Cuál es la mejor opción de para que aumentar el número de grupos a (y elegir el óptimo allí) produzca una mejora insignificante?" . Siento que tal vez se pueda crear una estadística de prueba (tal vez con la diferencia en la divergencia de KL o algo similar) cuya distribución se pueda derivar. ¿Alguna idea o literatura relevante?
Editar: He espaciado uniformemente las mediciones temporales de una variable continua y estoy usando una cadena de Markov no homogénea para modelar la dependencia temporal. Francamente, las cadenas de markov de estado discreto son mucho más fáciles de manejar y esa es mi motivación. Los datos observados son porcentajes. Actualmente estoy usando una discretización ad hoc que me parece muy buena, pero creo que este es un problema interesante donde es posible una solución formal (y general).
Edición 2: minimizar realmente la divergencia de KL sería equivalente a no discretizar los datos, por lo que esa idea está totalmente descartada. He editado el cuerpo en consecuencia.