Determinar una discretización óptima de datos de una distribución continua


11

Suponga que tiene un conjunto de datos de una distribución continua con densidad compatible con que no se conoce, pero es bastante grande, por lo que la densidad del núcleo (por ejemplo) la estimación, , es bastante precisa. Para una aplicación particular, necesito transformar los datos observados en un número finito de categorías para obtener un nuevo conjunto de datos con una función de masa implícita .Y1,...,Ynp(y)[0,1]np^(y)Z1,...,Zng(z)

Un ejemplo simple sería cuando y cuando . En este caso, la función de masa inducida seríaZi=0Yi1/2Zi=1Yi>1/2

g^(0)=01/2p^(y)dy,   g^(1)=1/21p^(y)dy

Los dos "parámetros de ajuste" aquí son el número de grupos, , y el vector de longitud de umbrales . Denote la función de masa inducida por .m(m1)λg^m,λ(y)

Me gustaría un procedimiento que responda, por ejemplo, "¿Cuál es la mejor opción de para que aumentar el número de grupos a (y elegir el óptimo allí) produzca una mejora insignificante?" . Siento que tal vez se pueda crear una estadística de prueba (tal vez con la diferencia en la divergencia de KL o algo similar) cuya distribución se pueda derivar. ¿Alguna idea o literatura relevante?m,λm+1λ

Editar: He espaciado uniformemente las mediciones temporales de una variable continua y estoy usando una cadena de Markov no homogénea para modelar la dependencia temporal. Francamente, las cadenas de markov de estado discreto son mucho más fáciles de manejar y esa es mi motivación. Los datos observados son porcentajes. Actualmente estoy usando una discretización ad hoc que me parece muy buena, pero creo que este es un problema interesante donde es posible una solución formal (y general).

Edición 2: minimizar realmente la divergencia de KL sería equivalente a no discretizar los datos, por lo que esa idea está totalmente descartada. He editado el cuerpo en consecuencia.


1
En la mayoría de los casos, las necesidades de la aplicación de seguimiento determinarán la bondad de cualquier solución. Tal vez, para darnos alguna orientación, podría decir más sobre eso.
whuber

Primero, define lo que quieres decir con insignificante . Por otro lado, esto parece estar relacionado con un problema de distorsión de la frecuencia . El texto de Cover & Thomas proporciona una buena introducción legible a dichos temas.
Cardenal

Pienso en la discretización con niveles como un modelo con parámetros (para los umbrales). En este contexto, cuando digo insignificante, quiero decir "no vale la pena agregar el parámetro adicional" en un sentido estadístico. kk1
Macro

No estoy seguro si la discretización es realmente un buen movimiento. No podrá generalizar sobre los bordes que crean los valores discretos en el espacio original de sus observaciones.
bayerj

Respuestas:


3

Voy a compartir la solución que se me ocurrió hace un tiempo: esta no es una prueba estadística formal, pero puede proporcionar una heurística útil.


Considere el caso general donde tiene observaciones continuas ; sin pérdida de generalidad, suponga que el espacio muestral de cada observación es el intervalo . Un esquema de categorización dependerá de varias categorías, , y los umbrales de ubicación que dividen las categorías, .Y1,Y2,...,Yn[0,1]m0<λ1<λ2<<λm1<1

Denote la versión categorizada de por , donde . Pensando en la discretización de los datos como una partición de los datos originales en clases, la varianza de puede considerarse como una combinación de variación dentro y entre grupos, para un valor fijo de :YiZi(m,λ)λ={λ1,λ2,,λm1}Yim,λ

var(Yi)=var(E(Yi|Zi(m,λ)))+E(var(Yi|Zi(m,λ))).

Una categorización dada es exitosa en la producción de grupos homogéneos si hay relativamente poca variación dentro del grupo, cuantificada por . , buscamos una agrupación parsimoniosa que confiera la mayor parte de la variación en al término . en particular, queremos elegir para que al agregar niveles adicionales, no agreguemos significativamente a la homogeneidad del grupo interno. Con esto en mente, definimos el óptimo para que un valor fijo de seaE(var(Yi|Zi(m,λ))Yivar(E(Yi|Zi(m,λ))mλm

λm=argminλE(var(Yi|Zi(m,λ)))

Un diagnóstico aproximado para determinar qué opción de es adecuada es observar la caída en en función de : esta trayectoria no aumenta monotónicamente y después de que disminuye drásticamente, puede ver que está ganando relativamente menos precisión al incluir más categorías. Esta heurística es similar en espíritu a la forma en que a veces se usa un " Gráfico de pantalla " para ver cuántos componentes principales explican "suficiente" de la variación.mE(var(Yi|Zi(m,λm)))m

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.