Le agradecería mucho su consejo sobre el siguiente problema:
Tengo un gran conjunto de datos continuo con muchos ceros (~ 95%) y necesito encontrar la mejor manera de probar si ciertos subconjuntos son "interesantes", es decir, no parecen extraídos de la misma distribución que el resto. La inflación cero proviene del hecho de que cada punto de datos se basa en una medición de recuento con ceros verdaderos y de muestreo, pero el resultado es continuo ya que tiene en cuenta algunos otros parámetros ponderados por el recuento (y si el recuento es cero, el resultado también es cero).
Cuál sería la mejor forma de hacer esto? Tengo la sensación de que Wilcoxon e incluso las pruebas de permutación de fuerza bruta son inadecuadas ya que se vuelven sesgadas por estos ceros. Centrarse en mediciones distintas de cero también elimina los ceros verdaderos que son extremadamente importantes. Los modelos con cero inflado para los datos de conteo están bien desarrollados, pero no son adecuados para mi caso.
Consideré ajustar una distribución Tweedie a los datos y luego ajustar una glm en respuesta = f (subset_label). Teóricamente, esto parece factible, pero me pregunto si (a) esto es exagerado y (b) todavía supondría implícitamente que todos los ceros son ceros de muestra, es decir, ¿estarían sesgados de la misma manera (en el mejor de los casos) como una permutación?
Intuitivamente, parece tener algún tipo de diseño jerárquico que combina una estadística binomial basada en la proporción de ceros y, por ejemplo, una estadística de Wilcoxon calculada en valores distintos de cero (o, mejor aún, valores distintos de cero complementados con una fracción de ceros basados en algunos anteriores). Suena como una red bayesiana ...
Espero no ser el primero en tener este problema, por lo que estaría muy agradecido si pudiera señalarme las técnicas existentes adecuadas ...
¡Muchas gracias!