Me pregunto si hay alguna prueba estadística para "probar" la importancia de una distribución bimodal. Quiero decir, ¿cuánto cumplen mis datos con la distribución bimodal o no? Si es así, ¿hay alguna prueba en el programa R?
Me pregunto si hay alguna prueba estadística para "probar" la importancia de una distribución bimodal. Quiero decir, ¿cuánto cumplen mis datos con la distribución bimodal o no? Si es así, ¿hay alguna prueba en el programa R?
Respuestas:
Otro posible enfoque para este problema es pensar en lo que podría estar sucediendo detrás de escena que está generando los datos que ve. Es decir, puede pensar en términos de un modelo de mezcla , por ejemplo, un modelo de mezcla gaussiana. Por ejemplo, puede creer que sus datos se obtienen de una sola población normal o de una mezcla de dos distribuciones normales (en alguna proporción), con diferentes medias y variaciones. Por supuesto, no tiene que creer que solo hay uno o dos, ni creer que las poblaciones de las que se obtienen los datos deben ser normales.
Hay (al menos) dos paquetes R que le permiten estimar modelos de mezclas. Un paquete es flexmix y otro es mclust . Habiendo estimado dos modelos candidatos, creo que es posible realizar una prueba de razón de probabilidad. Alternativamente, puede utilizar el método de ajuste cruzado bootstrap paramétrico ( pdf ).
Como se menciona en los comentarios, la página de Wikipedia sobre 'Distribución bimodal' enumera ocho pruebas de multimodalidad contra unimodalidad y proporciona referencias para siete de ellas.
Hay al menos algunos en R. Por ejemplo:
El paquete diptest
implementa la prueba de inmersión de Hartigan.
Los stamp
datos del bootstrap
paquete se usaron en la Introducción a Bootstrap de Efron y Tibshirani (el libro en el que se basa el paquete) para hacer un ejemplo relacionado con bootstrapping en la cantidad de modos; Si tiene acceso al libro, puede utilizar ese enfoque.
Efron, B. y Tibshirani, R. (1993) Una introducción a Bootstrap .
Chapman and Hall, Nueva York, Londres.
-
Hay una pregunta en CV que habla de identificar (es decir, estimar en lugar de probar) el número de modos en los que aparece la búsqueda de @ whuber. Vale la pena leer las respuestas allí. Una de las respuestas allí (la mía, por cierto) tiene un enlace a una búsqueda en Google que muestra este artículo de David Donoho sobre la construcción de CI unilaterales para la cantidad de modos, que por supuesto se pueden usar como prueba (p. Ej. , si el intervalo unilateral no incluye el caso unimodal, puede rechazar la unimodalidad). Que yo sepa, eso no esUna de las pruebas que Wikipedia menciona. No creo que haya una implementación R de ese intervalo, pero (a pesar del hecho de que Donoho tiende a usar herramientas bastante sofisticadas en su discusión), en realidad es una idea bastante simple de implementar. Esa idea está directamente relacionada con la noción de usar la estimación de densidad del núcleo.