Evaluar la importancia de las diferencias en las distribuciones


22

Tengo dos grupos de datos. Cada uno con una distribución diferente de múltiples variables. Estoy tratando de determinar si las distribuciones de estos dos grupos son diferentes de una manera estadísticamente significativa. Tengo los datos en forma cruda y agrupados en categorías más fáciles de manejar con recuentos de frecuencia en cada uno.

¿Qué pruebas / procedimientos / métodos debo utilizar para determinar si estos dos grupos son significativamente diferentes y cómo lo hago en SAS o R (o Orange)?


2
¿Le interesa saber si las distribuciones son de una forma diferente (p. Ej., Normal, poisson, etc.) o si los parámetros son diferentes (p. Ej., Media o sd de una distribución normal) o ambos?
Jeromy Anglim

Respuestas:


15

Creo que esto requiere una prueba de Kolmogorov-Smirnov de dos muestras , o similar. La prueba de Kolmogorov-Smirnov de dos muestras se basa en la comparación de diferencias en las funciones de distribución empírica (ECDF) de dos muestras, lo que significa que es sensible tanto a la ubicación como a la forma de las dos muestras. También se generaliza a una forma multivariante.

Esta prueba se encuentra en varias formas en diferentes paquetes en R, por lo que si es básicamente competente, todo lo que tiene que hacer es instalar uno de ellos (por ejemplo, fBasics ) y ejecutarlo en sus datos de muestra.


55
Para R ks.test en el paquete predeterminado "stats" puede realizar la prueba KS sin instalar paquetes adicionales.
russellpierce

En SAS, la prueba KS está disponible en proc npar1way. En R, además de ks.test(), está el nortestpaquete que proporciona varias otras pruebas de ajuste.
chl

8

Voy a hacer la pregunta tonta del consultor. ¿Por qué quiere saber si estas distribuciones son diferentes de una manera estadísticamente significativa?

¿Es que los datos que está utilizando son muestras representativas de poblaciones o procesos, y desea evaluar la evidencia de que esas poblaciones o procesos difieren? Si es así, entonces una prueba estadística es adecuada para usted. Pero esto me parece una pregunta extraña.

¿O le interesa saber si realmente necesita comportarse como si esas poblaciones o procesos fueran diferentes, independientemente de la verdad? Entonces será mejor que determine una función de pérdida, idealmente una que devuelva unidades que sean significativas para usted, y que prediga la pérdida esperada cuando (a) trate a las poblaciones como diferentes y (b) las trate como lo mismo. O puede elegir un cuantil de la distribución de pérdidas si desea adoptar una posición más o menos conservadora.


Su tono es un poco sarcástico y condescendiente ... pero tiene razón, creo que lo que realmente estaba buscando era si puedo asumir razonablemente que las dos distribuciones son las mismas.
Jay Stevens

3
Lamento que no te guste mi tono. Si desea saber si puede suponer razonablemente que las dos distribuciones son las mismas, entonces el KS lo engañará, porque prueba la hipótesis nula de que las dos distribuciones son iguales.
Andrew Robinson

5

Quizás le interese aplicar métodos de distribución relativos. Llame a un grupo el grupo de referencia y al otro al grupo de comparación. De manera similar a la construcción de una gráfica de probabilidad-probabilidad, puede construir un CDF / PDF relativo, que es una relación de las densidades. Esta densidad relativa se puede usar para inferencia. Si las distribuciones son idénticas, espera una distribución relativa uniforme. Existen herramientas, gráficas y estadísticas, para explorar y examinar las desviaciones de la uniformidad.

Un buen punto de partida para tener una mejor idea es la aplicación de métodos de distribución relativa en R y el paquete reldist en R. Para obtener más información, deberá consultar el libro Métodos de distribución relativa en las ciencias sociales de Handcock y Morris. También hay un artículo de los autores que cubre las técnicas relevantes.


2

Una medida de la diferencia entre dos distribuciones es el criterio de "máxima discrepancia media", que básicamente mide la diferencia entre las medias empíricas de las muestras de las dos distribuciones en un espacio de Hilbert del núcleo de reproducción (RKHS). Consulte este documento "Un método de kernel para los dos problemas de muestra" .


Este método es más robusto en mi opinión, pero no es muy conocido, ya que funciona igual de bien si tiene una muestra finita para su distribución (y, por lo tanto, sus distribuciones de muestra no son completamente continuas). También funciona con distribuciones multinomiales que para una prueba de KS sigue siendo una investigación activa, que yo sepa
www3

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.