¿Qué logra exactamente una prueba no paramétrica y qué haces con los resultados?

22

Tengo la sensación de que esto puede haber sido preguntado en otro lugar, pero no realmente con el tipo de descripción básica que necesito. Sé que no paramétrico se basa en la mediana en lugar de la media para comparar ... algo. También creo que se basa en "grados de libertad" (?) En lugar de la desviación estándar. Sin embargo, corrígeme si me equivoco.

He hecho una investigación bastante buena, o eso pensé, tratando de entender el concepto, lo que está detrás de esto, lo que realmente significan los resultados de la prueba y / o qué hacer con los resultados de la prueba; sin embargo, nadie parece aventurarse en esa área.

En aras de la simplicidad, sigamos con la prueba U de Mann-Whitney, que he notado que es bastante popular (y también aparentemente mal utilizada y demasiado utilizada para forzar el "modelo cuadrado en un agujero circular"). Si desea describir las otras pruebas también, siéntase libre, aunque siento que una vez que entiendo una, puedo entender las otras de manera análoga a varias pruebas t, etc.

Digamos que ejecuto una prueba no paramétrica con mis datos y obtengo este resultado:

2 Sample Mann-Whitney - Customer Type       

Test Information        
H0: Median Difference = 0       
Ha: Median Difference ≠ 0       

Size of Customer    Large   Small
Count                    45    55
Median                    2     2

Mann-Whitney Statistic: 2162.00 
p-value (2-sided, adjusted for ties):   0.4156

Estoy familiarizado con otros métodos, pero ¿qué es diferente aquí? ¿Deberíamos querer que el valor p sea menor que 0.05? ¿Qué significa la "estadística de Mann-Whitney"? ¿Tiene algún uso? ¿Esta información aquí solo verifica o no verifica que una fuente particular de datos que tengo debería o no debería usarse?

Tengo una cantidad razonable de experiencia con la regresión y los conceptos básicos, pero tengo mucha curiosidad acerca de este material no paramétrico "especial", que sé que tendrá sus propias deficiencias.

Solo imagina que soy un estudiante de quinto grado y ve si puedes explicármelo.

hypothesis-testing nonparametric wilcoxon-mann-whitney

— Taal
fuente

44

Sí, lo he leído muchas veces. A veces, la jerga que usa Wikipedia puede volverse abrumadora y, aunque tiene una descripción precisa, no necesariamente tiene una descripción clara para alguien que está empezando a tratar de aprender el área. No estoy seguro de quién votó en contra, pero legítimamente solo quiero una explicación básica, CLARA, que casi cualquiera pueda entender. Sí, he tratado de encontrar uno que lo crea o no. No es necesario que me voten negativamente al instante y me vinculen a wikipedia. ¿Alguien ha notado que algunos maestros son mejores que otros? Estoy buscando un buen "maestro" para un concepto en el que estoy atascado.

— Taal

1

Pase entonces a un buen texto estadístico no paramétrico básico como Sprent y Smeeton, Hollander y Wolfe, Conover. o encuentre un texto introductorio que incluya a Mann-Whitney.

— Nick Cox

1

Al mirar su pregunta y la otra pregunta que hizo recientemente usando Internet solo no le está funcionando bien, ya que evidentemente está muy confundido. Por eso @Peter Flom y yo estamos recomendando libros. No tengo otras sugerencias en reserva. También recomendaría, sinceramente y en su mejor interés, tratar de escribir preguntas mucho más concisas y menos habladoras. Su estilo digresivo no ayuda a aclarar sus preguntas.

— Nick Cox

1

En realidad, Internet solo funciona mejor que cualquier libro o clase para ser sincero, y eso se aplica a cualquier tema. Pido disculpas por escribir preguntas "habladoras".

— Taal

3

No, no parece estar funcionando tan bien como un buen libro. Parafraseando a Stephen Senn, es extraño que las estadísticas sean la única ciencia que la gente exige que sea comprensible a primera vista.

— Frank Harrell

41

Sé que no paramétrico se basa en la mediana en lugar de la media

Casi ninguna prueba no paramétrica "confía" en las medianas en este sentido. Solo puedo pensar en una pareja ... y la única de la que espero que hayas oído hablar sería la prueba de signos.

para comparar ... algo.

Si confiaran en las medianas, presumiblemente sería comparar medianas. Pero, a pesar de lo que varias fuentes intentan decirte, las pruebas como la prueba de rango firmada, o el Wilcoxon-Mann-Whitney o el Kruskal-Wallis no son realmente una prueba de medianas; si hace algunas suposiciones adicionales, puede considerar a Wilcoxon-Mann-Whitney y Kruskal-Wallis como pruebas de medianas, pero bajo las mismas suposiciones (siempre y cuando existan los medios de distribución) también podría considerarlas como una prueba de medios .

La estimación de ubicación real relevante para la prueba de rango firmado es la mediana de los promedios por pares dentro de la muestra, la del Wilcoxon-Mann-Whitney (y, por implicación, en Kruskal-Wallis) es la mediana de las diferencias por pares entre las muestras .

También creo que depende de "grados de libertad". en lugar de la desviación estándar. Corrígeme si me equivoco.

La mayoría de las pruebas no paramétricas no tienen 'grados de libertad', aunque la distribución de muchos cambios con el tamaño de la muestra y usted podría considerar eso como algo similar a los grados de libertad en el sentido de que las tablas cambian con el tamaño de la muestra. Por supuesto, las muestras conservan sus propiedades y tienen n grados de libertad en ese sentido, pero los grados de libertad en la distribución de una estadística de prueba no suelen ser algo que nos preocupe. Puede suceder que tenga algo más como grados de libertad; por ejemplo, ciertamente podría argumentar que Kruskal-Wallis tiene grados de libertad básicamente en el mismo sentido que un chi-cuadrado, pero generalmente no se mira de esa manera (por ejemplo, si alguien habla de los grados de libertad de un Kruskal-Wallis, casi siempre se referirá al df

Una buena discusión sobre los grados de libertad se puede encontrar aquí /

He investigado bastante bien, o al menos eso he pensado, tratando de entender el concepto, el funcionamiento detrás de él, lo que realmente significan los resultados de la prueba y / o qué hacer con los resultados de la prueba; Sin embargo, nadie parece aventurarse en esa área.

No estoy seguro de lo que quieres decir con esto.

Podría sugerir algunos libros, como las Estadísticas prácticas no paramétricas de Conover , y si puede obtenerlos, el libro de Neave y Worthington ( Pruebas sin distribución ), pero hay muchos otros: Marascuilo y McSweeney, Hollander y Wolfe, o el libro de Daniel, por ejemplo. Le sugiero que lea al menos 3 o 4 de los que le hablen mejor, preferiblemente aquellos que le expliquen las cosas de la manera más diferente posible (esto significaría al menos leer un poco de quizás 6 o 7 libros para encontrar 3 que le convienen).

En aras de la simplicidad, sigamos con la prueba U de Mann Whitney, que he notado que es bastante popular

Es lo que es lo que me desconcertó acerca de su afirmación de que "nadie parece aventurarse en esa área": muchas personas que usan estas pruebas "se aventuran en el área" de la que estaban hablando.

- y también aparentemente mal usado y usado en exceso

Yo diría que las pruebas no paramétricas generalmente se subutilizan si hay algo (incluyendo las pruebas de Wilcoxon-Mann-Whitney), especialmente las pruebas de permutación / aleatorización, aunque no necesariamente discutiría que con frecuencia se usan incorrectamente (pero también lo son las pruebas paramétricas, incluso mas de).

Digamos que ejecuto una prueba no paramétrica con mis datos y obtengo este resultado:

[recorte]

Estoy familiarizado con otros métodos, pero ¿qué es diferente aquí?

¿A qué otros métodos te refieres? ¿Con qué quieres que compare esto?

Editar: Usted menciona la regresión más tarde; Supongo que está familiarizado con una prueba t de dos muestras (ya que es realmente un caso especial de regresión).

Según los supuestos de la prueba t de dos muestras ordinaria, la hipótesis nula dice que las dos poblaciones son idénticas, en contraposición a la alternativa de que una de las distribuciones se ha desplazado. Si observa el primero de los dos conjuntos de hipótesis para el Wilcoxon-Mann-Whitney a continuación, lo básico que se está probando allí es casi idéntico; es solo que la prueba t se basa en suponer que las muestras provienen de distribuciones normales idénticas (aparte de un posible cambio de ubicación). Si la hipótesis nula es verdadera, y los supuestos que la acompañan son verdaderos, el estadístico de prueba tiene una distribución t. Si la hipótesis alternativa es cierta, entonces el estadístico de prueba es más probable que tome valores que no parecen consistentes con la hipótesis nula, pero sí parecen coherentes con la alternativa: nos centramos en lo más inusual,

La situación es muy similar con el Wilcoxon-Mann-Whitney, pero mide la desviación del nulo de manera algo diferente. De hecho, cuando los supuestos de la prueba t son verdaderos *, es casi tan buena como la mejor prueba posible (que es la prueba t).

* (que en la práctica nunca es, aunque eso no es realmente un problema como parece)

wmw bajo nulo y alternativo

De hecho, es posible considerar el Wilcoxon-Mann-Whitney como efectivamente una "prueba t" realizada en los rangos de los datos, aunque entonces no tiene una distribución t; el estadístico es una función monotónica de un estadístico t de dos muestras calculado en los rangos de los datos, por lo que induce el mismo orden ** en el espacio muestral (es decir, una "prueba t" en los rangos, realizada adecuadamente) generaría los mismos valores de p que Wilcoxon-Mann-Whitney), por lo que rechaza exactamente los mismos casos.

** (estrictamente, ordenamiento parcial, pero dejemos eso de lado)

[Se podría pensar que el solo uso de los rangos arrojaría mucha información, pero cuando los datos se obtienen de poblaciones normales con la misma variación, casi toda la información sobre el cambio de ubicación está en los patrones de los rangos. Los valores de datos reales (condicional en sus rangos) agregan muy poca información adicional a eso. Si va más pesado de lo normal, no pasa mucho tiempo antes de que la prueba de Wilcoxon-Mann-Whitney tenga un mejor poder, así como de retener su nivel de significancia nominal, de modo que la información 'adicional' por encima de los rangos finalmente no sea simplemente informativa, sino que en algunos sentido, engañoso. Sin embargo, la cola casi simétrica es una situación rara; lo que a menudo ves en la práctica es la asimetría.]

Las ideas básicas son bastante similares, los valores p tienen la misma interpretación (la probabilidad de un resultado como, o más extrema, si la hipótesis nula fuera cierta), hasta la interpretación de un cambio de ubicación, si realiza los supuestos necesarios (ver la discusión de las hipótesis cerca del final de esta publicación).

Si hiciera la misma simulación que en las gráficas anteriores para la prueba t, las gráficas se verían muy similares: la escala en los ejes xyy sería diferente, pero la apariencia básica sería similar.

¿Deberíamos querer que el valor p sea menor que 0.05?

No deberías "querer" nada allí. La idea es averiguar si las muestras son más diferentes (en un sentido de ubicación) de lo que se puede explicar por casualidad, no 'desear' un resultado particular.

Si digo "¿Puedes ver de qué color es el auto de Raj, por favor?", Si quiero una evaluación imparcial de él, no quiero que te vayas "¡Hombre, realmente, realmente espero que sea azul! Solo tiene que ser azul". Lo mejor es ver cuál es la situación, en lugar de entrar con un "Necesito que sea algo".

Si su nivel de significancia elegido es 0.05, rechazará la hipótesis nula cuando el valor p esté por debajo de 0.05. Pero no rechazar cuando tiene un tamaño de muestra lo suficientemente grande como para detectar casi siempre los tamaños de efectos relevantes es al menos igual de interesante, porque dice que las diferencias que existen son pequeñas.

¿Qué significa el número "mann whitley"?

La estadística de Mann-Whitney .

Realmente solo tiene sentido en comparación con la distribución de valores que puede tomar cuando la hipótesis nula es verdadera (ver el diagrama anterior), y eso depende de cuál de varias definiciones particulares pueda usar cualquier programa en particular.

¿Tiene algún uso?

Por lo general, no le importa el valor exacto como tal, sino dónde reside en la distribución nula (si es más o menos típico de los valores que debería ver cuando la hipótesis nula es verdadera o si es más extrema)

$P(X<Y)$

¿Estos datos aquí solo verifican o no verifican que una fuente particular de datos que tengo debería o no debería usarse?

Esta prueba no dice nada sobre "una fuente particular de datos que tengo debería o no debería usarse".

Vea mi discusión sobre las dos formas de ver las hipótesis de WMW a continuación.

Tengo una cantidad razonable de experiencia con la regresión y los conceptos básicos, pero tengo mucha curiosidad por estas cosas no paramétricas "especiales"

Las pruebas no paramétricas no tienen nada de especial (yo diría que las "estándar" son, en muchos aspectos, incluso más básicas que las pruebas paramétricas típicas), siempre y cuando realmente comprenda las pruebas de hipótesis.

Sin embargo, ese es probablemente un tema para otra pregunta.

Hay dos formas principales de ver la prueba de hipótesis de Wilcoxon-Mann-Whitney.

i) Una es decir "Estoy interesado en el cambio de ubicación, es decir, bajo la hipótesis nula, las dos poblaciones tienen la misma distribución (continua) , en comparación con la alternativa de que uno se" desplaza "hacia arriba o hacia abajo en relación con el otro"

El Wilcoxon-Mann-Whitney funciona muy bien si hace esta suposición (que su alternativa es solo un cambio de ubicación)

En este caso, el Wilcoxon-Mann-Whitney en realidad es una prueba para medianas ... pero igualmente es una prueba de medias, o de hecho cualquier otra estadística equivalente a la ubicación (percentiles 90, por ejemplo, o medias recortadas, o cualquier número de otras cosas), ya que todos se ven afectados de la misma manera por el cambio de ubicación.

Lo bueno de esto es que es muy fácil de interpretar, y es fácil generar un intervalo de confianza para este cambio de ubicación.

cambio de ubicación

Sin embargo, la prueba de Wilcoxon-Mann-Whitney es sensible a otros tipos de diferencia que no sean un cambio de ubicación.

$\frac{1}{2}$ $\frac{1}{2}$

cambio en P (X <Y) desde 1/2

— Glen_b -Reinstate a Monica
fuente

Dibujé la distribución nula aproximada (la que está en rojo en el nuevo gráfico superior) como si fuera continua ... pero la distribución real es discreta. La imagen está menos abarrotada de esa manera.

— Glen_b

3

+1 Gran respuesta. Una de las explicaciones mejores y más accesibles de la prueba de Wilcoxon-Mann-Whitney que conozco. Gracias.

— COOLSerdash

"En este caso, el Wilcoxon-Mann-Whitney en realidad es una prueba para medianas ... pero igualmente es una prueba de medios" Sin embargo, algunas distribuciones no tienen medios mientras que su mediana está bien definida (por ejemplo, Cauchy).

— caracal

@caracal Si bien es cierto (es un punto que he señalado varias veces aquí), si alguien prueba la igualdad de la población significa, presumiblemente ya asume que la población significa que es finita. Si no lo hacen, tienen un problema mucho antes de llegar al punto de elegir una prueba. Teniendo en cuenta que existe una hipótesis de una población igual (y por lo tanto finita), bajo los mismos supuestos que se utilizan generalmente para hacer una prueba de medianas (alternativas de cambio), la WMW también es una prueba de medias.

— Glen_b -Reinstate Monica

17

Supongamos que usted y yo estamos entrenando equipos de atletismo. Nuestros atletas provienen de la misma escuela, tienen edades similares y el mismo género (es decir, provienen de la misma población), pero afirmo haber descubierto un nuevo sistema de entrenamiento revolucionario que hará que los miembros de mi equipo corran mucho más rápido que tuya. ¿Cómo puedo convencerte de que realmente funciona?

Tenemos una carrera

Después, me siento y calculo el tiempo promedio para los miembros de mi equipo y el tiempo promedio para los miembros del suyo. Reclamaré la victoria si el tiempo promedio para mis atletas no solo es más rápido que el promedio para los suyos, sino que la diferencia también es grande en comparación con la "dispersión" o desviación estándar de nuestros resultados.

t

$t$

"Pero Matt", te quejas, "esto no es del todo justo. Nuestros equipos son bastante similares, pero tú, por pura casualidad, terminaste con el corredor más rápido del distrito. No está en la misma liga que todos de lo contrario, es prácticamente un monstruo de la naturaleza. Terminó 3 minutos antes del siguiente finalizador más rápido, lo que reduce mucho el tiempo promedio, pero el resto de los competidores están bastante mezclados. Veamos el orden de llegada. Si tu método realmente funciona, los primeros finalistas deberían ser principalmente de tu equipo, pero si no es así, el orden de llegada debería ser bastante aleatorio. ¡Esto no da un peso indebido a tu súper estrella! "

$t$

$p$

$t$ $t$ $t$

— Matt Krause
fuente

En realidad, respondiste mi pregunta exactamente de la manera, y quiero decir exactamente, de la forma en que quería que se respondiera. Glen también se inclinó por el lado matemático, y la combinación de estas dos respuestas hizo el clic para mí. Sin embargo, no puedo quitarle la recompensa. Quiero decir ... está dibujando gráficos, a pesar de la claridad de su respuesta. Tengo la sensación de que has tenido algún tipo de trabajo docente en el pasado. Sé que puede haber algunas generalizaciones en las respuestas aquí, pero sabía que no tenía que comprar un libro y estudiarlo intensamente para comenzar a poder aplicar prácticamente no paramétricos en algún nivel

— Taal

t

$t$

La ironía de todo esto es que probablemente no lo voy a usar en absoluto, simplemente me molestó que no pudiera obtener una respuesta directa sobre lo que era. La respuesta de Glen es mucho más de lo que esperaba y obtuve originalmente: las mejores respuestas que siento que no puedo describir, ya que cualquier descripción resultaría inadecuada. Como decirle a alguien cómo se ve el color azul. Si has leído alguna de las cosas de Whuber, parece que puedes tener un sabor similar ...

— Taal

ver stats.stackexchange.com/questions/18058/…

— Taal

6

Solicitó ser corregido si está equivocado. Aquí hay algunos comentarios bajo ese encabezado para complementar las sugerencias positivas de @Peter Flom.

"no paramétrico depende de la mediana en lugar de la media": a menudo en la práctica, pero esa no es una definición. Varias pruebas no paramétricas (por ejemplo, chi-cuadrado) no tienen nada que ver con las medianas.
se basa en grados de libertad en lugar de la desviación estándar; Eso es muy confuso. La idea de los grados de libertad no es, en ningún sentido, una alternativa a la desviación estándar; Los grados de libertad como idea se aplican en todas las estadísticas.
"una fuente particular de datos que tengo debería o no debería usarse": esta pregunta no tiene nada que ver con la prueba de significación que aplicó, que es solo sobre la diferencia entre subconjuntos de datos y está expresada en términos de diferencia entre medianas.

— Nick Cox
fuente

Creo que su opinión sobre mí pidiendo "ser corregido donde está mal" ha sido la mejor respuesta hasta ahora. Supongo que necesitaba algunas hipótesis nulas refutadas o aprender por el proceso de eliminación. Su respuesta me ha dado nueva información que entiendo, todavía hay algunos grandes agujeros en mi comprensión del tema, pero no puedo esperar la perfección. Quizás esos agujeros son más grandes de lo que originalmente había anticipado al escribir esta pregunta y el intercambio de pila no sería suficiente, no importa cuán "hablador" hiciera la pregunta.

— Taal

4

Usted "quiere" las mismas cosas de un valor p aquí que desea en cualquier otra prueba.

El estadístico U es el resultado de un cálculo, al igual que el estadístico t, el cociente de probabilidades, el estadístico F o lo que sea que tenga. La fórmula se puede encontrar en muchos lugares. No es muy intuitivo, pero tampoco lo son otras estadísticas de prueba hasta que te acostumbras a ellas (reconocemos que 2 está en el rango significativo porque los vemos todo el tiempo).

El resto de la salida en su texto de bloque debe ser claro.

Para una introducción más general a las pruebas no paramétricas, me hago eco de @NickCox ... consiga un buen libro. No paramétrico simplemente significa "sin parámetros"; Hay muchas pruebas y estadísticas no paramétricas para una amplia variedad de propósitos.

— Peter Flom - Restablece a Monica
fuente

Sí, idealmente, un buen libro ayudaría; sin embargo, parece innecesario con los recursos actuales (como stackexchange), wikipedia (a veces), la competencia en el mercado de youtube (¿sabías que por cada millón de visitas que alguien recibe se les paga $ 4000?), así como una variedad de otros recursos. En general, al igual que mi estilo de aprendizaje, también fracaso bastante en el simple aprendizaje de libros.

— Taal

1

Agradezco su publicación, sin embargo, en realidad ya reitera la mayoría de lo que ya sé o que asumí desafortunadamente. Parece haber algún tipo de patrón en el que casi todas las explicaciones que recibo se detienen en este punto específico. Quizás este punto es donde se vuelve demasiado complejo de explicar o demasiado esfuerzo, no estoy seguro. De cualquier manera, es un patrón que he estado experimentando de todas las fuentes de información que uso normalmente, lo que irónicamente reiteraría la declaración del libro de todos. Quizás no me di cuenta de que la respuesta era tan compleja; Por otra parte, he visto una respuesta intensa en SE.

— Taal

2

Primero nos pide que simplifiquemos, luego se queja de que nuestras respuestas son simples. Si desea comprender la fórmula para U (o cualquier otra cosa) MÍRELA. Si quieres algo simple, ¡no pidas complejidades! La entrada de Wikipedia es una entrada excelente y detallada con todos los detalles. No lo entiendes Asi que. ¿Qué deseas?

— Peter Flom - Restablece a Monica

1

Supongo que en algún punto intermedio. Es cierto que no soy el mejor para comunicarme, y puedo entender que estás frustrado, je. Es un rasgo mío del que soy muy consciente. Para ser honesto, creo que tendré que pensar en lo que realmente quiero, ya que es casi como si estuviera tratando de empujar la pregunta lo suficiente como para que se superponga en un área que no conocía o que no sabía previamente acerca de. Es difícil preguntar sobre algo que no entiendes en general. Tendré que volver a esto, supongo.

— Taal

1

Como respuesta a una pregunta recientemente cerrada , esto también aborda lo anterior. A continuación hay una cita de las pruebas estadísticas de distribución libre clásicas de Bradley (1968, p. 15-16) que, aunque es un poco larga, es una explicación bastante clara, creo.

Los términos no paramétrico y sin distribución no son sinónimos, y neitherterm proporciona una descripción completamente satisfactoria de la clase de estadística a la que están destinados a referirse ... En términos generales, una prueba no paramétrica es aquella que no hace hipótesis sobre el valor de un parámetro en una función de densidad estadística, mientras que una prueba sin distribución es aquella que no hace suposiciones sobre la forma precisa de la población muestreada. Las definiciones no son mutuamente excluyentes, y una prueba puede ser a la vez libre de distribución y paramétrica ... Para ser completamente claro sobre lo que se entiende por libre de distribución, es necesario distinguir entre tres distribuciones: (a) la del población muestreada; (b) el de la característica de observación realmente utilizada por la prueba; y (c) el del estadístico de prueba. La distribución a partir de la cual las pruebas son "gratuitas" es la de (a), la población muestreada. Y la libertad que disfrutan suele ser relativa ... Sin embargo, los supuestos nunca son tan elaborados como para implicar a una población cuya distribución está completamente especificada ... La razón ... es muy simple: las magnitudes no se usan como tales en la prueba [no paramétrica], ni ningún otro atributo poblacional fuertemente ligado de la variante. En lugar ni ningún otro atributo poblacional fuertemente ligado de la variante. En lugar ni ningún otro atributo poblacional fuertemente ligado de la variante. En lugarlas características vinculadas a la muestra de las observaciones obtenidas ... proporcionan la información utilizada por el estadístico de prueba ... Por lo tanto, mientras que las pruebas paramétricas y no paramétricas requieren que la forma f a distribución, asociada con observaciones, sea completamente conocida, ese conocimiento, en el caso paramétrico, por lo general no se publica y, por lo tanto, la distribución requerida de magnitudes debe "asumirse" o inferirse sobre la base de información aproximada o incompleta. En el caso no paramétrico, por otro y, la distribución de la característica de observacióngeneralmente se conoce con precisión a partir de consideraciones a priori y, por lo tanto, no es necesario "asumirlo". La diferencia, entonces, no es uno de los requisitos, sino de lo que se requiere y de la certeza de que se cumplirá el requisito.

— Abraham
fuente