¿Cómo evaluar la mediana de una población?


9

Tengo una muestra de 250 unidades. La distribución es asimétrica. Quiero probar una hipótesis de que la mediana de la población es diferente de 3.5, por lo que creo que una prueba de una muestra sería apropiada. Sé que la prueba de rango de Wilcoxon no es apropiada porque la distribución no es simétrica. ¿Es apropiado usar una prueba de signos? Si no es así, ¿alguien puede recomendar alguna otra prueba?


3
Me perdiste en la primera línea, por varias razones. (1) Una muestra no puede tener una distribución gaussiana (pero puede tener aproximadamente una). (2) Una característica de todas las distribuciones gaussianas (y, por lo tanto, de aproximaciones a ellas) es la simetría . Te has contradicho a ti mismo. Al describir sus datos en sus propios términos, en lugar de jerga estadística, comunicará mejor lo que tiene. ¿Podría explicar también, de la manera más clara posible, lo que realmente quiere lograr con sus datos? ¿Qué tipo de información tiene la intención de proporcionarle una "prueba de muestra basada en la mediana"?
whuber

1
La mediana de la muestra es lo que sea; no habría necesidad de probar eso. ¿Quizás quiera probar si la mediana de la población (de la cual se obtiene la muestra) es igual a ? Si es así, es importante saber cómo se desarrolló el valor de . ¿Es un resumen de algún otro conjunto de datos, tal vez? ¿O es un número predeterminado, como un estándar de calidad? 3.53.5
whuber

1
Es un número predeterminado
LeonRupnik

2
"La distribución es asimétrica, así que quiero probar una hipótesis si la mediana de una población es diferente de 3.5 ..." - ¿Por qué la asimetría en una muestra afectaría qué hipótesis es interesante? " ¿Es apropiado usar una prueba de signos? " - seguro, pero (al menos en la forma original) depende de la continuidad - necesita adaptarla si su variable es discreta (no dice en qué consisten sus datos) de).
Glen_b -Reinstale a Mónica el

Los datos son continuos
LeonRupnik

Respuestas:


8

Sinopsis

El recuento de datos que excede tiene una distribución binomial con probabilidad desconocida . Use esto para realizar una prueba binomial de contra la alternativa .3.5pp=1/2p1/2

El resto de esta publicación explica el modelo subyacente y muestra cómo realizar los cálculos. Proporciona Rcódigo de trabajo para llevarlos a cabo. En mi respuesta a "¿Cuál es el significado de los valores p y los valores t en las pruebas estadísticas?" .

El modelo estadístico

Suponiendo que los valores son razonablemente diversos (con pocos lazos en ), entonces, bajo su hipótesis nula, cualquier valor muestreado al azar tiene una probabilidad de 1/2 de exceder (ya que se caracteriza como el valor medio de la población) . Suponiendo que todos los valores se muestrearon de forma aleatoria e independiente, el número de ellos que exceda tendrá una distribución Binomial . Llamemos a este número "cuenta", .3.51/2=50%3.53.52503.5(250,1/2)k

Por otro lado, si la mediana de la población difiere de , la probabilidad de que un valor muestreado al azar que exceda sea ​​diferente de . Esta es la hipótesis alternativa.3.53.51/2

Encontrar una prueba adecuada

La mejor manera de distinguir la situación nula de sus alternativas es observar los valores de que son más probables bajo nulo y menos probables bajo las alternativas. Estos son los valores cercanos a de , igual a . Por lo tanto, una región crítica para su prueba consiste en valores relativamente lejos de : cerca de o cerca de . Pero, ¿qué tan lejos de deben estar para constituir evidencia significativa de que no es la mediana de la población?k1/225012512502501253.5

Depende de su estándar de importancia: esto se denomina tamaño de prueba , a menudo denominado . Bajo la hipótesis nula, debería haber cerca, pero no más de, una probabilidad que esté en la región crítica.ααk

Por lo general, cuando no tenemos ideas preconcebidas sobre qué alternativa se aplicará, una mediana mayor o menor que intentamos construir la región crítica de modo que haya la mitad de esa posibilidad, , de que sea ​​baja y la otra mitad, , que es alta. Como conocemos la distribución de bajo la hipótesis nula, esta información es suficiente para determinar la región crítica.3.5α/2kα/2kk

Técnicamente, hay dos formas comunes de llevar a cabo el cálculo: calcular las probabilidades binomiales o aproximarlas con una distribución Normal.

Cálculo con probabilidades binomiales.

Use la función de punto porcentual (cuantil). En R, por ejemplo, esto se llama qbinomy se invocaría como

alpha <- 0.05 # Test size
c(qbinom(alpha/2, 250, 1/2)-1, qbinom(1-alpha/2, 250, 1/2)+1)

La salida para esα=0.05

109 141

Significa que la región crítica comprende todos los valores bajos de entre (y que incluye) y , junto con todos los valores altos de entre (y que incluye) y . Como verificación, podemos pedir calcular la probabilidad que se encuentra en esa región cuando el nulo es verdadero:k0109k141250Rk

pbinom(109, 250, 1/2) + (1-pbinom(141-1, 250, 1/2))

La salida es , muy cerca de - pero no mayor que-- sí. Debido a que la región crítica debe terminar en un número entero, por lo general no es posible hacer que este tamaño de prueba real sea exactamente igual al tamaño de prueba nominal , pero en este caso los dos valores están muy cerca.0.0497αα

Cálculo con la aproximación normal.

La media de una distribución binomial es y su varianza es , haciendo su desviación estándar igual a . Reemplazaremos la distribución Binomial con una distribución Normal. La distribución normal estándar tiene de su probabilidad menor que , según lo calculado por el comando(250,1/2)250×1/2=125250×1/2×(11/2)=250/4250/47.9α/2=0.05/21.95996R

qnorm(alpha/2)

Debido a que las distribuciones normales son simétricas, también tiene de su probabilidad mayor que . Por lo tanto, la región crítica consiste en valores de que están a más de desviaciones estándar de . Calcule estos umbrales: equivalen a . El cálculo se puede llevar a cabo de una vez+ 1,95996 k 1,95996 125 125 ± 7,9 × 1,96 109,5 , 140,50.05/2+1.95996k1.95996125125±7.9×1.96109.5,140.5

250*1/2 + sqrt(250*1/2*(1-1/2)) * qnorm(alpha/2) * c(1,-1)

Como tiene que ser un número entero, vemos que caerá en la región crítica cuando sea o menos o o más. Esta respuesta es idéntica a la obtenida usando el cálculo binomial exacto. Este suele ser el caso cuando está más cerca de que de o , el tamaño de la muestra es de moderado a grande (decenas o más) y no es muy pequeño (un pequeño porcentaje).109 141 p 1 / 2 0 1 αk109141p1/201α


Esta prueba, debido a que no supone nada sobre la población (excepto que no tiene mucha probabilidad centrada directamente en su mediana), no es tan poderosa como otras pruebas que hacen suposiciones específicas sobre la población. Sin embargo, si la prueba rechaza el valor nulo, no hay necesidad de preocuparse por la falta de potencia. De lo contrario, debe hacer algunas compensaciones delicadas entre lo que está dispuesto a asumir y lo que puede concluir sobre la población.


2
Como este es prácticamente un ejemplo trabajado de su respuesta más "abstracta del significado de un valor p ", no solo al exponer la misma filosofía sino en la forma en que su respuesta está estructurada, creo que debería vincularla ("Un ejemplo de cómo se aplica esto en la práctica se puede encontrar en mi respuesta a ... ") en la conclusión de su respuesta allí.
Silverfish

2
@ Silver Gracias; eso realmente me había pasado por la mente. Pensé que podría esperar un poco primero. Entre otras cosas, no me sorprendería que algún miembro emprendedor de la comunidad desenterrara un hilo duplicado, lo que me gustaría examinar más de cerca. Después de todo, este es material básico: se han hecho muchas preguntas sobre las pruebas binomiales. El único reclamo que este tiene para ser nuevo es que llegó aquí como una necesidad de una prueba de una mediana, por lo que no era tan obviamente una prueba binomial desde el principio, y el único reclamo que mi respuesta tiene que ser digna de leer radica en su esfuerzo por explicar cada paso.
whuber
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.