La prueba estadística para un valor que está significativamente más lejos de la media de la población: ¿es una prueba Z o una prueba T?


12

¿Qué tan significativo es un valor en comparación con una lista de valores? En la mayoría de los casos, las pruebas estadísticas implican comparar un conjunto de muestras con una población. En mi caso, la muestra está hecha por un valor y la comparamos con la población.

Soy un diletante en las pruebas de hipótesis estadísticas confrontadas quizás con el problema más básico. No es solo una prueba, sino cientos de ellas. Tengo un espacio de parámetros y debo hacer una prueba de significación para cada punto. Tanto el valor como la lista de antecedentes (población) se generan para cada combinación de parámetros. Luego estoy ordenando esto por valor p y encuentro combinaciones de parámetros interesantes. De hecho, el hallazgo de combinaciones de parámetros donde este p-val es alto (sin importancia) también es importante.

Entonces, tomemos una sola prueba: tengo un valor calculado generado a partir de un conjunto seleccionado y un conjunto de valores de fondo calculados al elegir un conjunto de entrenamiento aleatorio. El valor calculado es 0.35 y el conjunto de fondo está (¿probablemente?) Normalmente distribuido con una media de 0.25 y un estándar muy estrecho (e-7). En realidad, no tengo conocimiento sobre la distribución, porque las muestras se calculan a partir de otra cosa, no son muestras de números aleatorios de alguna distribución, por lo que el fondo es la palabra correcta para ello.

La hipótesis nula sería que "la media de la prueba de muestra es igual a mi valor calculado, de 0,35". ¿Cuándo debería considerar que se trata de una prueba Z o una prueba T? Quiero que el valor sea significativamente más alto que la media de la población, por lo tanto, es una prueba de una sola cola.

Estoy un poco confundido sobre qué considerar como una muestra: o tengo una muestra de uno (la observación) y la lista de antecedentes como la población O mi muestra es la lista de antecedentes y la estoy comparando con el total (sin muestrear) población que según la hipótesis nula debería tener la misma media. Una vez que esto se decide, la prueba va a diferentes direcciones, supongo.

Si se trata de una prueba T, ¿cómo calculo su valor p? Me gustaría calcularlo yo mismo en lugar de usar una función R / Python / Excel (ya sé cómo hacerlo), por lo tanto, primero debo establecer la fórmula correcta.

T=Z/s,
Z=X¯σn
s=σ^/σ
  1. ¿Cómo calculo un valor p? (es decir, no usar una función R / Python / Excel o una búsqueda en la tabla de valores p, pero en realidad lo calculo en base a una fórmula, porque quiero saber qué estoy haciendo)
  2. ¿Cómo decido un umbral de significación basado en el tamaño de mi muestra? (una fórmula estaría bien)

3
1060.35=106×107+0.250.35

1
@grokkaine: esta pregunta plantea cuestiones interesantes y parece valiosa, pero me parecería aún más valiosa si la editaras un poco, teniendo cuidado de ser muy preciso con tus términos.
rolando2

No es solo una prueba, sino cientos de ellas. Tengo un espacio de parámetros y debo hacer una prueba de significación para cada punto. Tanto el valor como la lista de antecedentes (población) se generan para cada combinación de parámetros. Luego estoy ordenando esto por valor p y encuentro combinaciones de parámetros interesantes. De hecho, el hallazgo de combinaciones de parámetros donde este p-val es alto (sin importancia) también es importante. Intentaré editar mi publicación un poco más tarde.
grokkaine

Respuestas:


9

Planteas una pregunta interesante. Lo primero es lo primero, si tiene una observación de 0.35, una media de 0.25 y una desviación estándar de 1/10 ^ 7 (así es como interpreto su e ^ -7 bit) realmente no necesita entrar en ninguna hipótesis prueba de ejercicio. Su observación de 0.35 es muy diferente a la media de 0.25 dado que estará a varios miles de desviaciones estándar de la media y probablemente habrá varios millones de errores estándar de la media.

La diferencia entre la prueba Z y la prueba t se refiere principalmente al tamaño de la muestra. Con muestras menores de 120, debe usar la prueba t para calcular los valores de p. Cuando los tamaños de muestra son mayores que eso, no hay mucha diferencia si es que utiliza. Es divertido calcularlo en ambos sentidos independientemente del tamaño de la muestra y observar la poca diferencia que hay entre las dos pruebas.

En cuanto a calcular las cosas usted mismo, puede calcular la estadística t dividiendo la diferencia entre su observación y la media y dividiéndola por el error estándar. El error estándar es la desviación estándar dividida por la raíz cuadrada del tamaño de la muestra. Ahora, tienes tu t stat. Para calcular el valor p, creo que no hay otra alternativa que buscar el valor t en la tabla de prueba. Si acepta un TDIST alternativo simple de Excel (t stat value, DF, 1 o 2 para 1 o 2 tail p value) hace el truco. Para calcular el valor p usando Z, la fórmula de Excel para una prueba de 1 cola es: (1 - NORMSDIST (valor Z). El valor Z es el mismo que el t stat (o el número de error estándar alejado de la media).

Como advertencia, esos métodos de prueba de hipótesis pueden verse distorsionados por el tamaño de la muestra. En otras palabras, cuanto mayor sea el tamaño de la muestra, menor será el error estándar, mayor será el valor Z resultante o la estadística t, menor será el valor p y mayor será la significancia estadística. Como atajo en esta lógica, los tamaños de muestra grandes darán como resultado una alta significación estadística. Pero, la alta significación estadística en asociación con un gran tamaño de muestra puede ser completamente irrelevante. En otras palabras, estadísticamente significativo es una frase matemática. No necesariamente significa significativo (según el diccionario Webster).

Para escapar de esta gran trampa de tamaño de muestra, los estadísticos han pasado a los métodos de Tamaño de efecto. Este último utiliza como unidad de distancia estadística entre dos observaciones la desviación estándar en lugar del error estándar. Con dicho marco, el tamaño de la muestra no tendrá impacto en su significación estadística. Usar el Tamaño del efecto también tenderá a alejarte de los valores de p y hacia Intervalos de confianza que pueden ser más significativos en inglés simple.


Gracias por la respuesta, estoy un poco confundido sobre qué considerar como muestra: o tengo una muestra de uno (la observación) y la lista de antecedentes como población O mi muestra es la lista de antecedentes y la estoy comparando con toda la población (no muestreada) que según la hipótesis nula debería tener la misma media. Una vez que esto se decide, la prueba va a diferentes direcciones, supongo.
grokkaine

Usa todas las observaciones que tengas como muestra (como lo llames). Y, calcule la distancia estadística entre su única observación y la media de la muestra como se define. Calcule la desviación estándar y el error estándar de su muestra. Y, la distancia estadística de su observación de la media es: (Observación - Media) / Error estándar = t estadística. Utilice la función Excel TDIST (DF, t stat, 1 (para una cola)) y obtendrá su valor p.
Sympa

5

La prueba de hipótesis siempre se refiere a la población. Si desea hacer una declaración sobre la muestra, no necesita hacer una prueba (solo compare lo que ve). Los frecuentes creen en los asintóticos, por lo tanto, siempre que el tamaño de su muestra sea grande, no se preocupe por la distribución de sus datos. La prueba Z y la prueba T hacen básicamente lo mismo en términos de cálculo del estadístico de prueba, solo los valores críticos se obtienen de diferentes distribuciones (Normal vs Student-T). Si el tamaño de su muestra es grande, la diferencia es marginal.

Con respecto a Q1: simplemente búsquelo desde la distribución T con n-1 grados de libertad, donde n es el tamaño de la muestra.

Con respecto a Q2: Usted calcula el umbral en función de su nivel de significancia deseado para una prueba Z y en función del nivel de significancia en el tamaño de la muestra en el caso de la prueba T.

Pero en serio, deberías revisar algunos conceptos básicos.


Gracias por la respuesta. De hecho, era el t-dist lo que estaba usando, pero también quería entender "por qué" lo uso. ¿Cómo define una muestra "grande" y cómo es diferente el valor p? Más importante aún, ¿cómo sabemos cuándo una distribución es normal o student-t? ¿Hay una prueba estadística para ello? Tal vez use la prueba de kolmogorov-smirnov para el segundo y hmm ... ¿qué usar para el primero?
grokkaine

2
grande ... bien Z yt convergen comenzando con n = 60. Simplemente compare los valores p que obtiene de ambas pruebas. El supuesto de distribución t / Normal no depende de la distribución de los datos subyacentes. Se basa en el supuesto de que la distribución muestral de la media es normal. Incluso si la variable que está probando se distribuye Gamma, eso aún se mantiene. Con n = 200 más o menos, debería funcionar bien. Nuevamente, todo esto se basa en estadísticas frecuentistas.
joint_p

+1 por el comentario sobre la prueba de hipótesis que siempre se refiere a la población, pero -1 por parecer perder el punto de que el interlocutor tiene una muestra de 1.
Peter Ellis

1
No estaba realmente seguro de qué significaba "Tengo un valor calculado y un conjunto de valores generados al azar. El valor calculado es 0.35" se suponía que significaba ... Pensé que esto de alguna manera implicaba que hay más de 1 observación.
joint_p

volver a publicar mis comentarios de los otros párrafos: estoy un poco confundido sobre qué considerar como muestra: o tengo una muestra de uno (la observación) y la lista de antecedentes como la población O mi muestra es la lista de antecedentes y Estoy comparando eso con toda la población (no muestreada) que según la hipótesis nula debería tener la misma media. Una vez que esto se decide, la prueba va a diferentes direcciones, supongo.
grokkaine
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.