¿Qué tan significativo es un valor en comparación con una lista de valores? En la mayoría de los casos, las pruebas estadísticas implican comparar un conjunto de muestras con una población. En mi caso, la muestra está hecha por un valor y la comparamos con la población.
Soy un diletante en las pruebas de hipótesis estadísticas confrontadas quizás con el problema más básico. No es solo una prueba, sino cientos de ellas. Tengo un espacio de parámetros y debo hacer una prueba de significación para cada punto. Tanto el valor como la lista de antecedentes (población) se generan para cada combinación de parámetros. Luego estoy ordenando esto por valor p y encuentro combinaciones de parámetros interesantes. De hecho, el hallazgo de combinaciones de parámetros donde este p-val es alto (sin importancia) también es importante.
Entonces, tomemos una sola prueba: tengo un valor calculado generado a partir de un conjunto seleccionado y un conjunto de valores de fondo calculados al elegir un conjunto de entrenamiento aleatorio. El valor calculado es 0.35 y el conjunto de fondo está (¿probablemente?) Normalmente distribuido con una media de 0.25 y un estándar muy estrecho (e-7). En realidad, no tengo conocimiento sobre la distribución, porque las muestras se calculan a partir de otra cosa, no son muestras de números aleatorios de alguna distribución, por lo que el fondo es la palabra correcta para ello.
La hipótesis nula sería que "la media de la prueba de muestra es igual a mi valor calculado, de 0,35". ¿Cuándo debería considerar que se trata de una prueba Z o una prueba T? Quiero que el valor sea significativamente más alto que la media de la población, por lo tanto, es una prueba de una sola cola.
Estoy un poco confundido sobre qué considerar como una muestra: o tengo una muestra de uno (la observación) y la lista de antecedentes como la población O mi muestra es la lista de antecedentes y la estoy comparando con el total (sin muestrear) población que según la hipótesis nula debería tener la misma media. Una vez que esto se decide, la prueba va a diferentes direcciones, supongo.
Si se trata de una prueba T, ¿cómo calculo su valor p? Me gustaría calcularlo yo mismo en lugar de usar una función R / Python / Excel (ya sé cómo hacerlo), por lo tanto, primero debo establecer la fórmula correcta.
- ¿Cómo calculo un valor p? (es decir, no usar una función R / Python / Excel o una búsqueda en la tabla de valores p, pero en realidad lo calculo en base a una fórmula, porque quiero saber qué estoy haciendo)
- ¿Cómo decido un umbral de significación basado en el tamaño de mi muestra? (una fórmula estaría bien)