Prueba exacta de Fisher con pesas?

12

¿Alguien sabe de una variación de la prueba exacta de Fisher que tenga en cuenta los pesos? Por ejemplo, muestreo de pesos .
Entonces, en lugar de la tabla cruzada 2x2 habitual, cada punto de datos tiene un valor de "masa" o "tamaño" que pesa el punto.

Datos de ejemplo:

A B weight
N N 1
N N 3
Y N 1
Y N 2
N Y 6
N Y 7
Y Y 1
Y Y 2
Y Y 3
Y Y 4

La prueba exacta de Fisher luego utiliza esta tabla cruzada de 2x2:

A\B  N  Y All
 N   2  2   4
 Y   2  4   6
All  4  6  10

Si tomáramos el peso como un número 'real' de puntos de datos, esto resultaría en:

A\B  N  Y All
 N   4 13  17
 Y   3 10  13
All  7 23  30

Pero eso daría como resultado una confianza demasiado alta. Un punto de datos que cambia de N / Y a N / N marcaría una gran diferencia en la estadística.
Además, no funcionaría si algún peso contuviera fracciones.

hypothesis-testing

— Michel de Ruiter
fuente

10

Sospecho que las pruebas "exactas" y los pesos de muestreo son conceptos esencialmente incompatibles. Revisé en Stata, que tiene buenas instalaciones para encuestas de muestra y razonables para pruebas exactas, y sus 8 estadísticas de prueba posibles para una tabla cruzada con pesas de muestra no incluyen ninguna prueba 'exacta' como la de Fisher.

La entrada manual relevante de Stata (para svy: tabulate twoway ) aconseja utilizar su prueba predeterminada en todos los casos. Este método predeterminado se basa en la estadística chi-cuadrado habitual de Pearson. Citar:

"Para tener en cuenta el diseño de la encuesta, la estadística se convierte en una estadística F con grados de libertad no enteros mediante el uso de una corrección de segundo orden de Rao y Scott (1981, 1984)".

Refs:

Rao, JNK y AJ Scott. 1981. El análisis de datos categóricos de encuestas de muestra complejas: pruebas de Chi-cuadrado para la bondad de ajuste e independencia en tablas de dos vías. Revista de la Asociación Americana de Estadística 76: 221–230.
Rao, JNK y AJ Scott. 1984. En pruebas de ji cuadrado para tablas de contingencia de múltiples vías con proporciones celulares estimadas a partir de datos de la encuesta. Annals of Statistics 12: 46–60.

— una parada
fuente

3

Interesante pregunta. ¿Qué quieres decir con peso?

Me inclinaría a hacer un arranque ... elegir su estadística favorita (es decir, Exacto de Fisher) y calcularla en sus datos. Luego asigne nuevas celdas a cada instancia de acuerdo con su hipótesis nula y repita el proceso 999 veces. ¡Esto debería proporcionar una distribución empírica bastante buena para su estadística de prueba bajo la hipótesis nula, y permitir un cálculo fácil de su valor p!

— usuario549
fuente

¡Gracias! Pero esperaba una estadística que sea más rápida y estable para calcular ...

— Michel de Ruiter

2

Una cosa rápida acerca de los pesos de las muestras: por lo general, son una forma de incorporar información sobre la población de la que se está tomando una muestra, pero generalmente se basan en escenarios de tipo "muestra grande" (generalmente predicción BLUP o AZUL limitada disfrazada). Así que me imagino que los pesos de muestra probablemente no funcionen mejor que ningún peso. Creo que lo mejor sería utilizar la información sobre la población en la que se basó directamente el diseño de la muestra.

Por ejemplo, ¿sobre qué base se calcularon las probabilidades de selección? Mi apuesta es que conocías un total de población o algún tipo de desglose de población que no involucra a A o B (por ejemplo, edad por grupos de sexo). Si esto no es correcto, entonces estoy a punto de desperdiciar algo de espacio, pero si es correcto, y suponiendo que tuviera totales de población para grupos (o estratos), y dentro de cada grupo tenías una "mini" tabla de contingencia de 2 por 2. Entonces ahora podemos escribir como el "objetivo" de nuestra inferencia. O tal vez sea la suma que sea el objetivo de la inferencia (¿cuántos en la población dan respuesta N / N ??). Entonces está tratando de razonar sobre $R_{1},\dots,R_{k}$ $k$ $R_{1;11},R_{1;12},R_{1;21},R_{1;22},\dots$ $\sum_{l=1}^{k}R_{l;ij}$ $R_{l;ij}$ de los números muestreados sujeto a la restricción que para . (maxent alguien?) $r_{l;ij}$ $\sum_{i,j}R_{l;ij}=R_{l}$ $(l=1,\dots,k)$

Tenga en cuenta que si las probabilidades de muestreo se basaron solo en los datos que era probable que recibiera, entonces son irrelevantes (y se aplica la prueba exacta de Fisher), porque una vez que recibe los datos, sabe qué muestra recibió. Entonces, lo más coherente es actualizar la probabilidad de muestreo a si la unidad enésima está en la muestra, y si no estaban en la muestra. Sin embargo, por lo general, el diseño se basa en más información que solo en los datos que es probable que observe. pero tenga en cuenta que lo importante es la información más que el diseño de la encuesta per se. La inferencia basada en el diseño es solo una forma bastante eficiente de incorporar toda esa información en su análisis. $P(D_{m})=1$ $P(D_{m})=0$

— probabilidadislogica
fuente