¿Puedo usar pruebas de permutación para evitar el problema de comparación múltiple en el contexto de proporciones?

9

Estoy evaluando la efectividad de 5 métodos diferentes para predecir un resultado binario particular (llámelos 'Éxito' y 'Fracaso'). Los datos se ven así:

Method    Sample_Size    Success    Percent_Success
1         28             4          0.14  
2         19             4          0.21  
3         24             7          0.29  
4         21             13         0.61  
5         22             9          0.40

Me gustaría realizar una prueba entre estos 5 métodos para evaluar la superioridad relativa de los métodos. En otras palabras, quiero ordenar los métodos en orden de rendimiento como método 1> método 2> ... método 5. Para evitar el problema de las comparaciones múltiples, planeo hacer una prueba de permutación en las siguientes líneas:

Paso 1: agrupe todos los datos para que el tamaño de la muestra general sea 114 con 37 éxitos generales.

Paso 2: Divida aleatoriamente los datos en 5 grupos con los tamaños de muestra correspondientes de 28, 19, 24, 21 y 22.

Paso 3: Incremente un contador si el orden observado de Percent_Success del paso 2 es consistente con el orden de mis datos.

Paso 4: Repita los pasos 2 y 3 muchas veces (digamos 10000).

Valor p deseado = Valor de contador final / 10000.

Preguntas:

¿Está bien el procedimiento anterior?
¿Hay algo en R que me permita realizar la prueba anterior?
Cualquier sugerencia de mejora o métodos alternativos sería útil.

r multiple-comparisons permutation-test

— sxv
fuente

@whuber ¿Tienes un código R para compartir sobre cómo hiciste esto?

— B_Miner

6

El procedimiento propuesto no responde a su pregunta. Solo estima la frecuencia, bajo la hipótesis nula, con la cual ocurriría su orden observado. Pero bajo ese nulo, para una buena aproximación, ¡todas las órdenes son igualmente probables, de donde su cálculo producirá un valor cercano a 1/5! = aproximadamente 0,83%. Eso no nos dice nada.

Una observación más obvia: el orden, basado en sus datos, es 4> 5> 3> 2> 1. Sus estimaciones de sus superioridades relativas son 0.61 - 0.40 = 21%, 0.40 - 0.21 = 11%, etc.

Ahora, suponga que su pregunta se refiere a la medida en que cualquiera de las diferencias en proporciones podría deberse al azar bajo la hipótesis nula de no diferencia. De hecho, puede evaluar estas diez preguntas con una prueba de permutación. Sin embargo, en cada iteración necesita rastrear diez indicadores de diferencia relativa en proporción, no un indicador global del orden total. ${5 \choose 2} = 10$

Para sus datos, una simulación con 100,000 iteraciones da los resultados.

\begin{array}{ccccc} 5 & 4 & 3 & 2 \\ 1 & 0.02439 & 0.0003 & 0.13233 & 0.29961 \\ 2 & 0.09763 & 0.00374 & 0.29222 \\ 3 & 0.20253 & 0.00884 \\ 4 & 0.08702 \end{array}

$\begin{array}{ccccc} & 5 & 4 & 3 & 2 \cr 1 & 0.02439 & 0.0003 & 0.13233 & 0.29961 \cr 2 & 0.09763 & 0.00374 & 0.29222 & \cr 3 & 0.20253 & 0.00884 & & \cr 4 & 0.08702 & & & \end{array}$

Es poco probable que las diferencias en las proporciones entre el método 4 y los métodos 1, 2 y 3 se deban al azar (con probabilidades estimadas de 0.03%, 0.37%, 0.88%, respectivamente), pero las otras diferencias podrían serlo. Existe alguna evidencia (p = 2.44%) de una diferencia entre los métodos 1 y 5. Por lo tanto, parece que puede confiar en que las diferencias en las proporciones involucradas en las relaciones 4> 3, 4> 2 y 4> 1 son todas positivas , y lo más probable es que sea la diferencia en 5> 1.

— whuber
fuente

1

¡Esa es una respuesta mucho mejor que la mía! No pude leer la pregunta correctamente, me temo (Paso 3 en particular). Pensé en eliminar mi respuesta, pero mantengo la mayor interpretabilidad de un enfoque bayesiano porque es realmente el ranking lo que interesa.

— parada el

Solo para asegurarme de que entiendo correctamente: el indicador que rastrea la diferencia relativa entre los métodos 4 y 5 se actualizará cada vez que veamos una diferencia que sea mayor que 0.21.

— sxv

@sxv Sí, eso es correcto. (Bueno, en realidad usé mayor o igual. Los lazos suceden. Creo que incluir la igualdad entre los resultados significativos es lo correcto, porque estamos evaluando la probabilidad de que puedan ocurrir diferencias tan grandes o más grandes por casualidad)

— whuber

1

Su procedimiento de prueba de permutación Monte-Carlo sugerido producirá un valor p para una prueba de la hipótesis nula de que la probabilidad de éxito es la misma para todos los métodos. Pero hay pocas razones para hacer una prueba de permutación de Monte Carlo aquí cuando la prueba de permutación exacta correspondiente es perfectamente factible. Esa es la prueba exacta de Fisher (bueno, algunas personas reservan ese nombre para tablas de 2x2, en cuyo caso es una prueba exacta condicional). Acabo de escribir sus datos en Stata y -tabi ..., exacto- dio p = .0067 (en comparación, la prueba de chi cuadrado de Pearson da p = .0059). Estoy seguro de que hay una función equivalente en R que los gurús de R pronto agregarán.

Si realmente desea ver la clasificación, puede ser mejor utilizando un enfoque bayesiano, ya que puede dar una interpretación simple como la probabilidad de que cada método sea realmente el mejor, el segundo mejor, el tercer mejor ... Eso tiene el precio de exigirle que ponga prioridades en sus probabilidades, por supuesto. La estimación de máxima probabilidad de los rangos es simplemente el orden observado, pero es difícil cuantificar la incertidumbre en la clasificación en un marco frecuentista de una manera que pueda interpretarse fácilmente, hasta donde yo sé.

Me doy cuenta de que no he mencionado comparaciones múltiples, pero simplemente no veo cómo eso llega a esto.

— una parada
fuente

2

La prueba exacta de Fisher y los chi-cuadrados de Pearson prueban la hipótesis nula de que los 5 métodos son igualmente efectivos contra la alternativa de que al menos 1 es mejor que los otros. Los valores p me dicen que se rechaza el nulo. Entonces, si quiero averiguar qué métodos son realmente mejores que los demás, ¿no tendré que hacer 10 comparaciones por pares?

— sxv