¿Es la visualización del tamaño del efecto binomial (BESD) una representación engañosa del tamaño del efecto?

10

Es difícil para mí aceptar que Donald Rubin alguna vez inventará una verdadera técnica. Sin embargo, esa es mi percepción del BESD [ 1 , 2 , 3 ].

El artículo original de Rosenthal y Rubin (1982) afirmaba que era valioso mostrar "cómo reestructurar cualquier correlación de momento de producto en una visualización [2x2], ya sea que los datos originales sean continuos o categóricos".

La siguiente tabla es de p. 451 del segundo enlace anterior:

ingrese la descripción de la imagen aquí

Esta técnica parece exagerar la magnitud de casi cualquier tamaño de efecto. Aquí, de los datos originales = .01, pero cuando se "traduce" a una tabla de contingencia 2x2, parece que nos enfrentamos a un efecto mucho más fuerte. No niego que, cuando los datos se vuelven a transmitir en formato categórico de esta manera, hecho = .1, pero siento que algo se ha distorsionado mucho en la traducción. $R^2$ $\phi$

¿Me estoy perdiendo algo realmente valioso aquí? Además, tengo la impresión de que en los últimos 10 años más o menos la comunidad estadística ha rechazado en gran medida esto como un método legítimo. ¿Me equivoco al respecto?

La ecuación para calcular las tasas de éxito ( ) experimentales ( ) y de control ( ), respectivamente, es simplemente: $E$ $C$ $sr$

$E_{sr} = .50 + r/2$

y

$C_{sr} = .50 - r/2$

Referencia:

Rosenthal, R. y Rubin, DB (1982). Una simple exhibición de propósito general de la magnitud del efecto experimental. Revista de Psicología Educativa, 74 , 166-169.

interpretation effect-size

— rolando2
fuente

¿Alguna vez has encontrado una respuesta para esto? Actualmente estoy haciendo algunas cosas de simulación para ver si está sesgado, pero se calcula directamente desde , por lo que no obtengo ningún sesgo en la estimación puntual del BESD. También tengo el presentimiento de que esto sobreestima los efectos, pero tampoco puedo entender por qué.

r

$r$

— Mark White

Tus buenas ideas han sido el único comentario o respuesta que he visto.

— rolando2

2

No lo he leído, pero esto parece muy pertinente: Hsu, LM (2004). Sesgos de las diferencias de tasa de éxito que se muestran en las pantallas de tamaño del efecto binomial. Métodos psicológicos, 9 (2), 183-197. Algunas críticas también se discuten en: Randolph, JJ y Edmondson, RS (2005). Uso de la visualización del tamaño del efecto binomial (BESD) para presentar la magnitud de los tamaños del efecto a la audiencia de evaluación. Evaluación práctica, investigación y evaluación, 10 (14).

— Wolfgang

4

Puedo demostrar que es parcial (creo), pero no puedo explicar por qué. Espero que alguien pueda ver mi respuesta y ayudar a explicarla más.

Como en muchos metanálisis y la imagen que publicó, muchas personas interpretan el BESD como: Si dividiera ambas variables, colocaría con precisión a las personas en las celdas "correctas" de una tabla de contingencia 2 x 2, un porcentaje dado de el tiempo.

Entonces, si , la gente podría decir: "Dada esta observada , puedes pensarlo así: las personas que están por encima de la mediana en X también estarían por encima de la mediana en Y el 70% del tiempo. " Así es como Kraus (1995, p. 69) lo interpreta (se basa en una situación hipotética en la que una variable es verdaderamente dicotómica, mientras que la otra es una división mediana): $.50 + r/2 = .70$ $r$

Las personas han utilizado a menudo metáforas médicas, también: "Este corresponde a una diferencia de 40 puntos porcentuales entre las personas en un control y condición experimental." $r$

Para ver si la interpretación de esqueleto dividido en mediana es sesgada, simulé una población de 1,000,000 de casos donde la población verdadera . Luego dibujé a 100 personas de esta población, calculé la "tasa correcta" de BESD (es decir, ), y luego calculé las celdas divididas medianas reales para una tabla de contingencia 2 x 2, como la descrita anteriormente para categorizar personas "correctamente". Hice esto 10,000 veces. $r = .38$ $.50 + r/2$

Luego tomé la media y la desviación estándar de cada uno de estos vectores de 10,000 de longitud. El código:

library(MASS)
# set population params
mu <- rep(0,2)
Sigma <- matrix(.38, nrow=2, ncol=2) + diag(2)*.62
# set seed
set.seed(1839)
# generate population
pop <- as.data.frame(mvrnorm(n=1000000, mu=mu, Sigma=Sigma))
# initialize vectors
besd_correct <- c()
actual_correct <- c()
# actually break up raw data by median split, see how it works
for (i in 1:10000) {
  samp <- pop[sample(1:1000000, 100),]
  besd_correct[i] <- round(100*(.50 + cor(samp)[1,2]/2),0)
  samp$V1_split <- ifelse(samp$V1 > median(samp$V1), 1, 0)
  samp$V2_split <- ifelse(samp$V2 > median(samp$V2), 1, 0)
  actual_correct[i] <- with(samp, table(V1_split==V2_split))[[2]]
}
# cells for BESD
mean(besd_correct)
100 - mean(besd_correct)
# cells for actual 2 x 2 table with median split
mean(actual_correct)
100 - mean(actual_correct)

Basado en BESD, obtenemos esta tabla, donde v1y nos v2referimos a variables lowy nos highreferimos a debajo y arriba de la mediana, respectivamente:

+---------+--------+---------+
|         | v2 low | v2 high |
+---------+--------+---------+
| v1 low  | 69     | 31      |
+---------+--------+---------+
| v1 high | 31     | 69      |
+---------+--------+---------+

Basado en hacer una división mediana con los datos en bruto, obtenemos esta tabla:

+---------+--------+---------+
|         | v2 low | v2 high |
+---------+--------+---------+
| v1 low  | 62     | 38      |
+---------+--------+---------+
| v1 high | 38     | 62      |
+---------+--------+---------+

Entonces, si bien alguien podría argumentar, utilizando BESD, que hay una "diferencia de 38 puntos porcentuales en control y experimental", la división mediana real tiene este número en 24.

No estoy seguro de por qué sucede esto, o si depende del tamaño de la muestra y la correlación (uno podría hacer más simulaciones para descubrirlo), creo que esto muestra que está sesgado. Me encantaría que alguien pudiera intervenir con una explicación matemática, en lugar de computacional.

— Mark White
fuente

2

La intuición de Mark White es incorrecta. El BESD en realidad no está modelando una división mediana. Una división mediana está asociada con la pérdida real de información estadística: atenúa sistemáticamente las relaciones (consulte http://psycnet.apa.org/record/1990-24322-001), razón por la cual los valores medianos de división muestran una precisión menor que la BESD. El BESD está demostrando la precisión de la clasificación como si las variables fueran realmente dicotómicas, no dicotomizadas artificialmente a través de una división mediana. Para ver esto, calcule la correlación en la mediana de los datos divididos. Verá que es más pequeño que la correlación para las variables originales. Si las variables fueran originalmente binarias, los dos métodos estarían de acuerdo. Por su naturaleza, el BESD muestra variables como si fueran realmente binarias. Cuando se usa para variables continuas, esto necesariamente representa una abstracción: en realidad no hay grupos de "éxito" y "fracaso" o "tratamiento" y "control",

El BESD no está sesgado. Refleja con precisión el impacto de un tratamiento particular en la precisión de la clasificación si estuviéramos trabajando con dos variables binarias. Es una muestra útil para demostrar el valor práctico potencial de una medida o tratamiento, y sí, demuestra que incluso los efectos con una pequeña variación explicada por las estadísticas pueden ser significativamente importantes. El BESD se usa ampliamente en la práctica psicológica y organizativa aplicada, y está muy de acuerdo con otras visualizaciones prácticas del tamaño del efecto (p. Ej., Que seleccionar de arriba a abajo un grupo utilizando una medida con una correlación de validez de r = .25 conducirá a un .25 SD aumento en el rendimiento del resultado entre el grupo seleccionado versus un grupo no seleccionado).

La variación explicada por las estadísticas conduce constantemente a malentendidos y subestima el tamaño de las relaciones variables porque la operación de cuadratura no es lineal. Muchos metodólogos aplicados (por ejemplo, https://us.sagepub.com/en-us/nam/methods-of-meta-analysis/book240589 ) desaconsejan su uso en favor de sus raíces cuadradas (que transmiten con mayor precisión el tamaño de efectos).

— Brenton Wiernik
fuente