¿Sesgo en la selección del jurado?


14

Un amigo representa a un cliente en una apelación, después de un juicio penal en el que parece que la selección del jurado fue racialmente parcial.

El jurado estuvo formado por 30 personas, en 4 grupos raciales. La fiscalía utilizó desafíos perentorios para eliminar a 10 de estas personas del grupo. El número de personas y el número de desafíos reales en cada grupo racial fueron, respectivamente:

A: 10, 1
B: 10, 4
C:  6, 4
D:  4, 1
total: 30 in pool, 10 challenges

El acusado era del grupo racial C y las víctimas de los grupos raciales A y D, por lo que la preocupación a priori es si el grupo C tiene un desafío excesivo y los grupos A y D no. Legalmente (IIUC; IANAL), la defensa no necesita demostrar un sesgo racial, sino simplemente demostrar que los datos parecen indicar un sesgo, lo que luego pone la carga sobre la acusación para explicar cada desafío de manera no racial.

¿Es correcto el siguiente análisis en su enfoque? (Creo que los cálculos están bien):

Hay nCr (30,10) = 30,045,015 conjuntos distintos de 10 miembros del grupo. De estos conjuntos distintos, cuento que 433,377 conjuntos incluyen tanto (no más de 2 miembros del grupo A y D combinados) como (no menos de 4 miembros del grupo C).

Por lo tanto, la probabilidad de alcanzar el nivel observado de sesgo aparente que favorece a los grupos A y D sobre el grupo C (donde favorecer significa no incluir en el conjunto de 10 desafíos) sería la proporción de estos, 433/30045 = 1.44%.

Por lo tanto, la hipótesis nula (sin dicho sesgo) se rechaza al nivel de significancia del 5%.

Si este análisis es metodológicamente correcto, ¿cuál sería la forma más sucinta de describirlo ante un tribunal, incluida una referencia académica / profesional (es decir, no Wikipedia)? Si bien el argumento parece simple, ¿cómo se puede demostrar de manera más clara y sucinta a la corte que es correcto, no travesuras?


Actualización: esta pregunta fue considerada como un argumento terciario en un escrito de apelación. Dada la complejidad técnica (desde el punto de vista del abogado) de la discusión aquí y la aparente falta de precedentes legales, el abogado ha optado por no plantearlo, por lo que en este punto la pregunta es principalmente teórica / educativa.

Para responder a un detalle: creo que el número de desafíos, 10, se estableció de antemano.

Después de estudiar las respuestas y comentarios reflexivos y desafiantes (¡gracias, todos!), Parece que aquí hay 4 problemas separados. Para mí, al menos, sería más útil considerarlos por separado (o escuchar argumentos por los que no son separables).

1) ¿La consideración de las razas tanto del acusado como de las víctimas, en los desafíos del grupo de jurado, es una preocupación legal a priori ? El objetivo del argumento de la apelación sería simplemente plantear una preocupación razonable, lo que podría llevar a una orden judicial de que la fiscalía indique el motivo de cada impugnación individual. Esto no me parece una pregunta estadística, sino una cuestión social / legal, que es a discreción del abogado plantear o no.

2) Suponiendo (1), ¿es mi elección de una hipótesis alternativa (cualitativamente: sesgo contra los miembros del jurado que comparten la raza del acusado, a favor de aquellos que comparten las razas de las víctimas) plausible, o es inadmisiblemente post hoc ? Desde mi punto de vista laico, esta es la pregunta más desconcertante: sí, por supuesto, ¡uno no la plantearía si no la observara! El problema, según tengo entendido, es el sesgo de selección: las pruebas de uno deberían considerar no solo este grupo de jurados sino el universo de todos esos grupos de jurados, incluidos todos aquellos en los que la defensa no observó una discrepancia y, por lo tanto, no se sintió tentado a plantear el problema . ¿Cómo se aborda esto? (Por ejemplo, ¿cómo aborda esto la prueba de Andy?) Parece, aunque puedo estar equivocado sobre esto, que la mayoría de los encuestados no están preocupados por un potencial post-hocPruebas de 1 cola para sesgos únicamente contra el grupo del acusado. ¿Cómo sería metodológicamente diferente probar simultáneamente el sesgo para los grupos de víctimas, suponiendo (1)?

3) Si se estipula mi elección de una hipótesis alternativa cualitativa como se indica en (2), ¿cuál es una estadística apropiada para probarla? Aquí es donde estoy más perplejo por las respuestas, porque la proporción que propongo parece ser un análogo un poco más conservador de la prueba de Andy para la hipótesis alternativa más simple de "sesgo contra C" (más conservadora porque mi prueba también cuenta todos los casos más allá) en la cola, no solo el recuento exacto observado).

Ambas pruebas son pruebas de conteo simples, con el mismo denominador (mismo universo de muestras), y con numeradores que corresponden precisamente a la frecuencia de esas muestras que corresponden a las hipótesis alternativas respectivas. Entonces, @whuber, ¿por qué no es idéntico tanto para mi prueba de conteo como para Andy que "puede basarse en hipótesis nulas [iguales] y alternativas [como se describe] estipuladas y justificarse usando el lema de Neyman-Pearson"?

4) Si se estipulan (2) y (3), ¿hay referencias en la jurisprudencia que convencerían a un tribunal de apelaciones escéptico? De la evidencia hasta la fecha, probablemente no. Además, en esta etapa de la apelación no hay oportunidad para ningún "testigo experto", por lo que las referencias lo son todo.


Pregunta actualizada (anexada) después de estudiar respuestas y comentarios.
JD Marzo

Gracias por un excelente resumen! Para responder al punto (3), mi preocupación es que su prueba (si la entiendo correctamente) adopta una hipótesis alternativa motivada por los datos mismos. Por lo tanto, parece haber sido construido a posteriori para que los resultados parezcan lo más sólidos posible. Una prueba que se basa en la clase de alternativas relevantes más amplia posible y previsible a priori , y realizada con una región de rechazo de Neyman-Pearson, tiene una base lógica más sólida y está menos sujeta a críticas que, sin embargo, se propuso después de ver los datos.
whuber

Gracias, @whuber, es una crítica plausible y útil, mucho de lo que estaba preguntando desde el principio. ¿Pero eso no causaría que mi (2) fallara, incluso antes (3)? Si es así, entonces mi (3) parecería aún sin respuesta, es decir, ¿sería una buena estadística si se estipulara (2)?
JD marzo

Respuestas:


7

Así es como podría abordar la respuesta a su pregunta utilizando herramientas estadísticas estándar.

A continuación se presentan los resultados de un análisis probit sobre la probabilidad de ser rechazado dada la membresía del grupo del jurado.

Primero, así es como se ven los datos. Tengo 30 observaciones de grupo y un indicador binario rechazado:

. tab group rejected 

           |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
         A |         9          1 |        10 
         B |         6          4 |        10 
         C |         2          4 |         6 
         D |         3          1 |         4 
-----------+----------------------+----------
     Total |        20         10 |        30 

Aquí están los efectos marginales individuales, así como la prueba conjunta:

. qui probit rejected ib2.group

. margins rb2.group

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
       group |
   (A vs B)  |          1        2.73     0.0986
   (C vs B)  |          1        1.17     0.2804
   (D vs B)  |          1        0.32     0.5731
      Joint  |          3        8.12     0.0436
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       group |
   (A vs B)  |        -.3    .181659     -.6560451    .0560451
   (C vs B)  |   .2666667   .2470567     -.2175557     .750889
   (D vs B)  |       -.15   .2662236     -.6717886    .3717886
--------------------------------------------------------------

Aquí estamos probando las hipótesis individuales de que las diferencias en la probabilidad de ser rechazado para los grupos A, C y D en comparación con el grupo B son cero. Si todos fueran tan propensos a ser rechazados como el grupo B, estos serían cero. El último resultado nos dice que los miembros del grupo A y D tienen menos probabilidades de ser rechazados, mientras que los miembros del grupo C tienen más probabilidades de ser rechazados. Estas diferencias no son estadísticamente significativas individualmente, aunque los signos concuerdan con su conjetura de sesgo.

Sin embargo, podemos rechazar la hipótesis conjunta de que las tres diferencias son todas cero en .p=0.0436


Apéndice:

Si combino los grupos A y D en uno, ya que comparten las razas de las víctimas, los resultados probit se fortalecen y tienen una buena simetría:

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
      group2 |
 (A+D vs B)  |          1        2.02     0.1553
   (C vs B)  |          1        1.17     0.2804
      Joint  |          2        6.79     0.0336
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
      group2 |
 (A+D vs B)  |  -.2571429   .1809595      -.611817    .0975313
   (C vs B)  |   .2666667   .2470568     -.2175557     .750889
--------------------------------------------------------------

Esto también permite que el exacto de Fisher dé resultados congruentes (aunque todavía no al 5%):

 RECODE of |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
       A+D |        12          2 |        14 
         B |         6          4 |        10 
         C |         2          4 |         6 
-----------+----------------------+----------
     Total |        20         10 |        30 

          Pearson chi2(2) =   5.4857   Pr = 0.064
           Fisher's exact =                 0.060

¡Gracias, de verdad! ¿Podría ayudarme a comprender los problemas metodológicos aquí? En particular, (1) las pruebas de comparación no dirigidas (IIUC) a pesar de las particularidades de la preocupación a priori , y (2) las razones para usar una prueba que hace suposiciones de distribución en lugar de solo argumentos combinatorios?
JD Marzo

No estoy seguro de entender (1). Para (2), obtengo resultados muy similares con un modelo logit, que realiza diferentes supuestos de distribución, por lo que hay algo de robustez. No hay suficientes datos para hacer algo menos paramétrico, aunque esa puede ser mi propia ignorancia en esta área.
Dimitriy V. Masterov

1
Re (1). Lo que quiero decir es que parece que su prueba es de 2 colas, mientras que la preocupación a priori permitiría 1 cola.
JD Marzo

1
Un aspecto de este análisis que me inquieta es que su importancia aparente (al nivel del 5%, de todos modos) se debe no solo a los desafíos que ocurren en el grupo C sino también a la escasez relativa de desafíos en el grupo A. Esto último parecería ser irrelevante: ¿se habría sospechado a priori ? El papel favorecido del grupo C es evidente (al coincidir con el grupo del demandado), pero un papel favorecido para cualquier otro grupo, o incluso de desigualdades (hipotéticamente) obvias entre los otros grupos, parecería no tener ninguna relación con el reclamo del acusado de discriminación contra ellos basada en su grupo .
whuber

Por cierto, parece que realizó un análisis del grupo B en lugar del grupo C.
whuber

3

Creo que la introducción de un método estadístico ad hoc va a ser imposible con el tribunal. Es mejor utilizar métodos que son "práctica estándar". De lo contrario, probablemente pueda probar sus calificaciones para desarrollar nuevos métodos.

Para ser más explícito, no creo que su método cumpla con el estándar Daubert. También dudo mucho que su método tenga alguna referencia académica en sí misma. Probablemente tendría que tomar la ruta de contratar a un testigo experto en estadística para presentarlo. Sería fácilmente contrarrestado, creo.

La pregunta básica aquí es probable: "¿Fue el desafío del jurado independiente de la agrupación racial?"

χ2

> M <- as.table(cbind(c(9, 6, 2, 3), c(1, 4, 4, 1)))
> dimnames(M) <- list(Group=c("A", "B", "C", "D"), Challenged=c("No", "Yes"))
> M
     Challenged
Group No Yes
    A  9   1
    B  6   4
    C  2   4
    D  3   1

> chisq.test(M)

        Pearson's Chi-squared test

data:  M
X-squared = 5.775, df = 3, p-value = 0.1231

Warning message:
In chisq.test(M) : Chi-squared approximation may be incorrect

El uso de la prueba exacta de Fisher da resultados similares:

> fisher.test(M)

        Fisher's Exact Test for Count Data

data:  M
p-value = 0.1167
alternative hypothesis: two.sided

La nota sobre la hipótesis de ser bilateral se aplica al caso de un 2×2

Mi interpretación es que no hay mucha evidencia para argumentar sesgos raciales.


1
χ2

Gracias, @jvbraun, su punto de vista sobre los métodos ad hoc como no ir parece convincente; aunque contar y dividir no me parece particularmente excéntrico, ¡claramente otros no lo encuentran convincente!
JD Marzo

Este es en realidad uno de los casos en los que los márgenes son fijos, por lo que la prueba exacta de Fisher debería ser más aceptable para muchos. En su discusión sobre Daubert lo tiene un poco al revés, una vez que llama a un experto, está sujeto a un movimiento de Daubert. (Irónicamente, algunos han argumentado que los laicos que presentan estadísticas no están sujetos a tales evaluaciones dictadas por la Regla 702). En mi opinión, todos los argumentos presentados aquí están bien articulados y es poco probable que se declare inadmisible. Dudo que alguna de estas técnicas estadísticas tenga jurisprudencia en estas circunstancias particulares.
Andy W

χ2

χ22/24/6

3

Hice una pregunta similar anteriormente (para referencia aquí es el caso particular que discuto). La defensa necesita simplemente mostrar un caso prima facia de discriminación en los desafíos de Batson (asumiendo el derecho penal de los Estados Unidos), por lo que las pruebas de hipótesis son probablemente una carga mayor de la necesaria.

Entonces para:

  • n=30 personas en el panel de venire
  • p=6
  • k=4
  • d=10

La respuesta anterior de Whuber da la probabilidad de que este resultado particular sea dictado por la distribución hipergeométrica :

(pk)(npdk)(nd)

Lo que Wolfram-Alpha dice es igual en este caso:

(64)(306104)(3010)=7611310.07

Desafortunadamente, no tengo una referencia además de los enlaces que he proporcionado. Me imagino que puede desenterrar una referencia adecuada para la distribución hipergeométrica desde la página de Wikipedia.

Esto ignora la pregunta sobre si los grupos raciales A y D están "poco desafiados". Soy escéptico de que puedas argumentar legalmente sobre esto: sería un giro extraño en la cláusula de igualdad de protección. ¡ Este grupo en particular está demasiado protegido! , que no creo que volaría. (No soy abogado, así que tómalo con un grano de sal).

(3010)χ2


He actualizado algunos de mis pensamientos en una publicación de blog . Mi publicación es específica para Batson Challenges, por lo que no está claro si buscas otra situación (tus actualizaciones para 1 y 2 no tienen sentido en el contexto de Batson Challenges).

Pude encontrar un artículo relacionado (disponible en su totalidad en el enlace):

Gastwirth, JL (2005). Comentario de caso: pruebas estadísticas para el análisis de datos sobre desafíos perentorios: aclarando el estándar de prueba necesario para establecer un caso prima facie de discriminación en Johnson v. California. Ley, probabilidad y riesgo , 4 (3), 179-185.

Eso dio la misma sugerencia para usar la distribución hipergeométrica. En mi publicación de blog, muestro cómo si colapsa las categorías en dos grupos, es equivalente a la prueba exacta de Fisher.

kk=5k=6nnd (para un caso diferente) para proporcionar rangos de posibles porcentajes.

Si alguien se entera de la jurisprudencia que realmente usa esto (o cualquier otra cosa además de fracciones), estaría interesado.


1
Gracias Andy (1) Mi abogado amigo cree que es perfectamente aceptable / útil afirmar que C fue cuestionado en exceso y A impugnado en exceso. (2) Usted dice "qué estadística de prueba". Me parece confuso: ¿qué estadística de prueba estás usando cuando calculas 0.07 usando hipergeométrica? Lo que hace es calcular la probabilidad como la razón de casos sospechosos a casos totales. Del mismo modo, eso es exactamente lo que hace mi análisis, excepto definir casos sospechosos de manera más restringida que usted.
JD Marzo

@ JonathanMarch - No uso una estadística de prueba. Esta es la probabilidad de que 4 de 6 clase C sean elegidos (dadas las otras condiciones) aleatoriamente de acuerdo con la distribución hipergeométrica. Entiendo la motivación para las pruebas direccionales, pero este no es el caso habitual de la prueba t. En ese caso, tiene una distribución nula continua, por lo que para dar un valor p debe definir la alternativa como un área. No hay una necesidad implícita de hacer eso con una distribución PMF como aquí.
Andy W

1
k=5k=60.07

1
86/11317.6%

1
Jonathan, para tu beneficio te haré pasar un mal rato (como lo haría un experto en oposición). Creo que su enfoque no es válido porque utiliza una estadística ad hoc sin justificación teórica; parece construido únicamente para producir un pequeño valor p. La estadística de Andy puede basarse en hipótesis nulas y alternativas estipuladas y justificarse utilizando el lema de Neyman-Pearson. Su estadística parece estar basada en un examen post hoc de los resultados y no parece corresponder a ninguna hipótesis alternativa que se hubiera afirmado antes (es decir, independientemente) del voir dire .
whuber

0

No olvidemos el problema de las pruebas múltiples. Imagine 100 abogados defensores cada uno buscando motivos para apelar. Todos los rechazos del jurado se realizaron lanzando monedas o tirando dados para cada posible miembro del jurado. Por lo tanto, ninguno de los rechazos fue racialmente sesgado.

Cada uno de los 100 abogados ahora hace cualquier prueba estadística en la que todos ustedes estén de acuerdo. Aproximadamente cinco de esos 100 rechazarán la hipótesis nula de "imparcial" y tienen motivos para apelar.


IIUC, estarían buscando motivos para que el juez ordene un examen de los motivos de cada rechazo individual. ¿Sería realmente un problema si tal examen ocurriera en 5 de esos 100 casos?
JD marzo
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.