Es un buen ejercicio mantener puntos de vista contrarios de vez en cuando, así que permítanme comenzar ofreciendo algunas razones a favor de esta forma de pseudoaleatorización. Son, principalmente, que es poco diferente de cualquier otra forma de muestreo sistemático , como obtener muestras de medios ambientales en puntos de una cuadrícula en el campo o muestrear cualquier otro árbol en un huerto, y por lo tanto, este muestreo podría disfrutar de ventajas comparables .
La analogía aquí es perfecta: la edad se "cuadricula" por año, comenzando en un origen cero y la asignación a los grupos se alterna a lo largo de esta cuadrícula (unidimensional). Algunas ventajas de este enfoque son garantizar una dispersión amplia y uniforme de la muestra en el campo o huerto (o edades, en este caso), lo que ayuda a nivelar las influencias relacionadas con la ubicación (o el tiempo). Esto puede ser especialmente útil cuando la teoría sugiere que la ubicación es el factor predominante en la variación de la respuesta. Además, a excepción de muestras realmente pequeñas, analizar los datos como sieran una muestra aleatoria simple que introduce relativamente poco error. Además, es posible cierta aleatorización: en el campo podemos elegir aleatoriamente el origen y la orientación de la cuadrícula. En el presente caso, al menos podemos aleatorizar si los años pares son controles o sujetos de tratamiento.
Otra ventaja del muestreo cuadriculado es detectar la variación localizada. En el campo, esto sería "bolsillos" de respuestas inusuales. Estadísticamente, podemos pensar en ellas como manifestaciones de correlación espacial. En la situación actual, si existe alguna posibilidad de que un rango de edad relativamente estrecho experimente respuestas inusuales, entonces el diseño cuadriculado es una excelente opción, porque un diseño puramente aleatorio puede contener grandes brechas en las edades dentro de uno de los grupos. (Pero un mejor diseño podría ser estratificar: usar la paridad de edad para formar dos estratos analíticos y luego, independientemente dentro de cada estrato, aleatorizar a los pacientes en grupos de control y tratamiento).
Desafortunadamente, esta defensa se desmorona una vez que llegamos a un acuerdo sobre cómo se informan las edades. Los datos del censo de EE. UU. Muestran que (1) las edades autoinformadas tienden a redondearse a múltiplos de cinco (lo he visto en los análisis de datos de grupos de bloques rurales) y (2) esta tendencia se asocia con indicadores de educación inferior o nivel socioeconómico. (También es bien sabido, aunque difícil de probar, que el dígito final en muchas edades autoinformadas es , que las personas en ciertos campos de trabajo, como la actuación, tienden a reducir sus edades informadas y otras exagerarán sus edades). para varios propósitos.) Por lo tanto, al menos en un ligero grado en al menos algunas áreas de los EE. UU. (y aún más en otras partes del mundo), es probable que la paridad de la edad reportada9 9estar asociado con factores importantes para el experimento. Esto hace que la preocupación en la pregunta sea menos que hipotética: es real. En este punto, las respuestas anteriores en este hilo presentan las ideas adicionales que quisiera hacer, por lo que me detendré e invitaré a que las vuelva a leer.