De Modern Epidemiology 3rd Edition por Rothman, Groenlandia y Lash:
Hay al menos tres formas de coincidencia excesiva. El primero se refiere al emparejamiento que perjudica la eficiencia estadística, como el emparejamiento de casos y controles en una variable asociada con la exposición pero no con la enfermedad. El segundo se refiere al emparejamiento que perjudica la validez, como el emparejamiento en un intermedio entre la exposición y la enfermedad. El tercero se refiere a la correspondencia que perjudica la rentabilidad.
La respuesta de AndyW es acerca de la segunda forma de coincidencia excesiva. Brevemente, así es como funcionan todos:
1: Para ser un factor de confusión, uno de los criterios es que la covariable se asocie tanto con el resultado como con la exposición. Si solo está asociado con uno de ellos, no es un factor de confusión, y todo lo que ha logrado hacer es ampliar su intervalo de confianza.
Para explorar más a fondo este tipo de coincidencia, considere un estudio de casos y controles coincidentes de una exposición binaria, con un control correspondiente a cada caso en uno o más factores de confusión. Cada estrato en el análisis consistirá en un caso y un control a menos que se puedan combinar algunos estratos. Si el caso y su control coincidente están expuestos o ambos no expuestos, un margen de la tabla 2 x 2 será 0 ... ese par de sujetos no aportará ninguna información al análisis. Si uno estratifica en correlatos de exposición, aumentará la posibilidad de que tales tablas ocurran y, por lo tanto, tenderá a aumentar la información perdida en el análisis estratificado.
2: Esto es parcialmente discutido por AndyW. Emparejar en un factor intermedio sesgará su estimación, al igual que emparejar en algo afectado tanto por la exposición como por el resultado. Esto es esencialmente controlar un colisionador, y cualquier técnica que lo haga sesgará su estimación.
Sin embargo, si el factor de coincidencia potencial se ve afectado por la exposición y el factor a su vez afecta la enfermedad (es decir, es una variable intermedia), o se ve afectado tanto por la exposición como por la enfermedad, entonces la coincidencia en el factor sesgará tanto el efecto bruto como el ajustado estimados. En estas situaciones, la coincidencia de casos y controles no es más que una forma irreparable de sesgo de selección.
3: Esto es más un problema de diseño del estudio. La coincidencia extensa en variables con las que no necesita coincidir por las razones 1 y 2 puede hacer que rechace los controles fácilmente obtenidos (amigos, familiares, redes sociales cercanas, etc.) en favor de controles mucho más difíciles de obtener que se pueden combinar en el conjunto innecesario de covariables. Eso cuesta dinero: dinero que podría haberse gastado en más sujetos, una mejor exposición o la detección de enfermedades, etc., sin un aumento apreciable en el sesgo o la precisión, y de hecho haber amenazado a ambos.