En [1, §3.2], David Freedman sugiere una respuesta esencialmente negativa a su pregunta. Es decir, ningún (mero) modelo estadístico o algoritmo podría resolver el problema de John Snow. El problema de Snow era desarrollar un argumento crítico que apoyara su teoría de que el cólera es una enfermedad infecciosa transmitida por el agua, contra la teoría del miasma prevaleciente de su época. (El Capítulo 3 en [1], titulado “Modelos estadísticos y cuero de calzado” también está disponible en forma publicada anteriormente [2] aquí ).
En estas pocas páginas cortas [1, pp.47–53], gran parte de las cuales es una cita extendida del propio John Snow, Freedman argumenta que "lo que Snow realmente hizo en 1853-1854 es aún más interesante que la fábula [de The Broad Street Pump] ". En cuanto a la clasificación de la evidencia estadística (se discuten otros preliminares como la identificación de casos índice, etc.), Snow explotó la variación natural para efectuar un cuasi-experimento verdaderamente notable.
Resulta que en un momento anterior, había una fuerte competencia entre las compañías de suministro de agua en Londres, y esto resultó en una mezcla espacial del suministro de agua que era (en palabras de Snow) "del tipo más íntimo".
Las tuberías de cada compañía bajan por todas las calles y llegan a casi todos los tribunales y callejones. Algunas casas son suministradas por una compañía y otras por la otra, de acuerdo con la decisión del propietario u ocupante en ese momento cuando las compañías de agua estaban en competencia activa.
...
Como no hay ninguna diferencia en las casas o en las personas que reciben el suministro de las dos compañías de agua, o en cualquiera de las condiciones físicas con las que están rodeadas, es obvio que no se podría haber ideado ningún experimento que pudiera probar más a fondo Efecto del suministro de agua sobre el progreso del cólera que esto, que las circunstancias colocan listo ante el observador.
John Snow
Otro poco de importancia crítica de la 'variación natural', John Snow, explotado en este cuasi-experimento fue que una compañía de agua tuvo su consumo de agua en el Támesis aguas abajo de las descargas de aguas residuales , mientras que el otro tenía unos pocos años antes trasladó su ingesta de aguas arriba . ¡Te dejaré adivinar cuál era cuál de la tabla de datos de John Snow!
El | Número de | Cólera | Muertes por
Empresa | casas | muertes | 10,000 casas
-------------------------------------------------- --------
Southwark y Vauxhall | 40,046 | 1263 315
Lambeth 26,107 | 98 37
Resto de Londres | 256,423 | 1422 59
Como Freedman señala, fulminante,
Como una pieza de tecnología estadística, [la tabla anterior] no es de ninguna manera notable. Pero la historia que cuenta es muy persuasiva. La fuerza del argumento resulta de la claridad del razonamiento previo, la reunión de muchas líneas diferentes de evidencia y la cantidad de cuero de zapatos que Snow estaba dispuesto a usar para obtener los datos. [1, p.51]
Otro punto de variación natural explotado por Snow ocurrió en la dimensión del tiempo : la reubicación de la toma de agua mencionada anteriormente ocurrió entre dos epidemias, lo que permitió a Snow comparar el agua de la misma compañía con y sin alcantarillado adicional. (Gracias a Philip B. Stark, un autor de [1], por esta información a través de Twitter . Vea esta conferencia en línea suya).
Este asunto también proporciona un estudio instructivo en el contraste entre deductivismo e inductivismo , como se discute en esta respuesta .
Freedman D, Collier D, Sekhon JS, Stark PB. Modelos estadísticos e inferencia causal: un diálogo con las ciencias sociales. Cambridge; Nueva York: Cambridge University Press; 2010
Freedman DA. Modelos estadísticos y calzado de cuero. Metodología Sociológica . 1991; 21: 291-313. doi: 10.2307 / 270939. Texto completo