Estoy interesado en vincular registros en 2 conjuntos de datos por nombre, apellido y año de nacimiento. ¿Podría esto ser factible con el algoritmo EM, y si es así, cómo?
Considere el siguiente registro en el 1er como ejemplo: Carl McCarthy, 1967. Buscaré en todos los registros del segundo conjunto de datos y asignaré una distancia jaro-winkler entre el primer nombre y Carl y una distancia jaro-winkler entre el apellido y McCarthy. Estas distancias son probabilísticas al igual que la distancia entre los años de nacimiento. Combinamos esas 3 probabilidades (multiplicar? Promedio?) En 1.
Ahora viene la parte de la regla de decisión. Clasifiquemos todas las probabilidades de mayor a menor. Primero, queremos P (primer hit es match)> = umbral. En segundo lugar, también queremos P (primer hit es match) / P (segundo hit es match)> = umbral si P (el segundo hit es match) existe. Tercero, queremos que el primer hit en este segundo conjunto de datos coincida con no más de 1 persona en el primer conjunto de datos con Carl McCarthy, 1967.
¿Cómo se pueden determinar estos umbrales?
Prefiero enfoques en Stata y / o Perl.
Ver, por ejemplo:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(Aunque con eso, todavía no sigo completamente el por qué o cómo, y cuáles son las entradas y salidas, así como los supuestos y cuán restrictivos son).