Hay algunos enfoques que funcionarían mejor para algunos idiomas que para otros. Por ejemplo, soundex (y otra descripción que me gusta ) fue diseñado para pronunciaciones de nombres en inglés. Con soundex, se Michael
convierte en M240. Esto tiene varios pasos:
- La primera letra está aislada. (
M
y ichael
)
- Todas las vocales se eliminan del resto (
M
y chl
)
- Las consonantes son reemplazadas
- Almohadilla izquierda ceros.
La agrupación de las conversiones de consonantes están basados en su similitud fonética - B
, F
, P
y V
toda mapa para 1
.
Y hay variaciones en esto con el tiempo . Es particularmente útil en genealogía donde la ortografía de un nombre puede cambiar con el tiempo, pero la pronunciación sigue siendo similar.
También hay enfoques como la clasificación de coincidencias que fue desarrollada por las aerolíneas para los nombres (en lugar de la genealogía estadounidense).
La codificación del enfoque de calificación de coincidencia (MRA) es:
- Eliminar todas las vocales no principales (se
Michael
convierte Mchl
y se Anthony
convierte Anthny
)
- Elimina la segunda constante de cualquier doble
- Si la cadena tiene más de 6 caracteres, reduzca la cadena restante a 6 caracteres tomando los primeros tres y los últimos tres.
La especificación completa para esto se puede encontrar en archive.org : tenga en cuenta que "no es pequeña" (el formulario impreso tiene 214 páginas).
Las comparaciones tienen un umbral coincidente en función de la longitud del texto.
También hay otros algoritmos fonéticos .
Entonces, lo que le animo a hacer es tomar el índice de sonido tal cual, tomar el enfoque de calificación de partido tal como está o modificar el índice de sonido según las consonantes rumanas y las consonantes polacas .
Recuerde que con soundex, las consonantes se agrupan (en polaco, m
, n
, ɲ
están todas las consonantes nasales a agruparse, y que probablemente grupo de las oclusivas labiales, dentales y alveolares - ya sean sin voz o voz juntos - sentado, no lo hago sé polaco, así que no sé si solo digo cosas que no son ciertas allí).
Luego, simplemente convierta todos los nombres en la base de datos a los dos sistemas de índice de sonido diferentes y descubra qué nombres tienen el conjunto más bajo de colisiones en los diferentes idiomas. Esto te da nombres distintos. Entonces eso Smith
no aparece como Smyth
.
Esto, sin embargo, solo resuelve el "nombre que probablemente colisionará con otros nombres y que se lo escuche mal". No aborda la otra forma del "nombre escuchado correctamente, escrito incorrectamente" y para eso, uno debe enfocar su atención en nombres comunes.
Por ejemplo, Michael
era un nombre muy común en los EE. UU. Desde principios de 1950 hasta finales de 1970. Fue realmente popular . Sin embargo, por alguna razón, el nombre Micheal
era bastante popular en la década de 1950 (llegó al 83o nombre más común en su apogeo). Y estoy seguro de que las personas nombradas Micheal
constantemente escriben mal su nombre.
Por lo tanto, debe centrarse en los nombres donde hay un nombre que domina la popularidad del nombre para una pronunciación dada. Echando un vistazo a otro consumidor de datos de los nombres por año, se puede ver que los nombres que empiezan con mermelada ... para un niño son un lío con Jamaal
, Jamal
, Jamar
y otros. Por cierto, estos nombres tienen índices de sonido ligeramente diferentes para los estadounidenses ( J540
, J540
y J560
- the l
y r
están en diferentes grupos a pesar de que están estrechamente relacionados en fonética). Sin embargo, para alguien de, digamos Japón, solo hay un sonido en la región fonética donde l
yr
se pronuncian en inglés americano. Esto también puede plantear un desafío con las consonantes principales que usan el índice de sonido que uno debe tener en cuenta (una vez trabajé con una mujer japonesa que se hacía llamar Risa (con una 'R') en lugar de Lisa como una romanización de su nombre japonés).
Notarás que mis ejemplos son para los Estados Unidos. Esa información es fácilmente accesible. Aparentemente, hay algunas cosas para Polonia y Húngaro , y solo insinúa el nombre común en húngaro ... Sospecho que buscar en un idioma que no sea inglés podría ser útil allí.
Entonces, dado el índice de sonido para un nombre, pocas colisiones y la ortografía real está en el conjunto de colisiones. Preferiblemente, este es un nombre común. Mirando esa lista húngara, seguir con Krisztián
probablemente obtendría errores ortográficos, mientras que es Zoltán
menos probable (¡el nombre de bebé # 22 más común en 2011 en Hungría!). Dicho esto, no te puedes equivocar Michael
.