Hay algunos enfoques que funcionarían mejor para algunos idiomas que para otros. Por ejemplo, soundex (y otra descripción que me gusta ) fue diseñado para pronunciaciones de nombres en inglés. Con soundex, se Michaelconvierte en M240. Esto tiene varios pasos:
- La primera letra está aislada. (
My ichael)
- Todas las vocales se eliminan del resto (
My chl)
- Las consonantes son reemplazadas
- Almohadilla izquierda ceros.
La agrupación de las conversiones de consonantes están basados en su similitud fonética - B, F, Py Vtoda mapa para 1.
Y hay variaciones en esto con el tiempo . Es particularmente útil en genealogía donde la ortografía de un nombre puede cambiar con el tiempo, pero la pronunciación sigue siendo similar.
También hay enfoques como la clasificación de coincidencias que fue desarrollada por las aerolíneas para los nombres (en lugar de la genealogía estadounidense).
La codificación del enfoque de calificación de coincidencia (MRA) es:
- Eliminar todas las vocales no principales (se
Michaelconvierte Mchly se Anthonyconvierte Anthny)
- Elimina la segunda constante de cualquier doble
- Si la cadena tiene más de 6 caracteres, reduzca la cadena restante a 6 caracteres tomando los primeros tres y los últimos tres.
La especificación completa para esto se puede encontrar en archive.org : tenga en cuenta que "no es pequeña" (el formulario impreso tiene 214 páginas).
Las comparaciones tienen un umbral coincidente en función de la longitud del texto.
También hay otros algoritmos fonéticos .
Entonces, lo que le animo a hacer es tomar el índice de sonido tal cual, tomar el enfoque de calificación de partido tal como está o modificar el índice de sonido según las consonantes rumanas y las consonantes polacas .
Recuerde que con soundex, las consonantes se agrupan (en polaco, m, n, ɲestán todas las consonantes nasales a agruparse, y que probablemente grupo de las oclusivas labiales, dentales y alveolares - ya sean sin voz o voz juntos - sentado, no lo hago sé polaco, así que no sé si solo digo cosas que no son ciertas allí).
Luego, simplemente convierta todos los nombres en la base de datos a los dos sistemas de índice de sonido diferentes y descubra qué nombres tienen el conjunto más bajo de colisiones en los diferentes idiomas. Esto te da nombres distintos. Entonces eso Smithno aparece como Smyth.
Esto, sin embargo, solo resuelve el "nombre que probablemente colisionará con otros nombres y que se lo escuche mal". No aborda la otra forma del "nombre escuchado correctamente, escrito incorrectamente" y para eso, uno debe enfocar su atención en nombres comunes.
Por ejemplo, Michaelera un nombre muy común en los EE. UU. Desde principios de 1950 hasta finales de 1970. Fue realmente popular . Sin embargo, por alguna razón, el nombre Michealera bastante popular en la década de 1950 (llegó al 83o nombre más común en su apogeo). Y estoy seguro de que las personas nombradas Michealconstantemente escriben mal su nombre.
Por lo tanto, debe centrarse en los nombres donde hay un nombre que domina la popularidad del nombre para una pronunciación dada. Echando un vistazo a otro consumidor de datos de los nombres por año, se puede ver que los nombres que empiezan con mermelada ... para un niño son un lío con Jamaal, Jamal, Jamary otros. Por cierto, estos nombres tienen índices de sonido ligeramente diferentes para los estadounidenses ( J540, J540y J560- the ly restán en diferentes grupos a pesar de que están estrechamente relacionados en fonética). Sin embargo, para alguien de, digamos Japón, solo hay un sonido en la región fonética donde lyrse pronuncian en inglés americano. Esto también puede plantear un desafío con las consonantes principales que usan el índice de sonido que uno debe tener en cuenta (una vez trabajé con una mujer japonesa que se hacía llamar Risa (con una 'R') en lugar de Lisa como una romanización de su nombre japonés).
Notarás que mis ejemplos son para los Estados Unidos. Esa información es fácilmente accesible. Aparentemente, hay algunas cosas para Polonia y Húngaro , y solo insinúa el nombre común en húngaro ... Sospecho que buscar en un idioma que no sea inglés podría ser útil allí.
Entonces, dado el índice de sonido para un nombre, pocas colisiones y la ortografía real está en el conjunto de colisiones. Preferiblemente, este es un nombre común. Mirando esa lista húngara, seguir con Krisztiánprobablemente obtendría errores ortográficos, mientras que es Zoltánmenos probable (¡el nombre de bebé # 22 más común en 2011 en Hungría!). Dicho esto, no te puedes equivocar Michael.