¿Cómo puedo encontrar errores ortográficos comunes para mi nombre de dominio?


38

Me gustaría registrar faltas de ortografía para mi nombre de dominio, pero no quiero registrar especulativamente un trillón de "solo adivinando" formularios. Por ejemplo, esta herramienta ofrece las siguientes opciones en un generador de errores tipográficos de palabras clave

  • saltar letras
  • letras dobles
  • letras inversas
  • saltear espacios
  • clave perdida
  • llave insertada

Lo cual es genial, y genera docenas, si no cientos de posibles nombres de dominio ... pero no me dice lo más crucial: ¿ cuál de estos errores ortográficos realmente ocurre más con usuarios reales en vivo en Internet?

¿Cómo puedo encontrar datos de faltas de ortografía reales de usuarios reales?

Respuestas:


25

Hay algunos recursos en Wikipedia, pero tendrías que tener mucha suerte para tener un dominio que sea una simple palabra inglesa, lo suficientemente común como para aparecer aquí.

Puede usar la herramienta de generador de errores tipográficos de palabras clave , o algo así, luego ingresar laboriosamente cada uno en Google, que irónicamente intentará corregir su ortografía, luego use la "búsqueda en lugar de {versión mal escrita}" y vea cuántas búsquedas resultados que obtiene para ese error ortográfico específico:

Mostrando resultados para tratado

Buscar en lugar de tretise

Eso proporciona alrededor de 117,000 resultados para "tretise" frente a 17,800,000 resultados para "tratado". ¡Entonces ahora tiene una idea de cuán común es la falta de ortografía en Internet! Por lo tanto, puede favorecer los errores ortográficos que ocurren con mayor frecuencia en el mundo real.

Quizás lo más importante, también encontré estas páginas:

http://how-to-spell.net/treatise

¿Cómo deletrear tratado?

Correcto: tratado .

Errores ortográficos comunes: tretise - 100%

Que al parecer hace uso de datos reales!

Hemos recopilado porcentajes de ortografía de casi 15,423,252 sesiones de revisión ortográfica en el sitio web spellchecker.net (enero de 2010 - junio de 2012).

Idealmente, me encantaría que Google compartiera datos sobre errores ortográficos, ya que sospecho que tienen muchos más datos ... pero no estoy seguro de si están dispuestos a compartir, tal vez ven la corrección ortográfica automática de los términos de búsqueda mal escritos como ventaja competitiva.

¡Sería increíble si lo hicieran!


2
¡No olvides que también puedes preguntar a tus usuarios!
Alex L

2
El corpus de palabras de Google Triliion seguramente incluía palabras escritas correctas e incorrectas, por lo que podría usarlo y muchas palabras y números para calcularlos usted mismo a partir de los datos en bruto que Google comparte.
hippietrail 01 de

OpenDNS y Google Public DNS definitivamente tienen este tipo de información, pero ninguno de ellos la está revelando sino que la utilizan para mejorar sus propios servicios (OpenDNS tiene una función de corrección de errores tipográficos). Supongo que podría iniciar su propio servicio DNS gratuito / libre y recopilar datos.
Christian Davén 01 de

1
No creo que usar los resultados de Google sea una buena idea (aunque no sea práctico). Como señala xkcd en su mensaje , "El" número de resultados "cuenta que Google da cuando busca es claramente fabricado".
rodrigoq 01 de

9

Interesante problema Puede utilizar la herramienta de búsqueda de palabras clave de google en https://adwords.google.com/o/KeywordTool para averiguar cuántas búsquedas por mes se realizan para cada uno de los errores tipográficos de su nombre de dominio (tendría que generar una lista de errores tipográficos con el herramienta que mencionas arriba). No es perfecto, pero representaría errores tipográficos de usuarios reales y le daría algunos datos decentes para continuar. (Acabo de probarlo y obtuve algunos resultados que parecían razonables).


Lamentablemente, esto ya no es cierto, ahora que tenemos Hummingbird. Google Keyword Tool ha sido deprecated. Fue reemplazado por Keyword Planner, un producto de Google AdSense.
Ellie Kesselman

4

Pregunta interesante: analizar los resultados de búsqueda como se describe aquí definitivamente debería ser una buena posición inicial, pero es sensible a los falsos positivos causados ​​por otros sitios web con nombres similares al suyo. También puede pasar por alto errores comunes en los que no pensó, al mirar la lista, diría que analizar el cambio de palabras también puede ser interesante.

Un método que es particularmente bueno para descubrir qué errores son los más comunes cometidos por visitantes comunes es pedirles que escriban el nombre. Por supuesto, no todos los sitios web son adecuados para esto, suponiendo que la página sea interactiva, debería ser un buen ajuste.

En lugar de usar captchas regulares, solo muestre algunos de los logotipos de su sitio con (parte de) el nombre escrito allí y solicite a las personas que lo escriban antes de que puedan hacer lo suyo.

Los datos no se basarán en una gran población como la búsqueda de Google, pero serán exactamente el grupo objetivo y, por lo tanto, los resultados deberían ser bastante potentes.


1

Puedes probar este buscador de errores tipográficos de dominio . Opciones de búsqueda de lo siguiente, individualmente o en combinación:

  • Teclas QWERTY
  • Intercambio de cartas
  • Teclas adhesivas, para letras extra o faltantes
  • Parecidos como la letra lversus el número1

Hay tres "puntos de vista" para buscar. El registrante es el predeterminado. DNS es una vista ordenable que muestra el servidor de nombres y la dirección IP de cada error tipográfico. TLD encuentra errores tipográficos en los nombres de cualquiera de estos seis TLD:.com .net .org .biz .us .info y si está registrado.

¿Es diferente de la herramienta de palabras clave de OP? Tal vez. Afirma "encontrar errores tipográficos comunes asociados con nombres de dominio". Eso significa que los datos se recopilaron de los usuarios mientras escribían manualmente los nombres de dominio en la barra de navegación del navegador .

  • La búsqueda de "teclas adhesivas" incluye variantes comunes, con o sin guiones. Ese tipo de errores tipográficos no se deben a teclas pegajosas y físicamente engominadas, sino a errores en la percepción humana. Eso indica el uso de algo mejor que un enfoque de sistema experto basado en reglas.
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.