Muchos de nosotros necesitamos lidiar con la entrada del usuario, las consultas de búsqueda y las situaciones en las que el texto de entrada puede contener malas palabras o lenguaje no deseado. A menudo esto necesita ser filtrado.
¿Dónde se puede encontrar una buena lista de malas palabras en varios idiomas y dialectos?
¿Hay API disponibles para las fuentes que contienen buenas listas? ¿O tal vez una API que simplemente dice "sí, esto está limpio" o "no, esto está sucio" con algunos parámetros?
¿Cuáles son algunos buenos métodos para atrapar a personas que intentan engañar al sistema, como $$, azz o a55?
Puntos de bonificación si ofrece soluciones para PHP. :)
Editar: Respuesta a respuestas que dicen simplemente evitar el problema programático:
Creo que hay un lugar para este tipo de filtro cuando, por ejemplo, un usuario puede usar la búsqueda de imágenes públicas para encontrar imágenes que se agreguen a un grupo comunitario sensible. Si pueden buscar "pene", entonces probablemente obtendrán muchas imágenes de, sí. Si no queremos imágenes de eso, entonces evitar la palabra como término de búsqueda es un buen guardián, aunque ciertamente no es un método infalible. Obtener la lista de palabras en primer lugar es la verdadera pregunta.
Así que realmente me estoy refiriendo a una forma de descubrir que un solo token está sucio o no y luego simplemente no lo permites. No me molestaría en evitar un sentimiento como la referencia totalmente hilarante de "jirafa de cuello largo". Nada que puedas hacer allí. :)