Análisis de imagen y contenido para determinar las diferencias entre una fotografía de buen gusto de una persona, una fotografía de traje de baño, una fotografía de desnudos, representaciones de pornografía ... por lo que sé, no es lo suficientemente sofisticado como para hacerlo solo con software.
Afortunadamente, el crowdsourcing debería ser útil aquí, como @ammoQ sugirió en un comentario. Sin embargo, no creo que los miembros de 4chan o de cualquier otro foro apreciarían la gran cantidad de imágenes no pornográficas, como gráficos web genéricos para botones, marcos, anuncios, etc. que se publican.
Mi recomendación sería buscar soluciones de crowdsourcing existentes, como Amazon Mechanical Turk . (Sin embargo, los términos del servicio pueden prohibir explícitamente la participación de contenido pornográfico, por lo tanto, tenga en cuenta que es posible que tenga que encontrar otra solución o elegir la suya propia).
Para que el crowdsourcing sea factible, su software debe estar preparado para hacer algo o todo lo siguiente:
- Almacenar información que vincule el contenido con la computadora de la que proviene
- Identifique duplicados exactos en todo el inventario y elimínelos (pero se conserva la información de origen)
- Reduzca la resolución de las imágenes a alguna dimensión, quizás 320x200, que es suficiente para identificar el contenido de la imagen sin retener detalles innecesarios y desperdiciando espacio de almacenamiento / ancho de banda
- Cree imágenes fijas de contenido de video a intervalos regulares y aplique la misma regla de disminución
Finalmente, los usuarios (o un equipo designado si tiene los recursos) verifican la base de datos de imágenes reducidas que representan la imagen original y el contenido de video de acuerdo con el código de conducta de su empresa. El programa o la interfaz pueden mostrar una sola imagen a la vez, o una pantalla de miniaturas, lo que considere mejor para obtener información precisa.
La identidad de la computadora de la que provienen las imágenes debe ser absolutamente secreta y desconocida para las personas que evalúan los datos. Además, debe ser aleatorizado y cada imagen probablemente verificada más de una vez para eliminar el sesgo.
Se podría usar la misma técnica para el texto, pero primero se podría calificar el contenido mediante clasificaciones de palabras clave que eliminen la mayor parte del texto de la revisión de crowdsource. Por supuesto, clasificar un documento largo requerirá más tiempo que clasificar una imagen.