Un cliente quiere que analicemos máquinas de trabajo para pornografía. ¿Es posible?


30

Un cliente de mucho tiempo nos ha pedido que ayudemos a filtrar sus máquinas de trabajo en busca de pornografía. Les preocupa la responsabilidad si se encuentran materiales sensibles. Sus principales preocupaciones (por razones obvias) son los archivos de video, audio e imagen. Si es posible, también les gustaría escanear documentos basados ​​en texto en busca de contenido inapropiado. Tienen una jerarquía de contenido que no es para el trabajo que comienza con descaradamente ilegal (no tengo que enumerar los detalles), pasa a ser obviamente ofensivo y también incluye cosas que pueden ser ofensivas para algunos: piense en anuncios de lencería, tarjetas de broma con grietas en el trasero y todo lo relacionado con Howie Mandel.

Mis preguntas son:

  • ¿Es esto ético? Creo que es así porque cada empleado acepta legalmente que su máquina de trabajo pertenece a la empresa y está sujeta a búsqueda. Las pruebas de detección no deben realizarse en máquinas personales puestas a trabajar.
  • ¿Es factible? He hecho mucho procesamiento / indexación de imágenes, pero esto parece un mundo completamente nuevo de complejidad.
  • ¿Alguna referencia a técnicas exitosas para descubrir el porno?
  • ¿Es apropiado para mí archivar los resultados cuando se descubre algo?

29
¿De quién usará el porno para probar esto?
ChaosPandion

12
¡Quiero ser un probador para este proyecto!
Mayank

56
Cree un script que publique todas las imágenes que encuentre en 4chan; si otros miembros responden "MOAR!", sabes que es porno. Si el script queda prohibido, probablemente sea CP.
user281377

8
Tendrías que pensar que ya hay innumerables millones de productos comerciales disponibles para esto.
GrandmasterB

34
Pregunta honesta: ¿es realmente un problema probable? ¿Porno en la computadora del trabajo? ¿Es decir, quién hace eso? Además, ¿cómo piensan manejar el contenido pornográfico accidental? Mi novia realmente tenía un virus en su PC de trabajo recientemente que redirigía consultas arbitrarias de Google a sitios pornográficos y, con frecuencia, accidentalmente escribo "python.com" [NSFW!] En lugar de "python.org" ... Además, si esto es En realidad es un problema, creo que esto revela un problema fundamental de confianza y / o profesionalidad en la empresa. Abordar eso en lugar de buscar en las computadoras.
Konrad Rudolph

Respuestas:


125

Puede hacer esto con 90% de Headology , 10% de software.

En primer lugar, escanee silenciosamente las computadoras de los empleados, cree una base de datos de archivos y tamaños para cada empleado.

Luego filtre una nota de que todas las PC serán escaneadas en busca de contenido cuestionable, es decir, los jefes tienen un programa similar a Shazam que puede identificar pornografía, etc.

Luego, un par de días después, escanee las computadoras en busca de archivos y tamaños nuevamente. Mire cualquier archivo eliminado, ¿son archivos de película o imagen? Entonces esos son los empleados que necesita vigilar.

Escanee rutinariamente las PC de esos empleados en busca de imágenes y películas, y verifique manualmente si hay contenido cuestionable.


99
Y +1 por mencionar headology.
TRiG

55
@Binary: el enfoque de dos etapas es realmente impresionante.
Matthieu M.

2
+1de mí para la referencia a la abuela!
sbi

2
@ Anónimo Mientras estás en eso. Cree una GUI en Visual Basic para ver si puede rastrear una dirección IP. youtube.com/watch?v=hkDD03yeLnU . En serio, sin embargo, esta es una forma increíble de poner una secuencia de comandos de TV de segunda categoría.
Evan Plaice

2
¡Qué idea tan perversa! encanta ♥
Chani

75

Esta es una tarea obvia de la red neuronal. Primero necesita un gran conjunto de imágenes de capacitación seleccionadas por expertos en su empresa .....

Una solución más efectiva es anunciar que verificará la máquina de todos para ver pornografía SIGUIENTE semana / mes / lo que sea, luego escriba una aplicación simple que simplemente ejercite el disco. Le garantizo que las máquinas se habrán limpiado para entonces.


PD: un par de puntos 'serios': en realidad no quieres encontrar nada.

Si encuentra un par de imágenes en la memoria caché del navegador, entonces tal vez encontraron un enlace incorrecto o una ventana emergente dudosa: ¿recuerda que el profesor disparó sobre whitehouse.com? Si los despide / disciplina por esto, habrá una reacción violenta de los trabajadores / sindicato. ¿Cómo funcionaría su empresa si cada clic tuviera que someterse a aprobación legal antes de que sus trabajadores investigaran una pregunta o verificaran un precio en línea?

Si encuentras una pila de pornografía en una máquina, ¿cómo vas a demostrar que ese empleado la puso allí? ¿Tiene el tipo de sistemas de seguridad y auditoría que resistirían en los tribunales? ¿Usas (o incluso conoces) un sistema operativo en el que un administrador del sistema no puede ponerlos allí y hacer que se vean como los archivos del usuario?

Además, en mi experiencia, las ubicaciones más comunes para los escondites porno están en las computadoras portátiles de CxO y vicepresidentes senior.

Es mucho mejor organizar los archivos para que desaparezcan antes de tiempo.


+1, aunque combinaría esto con un control humano basado en%. Tal vez seleccionando al azar el 0.1% de las estaciones de trabajo para una inspección real.
Drew

@nikie: Martin estaba haciendo una broma sobre el set de entrenamiento.
Andrew Grimm

Esta es una solución muy divertida y precisa :)
crosenblum

10
Espere. ¿Cómo sabías que puse mi escondite porno en la computadora portátil del CEO?
Jaap

1
Me sorprendería si la gente realmente borrara toda su pornografía cuando se enfrentara a la posibilidad de escanear sus máquinas. El programador probablemente lo haría, pero IME otras personas son realmente, erm, "extrañas" con respecto a tales cosas. Sin embargo, podría combinar esto con la idea de Binary y observar más de cerca aquellas máquinas en las que se eliminaron muchos MB. Sin embargo, +1de mi parte por la observación de que realmente no quieres encontrar algo.
sbi

8

Este enfoque de control es ciertamente doloroso tanto para los empleados como para las personas de TI. Una vez que algo ingresa dentro de la máquina del empleado, no hay forma segura de detectarlo. En primer lugar, debe evitar que ingrese a la máquina.
La práctica más conocida para esto es obviamente el control sobre los sitios / dominios que se pueden visitar. Dicha lista debe estar disponible en algún lugar de la red. Aparte de esto, también puede realizar un seguimiento de la cantidad de imágenes, videos que el empleado ha descargado y de dónde proviene.
Hay posibilidades de que el material pueda provenir de otro sitio que no sea web, como un disco duro externo. Podría haber un escaneo aleatorio del sistema una vez al mes en el que puede elegir aleatoriamente algunos de los videos e imágenes y verificarlos manualmente. No estoy seguro de cómo se puede hacer. Pero la automatización de la verificación de las imágenes y videos está ciertamente fuera de alcance y ciertamente será errónea.
En realidad, no estoy de acuerdo con la idea de restringir a los empleados de hacer cosas personales. Debe confiar en sus empleados para esto. Sus empleados deben estar lo suficientemente ocupados en la oficina para que no tengan tiempo para esto. Las mayores preocupaciones son si el empleado no está haciendo su trabajo ¿verdad? ¿O ha instalado algún software agrietado o pirateado?


1
Estoy de acuerdo en que los desarrolladores, y otras personas creativas, no deberían tener máquinas bloqueadas. Sin embargo, y confía en mí cuando digo esto, cuando tienes más de 200 empleados procesando documentos de flujo de trabajo, no quieres darles nada que pueda distraerlos, incluido un navegador. Sí, el 90% de las personas trabajan duro y no se distanciarán, pero eso significa que tendrás más de 20 gobshites tirando de la meada y siendo improductivo.
Binary Worrier

66
ese 10% será improductivo de todos modos. Si no navega por sitios web, juega, lee, hace tonterías, se aburre aburrido, etc.).
Jwenting

2
Las personas hacen su trabajo o no lo hacen. Son más fáciles de detectar cuando tienes 200 haciendo tareas similares que se pueden medir.
JeffO

2
En los EE. UU., Existen problemas legales relacionados con la pornografía en las computadoras de la compañía, y existen problemas legales realmente serios relacionados con la pornografía infantil. Es más seguro tener una política de no pornografía y tomar medidas para evitarla.
David Thornley

7

Hay una serie de productos en el mercado que realizan "filtrado de contenido" de varias formas. (Una búsqueda en Google en algunos términos obvios arroja algunos candidatos obvios). Probablemente sea una mejor idea usar uno de estos productos que crear un montón de software de escaneo / filtrado desde cero. Otra opción es simplemente mirar en las fronteras; por ejemplo, monitoreando correos electrónicos externos y tráfico web. Una vez más, hay productos que hacen este tipo de cosas.

Si bien no hay duda de que es ético que una empresa escanee sus computadoras en busca de "cosas malas", esto no significa que no haya problemas.

Primer problema:

  • Determinar qué es y qué no es "contenido objetable" es subjetivo.
  • Es probable que el software para detectar imágenes, videos que contienen (digamos) "representaciones del cuerpo desnudo" (AFAIK) no sean confiables, lo que resulta en falsos positivos y falsos negativos.

Entonces ... esto significa que alguien en la organización de su cliente necesita revisar los "hits". Eso cuesta dinero.

Segundo problema: puede haber una explicación inocente. El archivo podría haber sido descargado por accidente, o podría haber sido plantado por un vengativo compañero de trabajo. Si hay una explicación inocente, la organización del cliente debe tener cuidado con lo que hace / dice. (OK, este no es realmente tu problema, pero podrías copiar algo de la retrolavado).

Tercer problema: a pesar de que la compañía tiene el derecho de monitorear el material objetable, muchos empleados lo considerarán desagradable. Y si están demasiado lejos, esto afectará la moral de los empleados. Algunos empleados "caminarán". Otros pueden tomar medidas de protesta ... por ejemplo, tratando de crear muchos falsos positivos. (De nuevo, no es realmente tu problema, pero ...)

Cuarto problema: las personas pueden ocultar material cuestionable cifrándolo, colocándolo en medios portátiles o extraíbles, etc. Las personas pueden falsificar los metadatos para que parezca que alguien más es responsable.


1
El OP dijo que esto era por cuestiones de responsabilidad, lo que tiene mucho sentido en los Estados Unidos. Eso significa sacar las cosas de las computadoras, no necesariamente culpar a las personas.
David Thornley

Yo diría que fue más que eso. Considere el final de la lista de contenido "no por trabajo" en la pregunta. Parece que alguien tiene una "agenda" ...
Stephen C

@David: SIEMPRE se trata de culpar a la gente. Si tiene un problema de responsabilidad potencial, encontrar a alguien a quien culpar ("esta persona actuó en violación de la política de la compañía, y podemos probarlo, por lo que es personalmente responsable en lugar de nosotros como compañía") se convierte en la forma estándar de trabajo. De hecho, es lo que la mayoría de las personas en puestos de responsabilidad en muchas empresas dedican buena parte de su tiempo, tratando de encontrar personas a las que culpar por lo que pueda salir mal y asegurarse de que nadie pueda culparlas por los problemas que puedan encontrar. en.
jwenting

6

Sobre aspectos legales, en Francia:

El jefe posee las computadoras y la conexión a Internet: puede hacer lo que le plazca.

PERO, la privacidad de los empleados no puede ser violada. Si un directorio en la computadora tiene la etiqueta PERSONAL, el jefe no puede escanearlo.

La única forma de evitar eso es obtener elementos de evidencia de que el empleado almacena material ilegal y hacer que un tribunal solicite un escaneo de la computadora (tenga en cuenta que la pornografía no es ilegal en Francia).


Excepto en la medida en que se trate de material protegido por derechos de autor, cualquiera puede contar como robo.
TRiG

66
En Francia, existe la noción de excepción de copia privada: no está permitido copiar material con derechos de autor, pero los titulares de derechos de autor no pueden reclamar nada si su copia se utiliza de forma privada.
Mouviciel 03 de

Quiero vivir en Francia ... ¡excepto que no puedo hablar francés!
Tipo anónimo el

5

Si los empleados acordaron que su máquina de trabajo pertenece a la empresa y está sujeta a búsqueda, entonces sí, esto es legal. Como prueba, probablemente sea necesario archivar los archivos.

En cuanto a cómo encontrar realmente el material. Tú podrías:

  1. En primer lugar, escanee los nombres de archivo para un cierto conjunto de palabras (pornografía, lesbianas, etc.)
  2. Escanee documentos de texto para el mismo conjunto de palabras
  3. Para las imágenes, puede encontrar el color promedio de la imagen, y si ese color se encuentra dentro de un rango que la mayoría se referiría como 'color carne', marque la imagen (alguien que verifique dos veces estas imágenes marcadas probablemente será necesario ) No quisiera denunciar a alguien por una imagen que termina siendo una foto familiar de la playa.

Si escanea los archivos a medida que ingresan a la computadora (por ejemplo, tiene el programa cargado en cada máquina de trabajo y registra los casos marcados en una base de datos central), entonces no creo que sea demasiado molesto (aparte de la evidente desconfianza el empleador claramente tiene para sus empleados).

Con los archivos de video, no estoy 100% seguro. Posiblemente un enfoque similar al del escaneo de imágenes (elija cuadros aleatorios y escanee para un cierto nivel de color de "carne")

Escanear archivos de audio parece que entraría en el reconocimiento de voz, que es una gran cantidad de gusanos. Sin embargo, escanear el nombre del archivo sería fácil y podría hacerse como con los documentos, imágenes y video.


Sí, estaba pensando en la misma línea. Los tonos de carne son duros con todas las variedades. Sin mencionar que un gran disparo de la cabeza de alguien (como mi gravatar) es probable que active la advertencia de relación carne a carne. Increíble comienzo, sin embargo.
Escaso Roger

demasiado riesgo de falsos positivos (dependiendo en parte del negocio involucrado).
Jueves

Hay un espacio de color donde la mayoría de los tonos de piel humana se encuentran en un rango determinado. YCbCr si recuerdo correctamente. Corte la imagen en bloques y si en la mayoría de los bloques el valor de píxel medio cae en el rango, márquelo como una foto de "máscara".
Vitor Py

Hay otro problema La persona encargada de revisar el video puede demandarlo. Ciertamente no quisiera estar haciendo eso. (No todo el porno es del gusto de todas las personas)
Christopher Mahan

La presa verde (sí, del gobierno del hermano mayor en el este) pretende utilizar OpenCV por sus capacidades de detección de rostros. Esto seguirá generando muchos falsos positivos, incluso cuando se combina con la detección del tono de la piel.
rwong

4

Como dijo @Ryan, el análisis de imágenes puede centrarse en el análisis de color.

¿Factibilidad? Mi hermana trabaja en un área del gobierno donde obtienen algún tipo de auditoría cada año, y una vez que fue por pornografía. Ella (geofísica) tenía varios falsos positivos (rocas rosadas).


4

Existe una investigación reciente y significativa sobre la detección de pornografía utilizando métodos de clasificación convencionales. Los ejemplos están disponibles aquí y aquí .


3
  • ¿Es esto ético?

Depende de la implementación y las expectativas razonables de los empleados. Por ejemplo, si su software escanea cualquier máquina conectada a la red, entonces hay un requisito adicional que infra necesita para evitar que se conecten máquinas no autorizadas. (Tal vez eso debería ser obvio, pero con frecuencia se pasa por alto en las redes que he visto).

  • ¿Es factible? He hecho mucho procesamiento / indexación de imágenes, pero esto parece un mundo completamente nuevo de complejidad.

¿Es factible hacer pruebas de drogas a todos los empleados? Tal vez sí, pero cuestiono su valor. Lo aleatorizaría. Informe a los empleados que sus máquinas pueden ser escaneadas en busca de contenido inapropiado en cualquier momento.

  • ¿Alguna referencia a técnicas exitosas para descubrir el porno?

No estoy tocando este. No creo que pueda controlar mi sentido del humor. Pero ten cuidado con el problema de Scunthorpe cuando busques texto.

  • ¿Es apropiado para mí archivar los resultados cuando se descubre algo?

Este me preocupa más, y le pediría a un abogado. Sospecho que si encuentra contenido ilegal, técnicamente puede estar legalmente obligado a revelarlo. Eso es malo, especialmente si el usuario fue expuesto por una falta propia. Usted (cliente) necesitará asesoramiento legal real sobre cómo manejar esto. Haga que RRHH y los abogados participen.


2

Desde un punto de vista puramente técnico: esto suena como un problema de reconocimiento de categoría de objeto. Nunca he hecho algo así, pero por lo que he leído, los sistemas de reconocimiento de categoría más modernos funcionan así:

  • Primero busca una gran cantidad de puntos de interés (p. Ej., Utilizando un detector de esquinas de Harris, puntos extremos de filtros LoG / DoG en el espacio de escala; algunos autores incluso sugieren elegir puntos aleatorios)
  • Luego aplica una transformación de entidad a cada punto (algo como SIFT, SURF, GLOH u muchos otros)
  • Combina todas las características que encontraste en un histograma (Bag-Of-Features)
  • Utilice algoritmos de aprendizaje automático estándar (como máquinas de vectores de soporte) para aprender la distinción entre categorías de objetos utilizando una gran cantidad de imágenes de entrenamiento.

2

El sistema operativo de la computadora de todos probablemente se instaló desde una imagen de disco.

  1. comience con la imagen del disco y obtenga una lista de archivos que probablemente no necesite escanear.
  2. obtenga una lista de todos los demás archivos en cada PC.
  3. extraiga los archivos reales de 10-20 máquinas aleatorias y utilícelas como banco de pruebas
  4. buscar artículos en un diccionario de palabras profanas y cuestionables (hotties, jarras, 'apenas legal', broma, etc.)
  5. Vea el video: ¿alguien debería tener algún video?
  6. Ver fotos
  7. Cualquier archivo de video o imagen que sea cuestionable puede usarse para buscar en otras máquinas

Se necesitará uno o dos empleados para que los atrapen antes de que alguien ponga algo en su computadora de trabajo.

Cobra una cantidad obscena de dinero por este servicio. Seré Zappos nunca haría esto a sus empleados.


2

Asumiendo que es un administrador de dominio en la red.

  1. C $ en la máquina de escritorio de cada usuario.
  2. Copie archivos pornográficos en un recurso compartido privado personal.
  3. Eliminar de la ubicación original.
  4. Hacer palomitas.
  5. Análisis detallado completo de todas las "pruebas".

1

Solo quería comentar, pero solo tengo 1 representante, así que no puedo.

En el caso de Gravatar, puede agregar una función para filtrar de una lista de sitios limpios en ubicaciones de caché de Internet. IE Gravatar y otros sitios de los que no desea falsos positivos. También puede filtrar cosas como el fondo de escritorio. Si están mostrando pornografía en el escritorio, pensarías que las personas se darían cuenta fuera de tu auditoría.


1

Tales cosas nunca funcionan de manera confiable. Puede usar una lista de bloqueo para bloquear dominios ya sea por nombre o al ser incluido en alguna lista (una práctica común). Pero esas listas nunca están completas, y el bloqueo de nombre basado en criterios puede conducir a muchos falsos positivos.

Puede bloquear las palabras que aparecen en el texto de los sitios, pero nuevamente esto puede conducir a falsos positivos (y se vuelve muy lento ya que necesita analizar cada bit de datos que pasa a través de su red para detectar "bits traviesos").

puede bloquear imágenes (y quizás sitios que las contengan) que muestren más de un cierto porcentaje de tonos de piel. Pero, nuevamente, lleva a muchos falsos positivos. Un departamento médico de la universidad que bloquea una enciclopedia médica con imágenes de extremidades y torsos que muestran heridas y afecciones de la piel es un ejemplo bien conocido de eso. Y, por supuesto, sería racista ya que solo bloquearía ciertos tonos de piel. Si bloquea colores que coinciden con la piel caucásica, siempre hay pornografía con actores negros, por ejemplo.

Lo mejor es confiar en sus empleados y tener políticas vigentes para cuando se rompa esa confianza.


servidor proxy personal, partición oculta encriptada, máquinas virtuales. Siempre hay una manera de ocultar cosas. Por supuesto, están los teléfonos inteligentes Android con 3g. Por último, verifiqué que no hay forma de que un empleador deje de que sus empleados vean lo que quieran en su propio teléfono con su propio ancho de banda.
Christopher Mahan

Es por eso que los medios técnicos son inútiles, ciertamente sin una política. Si la gente sabe qué está permitido y qué no (y no puedo pensar en una persona educada que usaría una máquina de trabajo para porno, incluso sin tales políticas, pero eso es otro asunto) la mayoría se adherirá a eso. Aquellos que no lo hagan tarde o temprano se enterarán si hay medios técnicos o no (lo más probable es que alguien vea algo en su pantalla que no se suponía que vieran al pasar).
Juent

1

No sé, tiene que haber una respuesta intermedia, que no sea tan invasiva, pero resuelva el problema real, la RESPONSABILIDAD.

Pídales que firmen una exención, que libere a la compañía de cualquier responsabilidad por las cosas ilegales encontradas en las computadoras de trabajo, que no estén relacionadas con el trabajo.


No creo que la exención funcione en los Estados Unidos. No sé sobre otros países.
David Thornley

¿Por qué no funcionaría? Si los usuarios tienen la capacidad de descargar contenido, instalar software, entonces, naturalmente, asumen la responsabilidad por ello.
crosenblum

Y, si la empresa tiene la capacidad de filtrar la pornografía, lo que generalmente se supone y no, es en parte responsabilidad de la empresa.
David Thornley

No en todas partes. En algunos países, la compañía es responsable de lo que suceda con cualquier equipo que posea, ya sea que el empleado lo esté utilizando para el propósito previsto o no. Esto también se aplica en cierta medida a los EE. UU., De hecho, ha habido intentos de demandar a las empresas por el uso ilegal de sus productos después de que esos productos se vendieron legalmente (ver, por ejemplo, las demandas constantes contra fabricantes de armas de fuego por responsabilidad cuando sus productos son utilizado en crímenes, demandas que afortunadamente generalmente se desechan pero lamentablemente no siempre).
Jwenting


1

Análisis de imagen y contenido para determinar las diferencias entre una fotografía de buen gusto de una persona, una fotografía de traje de baño, una fotografía de desnudos, representaciones de pornografía ... por lo que sé, no es lo suficientemente sofisticado como para hacerlo solo con software.

Afortunadamente, el crowdsourcing debería ser útil aquí, como @ammoQ sugirió en un comentario. Sin embargo, no creo que los miembros de 4chan o de cualquier otro foro apreciarían la gran cantidad de imágenes no pornográficas, como gráficos web genéricos para botones, marcos, anuncios, etc. que se publican.

Mi recomendación sería buscar soluciones de crowdsourcing existentes, como Amazon Mechanical Turk . (Sin embargo, los términos del servicio pueden prohibir explícitamente la participación de contenido pornográfico, por lo tanto, tenga en cuenta que es posible que tenga que encontrar otra solución o elegir la suya propia).

Para que el crowdsourcing sea factible, su software debe estar preparado para hacer algo o todo lo siguiente:

  • Almacenar información que vincule el contenido con la computadora de la que proviene
  • Identifique duplicados exactos en todo el inventario y elimínelos (pero se conserva la información de origen)
  • Reduzca la resolución de las imágenes a alguna dimensión, quizás 320x200, que es suficiente para identificar el contenido de la imagen sin retener detalles innecesarios y desperdiciando espacio de almacenamiento / ancho de banda
  • Cree imágenes fijas de contenido de video a intervalos regulares y aplique la misma regla de disminución

Finalmente, los usuarios (o un equipo designado si tiene los recursos) verifican la base de datos de imágenes reducidas que representan la imagen original y el contenido de video de acuerdo con el código de conducta de su empresa. El programa o la interfaz pueden mostrar una sola imagen a la vez, o una pantalla de miniaturas, lo que considere mejor para obtener información precisa.

La identidad de la computadora de la que provienen las imágenes debe ser absolutamente secreta y desconocida para las personas que evalúan los datos. Además, debe ser aleatorizado y cada imagen probablemente verificada más de una vez para eliminar el sesgo.

Se podría usar la misma técnica para el texto, pero primero se podría calificar el contenido mediante clasificaciones de palabras clave que eliminen la mayor parte del texto de la revisión de crowdsource. Por supuesto, clasificar un documento largo requerirá más tiempo que clasificar una imagen.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.