¿Qué herramientas hay para el enmascaramiento de datos? (MySQL, Linux) [cerrado]


14

Estoy buscando herramientas de enmascaramiento de datos (idealmente gratuitas, de código abierto). ¿Existe tal cosa?

Nota: esta pregunta relacionada trata con herramientas para generar datos de prueba, pero en esta pregunta estoy más interesado en comenzar con datos reales y enmascararlos para usarlos en la prueba sin perder ninguna relación especial que lo haga interesante para los propósitos de la prueba. Los datos generados están bien para algunos propósitos de prueba, pero los datos del mundo real traerán problemas que nunca pensó. Herramienta para generar grandes conjuntos de datos de datos de prueba.

Respuestas:


9

Me sorprendería mucho si hubiera una herramienta genérica para esto: ¿cómo podría "saber" qué es información confidencial y qué no? Por ejemplo, necesitaría examinar todos sus datos y reconocer todos los formatos posibles de número de tarjeta de crédito, número de teléfono, código postal, dirección de correo electrónico y cualquier otro dato que se considere confidencial. También debería ser inteligente acerca de su esquema, por ejemplo, si reescribe todas las direcciones de correo electrónico de los clientes a "nobody@company.com", o cualquier parte de su base de datos, aplicaciones u otras herramientas asume que la dirección de correo electrónico de un cliente (o SSN o lo que sea) es único? ¿O tiene alguna parte de la aplicación que suma números de tarjeta de crédito, que se rompería si los restablece a 0000 0000 0000 0000? ¿O su sistema de telefonía supone que un cliente '

Básicamente, configurar cualquier herramienta para hacerlo será mucho o más trabajo que simplemente escribir su propio script, utilizando su conocimiento de la aplicación. En mi sitio, simplemente establecimos la política de que cualquier persona que agregue una columna con dichos datos actualiza el script para anonimizarlo al mismo tiempo, después de una auditoría inicial para encontrar todas esas columnas y escribir la versión 1.


1
Sé que hay herramientas comerciales, ya que en un lugar de trabajo anterior había una iniciativa (fallida) de usar una para nuestros dbs de Oracle. (No participé en ese proyecto, así que no sé los motivos del fracaso. Sospecho que configurar una herramienta de enmascaramiento de datos para un db heredado será una tarea muy tediosa, como usted sugiere).
testerab

3
¡Oh, espero que alguien te venda algo que dice ser esto, pero como digo, configurarlo será más difícil que escribir el tuyo en SQL porque primero tendrás que aprender su DSL hokey!
Cayo

5

Si su base de datos es pequeña, tiene un modelo de datos simple y es bien entendido por los DBA actuales, la secuencia de comandos "podría" ser la respuesta. Sin embargo, el esfuerzo (y el costo) para analizar y enmascarar manualmente las bases de datos típicas puede salirse de control con bastante rapidez a medida que cambian los requisitos, se agrega funcionalidad y los desarrolladores / DBA van y vienen.

Si bien no conozco ningún producto de enmascaramiento de datos de código abierto, hay ofertas comerciales disponibles que son razonablemente completas, relativamente fáciles de usar y pueden ser sorprendentemente razonables en cuanto a costos. Muchos de ellos incluyen la capacidad de descubrimiento lista para usar para identificar y clasificar datos confidenciales (SSN, tarjetas de crédito, números de teléfono), así como la funcionalidad para mantener las sumas de verificación, el formato de la dirección de correo electrónico, la agrupación de datos, etc. para que los datos enmascarados se ve y se siente real.

Pero no tienes que tomar mi palabra (ciertamente sesgada) por eso. Pregunte a los analistas de la industria, como Gartner o Forrester, que tienen una serie de informes imparciales sobre el enmascaramiento que pueden ayudar.

Esperemos que estos comentarios lo animen a considerar la exploración de productos comerciales, así como el desarrollo interno de scripts. Al final del día, lo más importante es proteger los datos confidenciales que muchos de nosotros vemos día a día y que realmente no necesitamos ver para hacer nuestro trabajo: ponernos a nosotros y a las personas cuyo personal datos que tenemos en riesgo.

Kevin Hillier, Especialista Senior de Integración, Camouflage Software Inc.


1
Me doy cuenta de que no quiere parecer que vende su propio producto, pero sería útil si pudiera nombrar un par de productos comerciales o señalar algún consejo específico.
testerab

1
Entiendo que trabajas para esta compañía, y que probablemente quieras recomendar tu propio producto, y no estoy en contra de eso, pero debido a la firma parece un elegante anuncio en línea, en lugar de "Sé de lo que estoy hablando , porque es lo que hago "... soy más persuasivo de" usar bla bla bla (divulgación completa: trabajo en este producto) porque bla bla bla "y no ponga su nombre al final. Si queremos sus datos personales, podemos hacer clic en su perfil y leer esa firma y hacer clic en el enlace allí.
jcolebrand

5

Nunca he visto un elemento así, pero después de haber trabajado con algunos conjuntos de datos confidenciales en mi tiempo, lo principal que debe codificarse es la identidad de las personas o la información de identificación personal. Esto solo debería aparecer en algunos lugares de la base de datos.

Su operación de enmascaramiento debe conservar las propiedades estadísticas y las relaciones de los datos, y probablemente necesite conservar los códigos de referencia reales (o al menos algún tipo de mecanismo de traducción controlado) para que pueda conciliarlos con los datos reales.

Este tipo de cosas se pueden lograr obteniendo una lista distinta de los nombres en los campos y reemplazándola con algo como FirstNameXXXX (donde XXXX es un número de secuencia, uno para cada valor distinto). Es muy probable que los números de tarjetas de crédito e información similar que podrían usarse para el robo de identidad sean un no-no en un entorno de desarrollo, pero solo necesita números reales si está probando sistemas de procesamiento de pagos; por lo general, el proveedor le dará códigos especiales para cuentas ficticias.

No es particularmente difícil escribir procedimientos de anonimato de este tipo, pero deberá acordar exactamente qué debe anonimizarse con el negocio. Si es necesario, revise la base de datos campo por campo. Preguntar sí / no te dará falsos positivos que no quieres. Pídale al representante de negocios que le explique por qué, o las consecuencias o implicaciones regulatorias de no anonimizar datos particulares.


3

Tuve la misma tarea hace unas semanas. evaluamos algunos sistemas de software, pero la mayoría de ellos son solo para exactamente un tipo de base de datos, por ejemplo, Oracle y a menudo son muy complicados de usar ... así que no es la mejor cosa para evaluar esto. Nos llevó semanas.

Decidimos comprar la versión profesional de la suite de enmascaramiento de datos, ya que era la más fácil de usar. También tiene buenas posibilidades para enmascarar datos, por ejemplo, puede cambiar las direcciones de correo electrónico a otras de aspecto real, por ejemplo ... @ siemens.com a mike.miller@seimsen.com.

Puede probarlo gratis para aproximadamente 500 (?) Registros, por lo que recuerdo.

Aquí está el enlace http://www.data-masking-tool.com/


1
Solo un punto de datos: al momento de escribir este artículo, la herramienta de enmascaramiento de datos cuesta apenas $ 1,000.
Michael Teper

2

Mi forma de hacer esto:

  1. Cree una nueva base de datos con solo ver y seleccionar derechos para los usuarios
  2. Hacer vistas a tablas que deberían poder verse en otras bases de datos
  3. Enmascarar las columnas que necesitan enmascararse por: repeat ('*', char_length ( column to be masked))

2

Decidí por primera vez este camino hace varios años y desde entonces he creado una consultoría basada en esta práctica.

Supongo que el propósito es acumular datos de prueba para su uso en entornos de prueba donde las personas que acceden a los datos no tienen derechos para ver la información de producción.

Lo primero que debe establecer es exactamente qué elementos de datos necesita enmascarar y para hacer eso es mejor comenzar con una herramienta de descubrimiento de datos como Schema Spy (código abierto) y necesitará el controlador jdbc relevante para esta tarea, pero Es un paso muy útil en el proceso.

Talend Open Studio es una de las mejores herramientas que he utilizado en los últimos años para realizar algunas de las funciones de ETL y también podrá realizar algunas prácticas básicas de enmascaramiento reemplazando valores aleatorios o. Buscar / reemplazar, para mantener la coherencia, utilizando el componente de mapa.

Pero si está buscando una herramienta de enmascaramiento de datos real, no he encontrado una herramienta de código abierto adecuada. Si tiene un presupuesto muy moderado para herramientas, sugeriría Data Masker, pero deberá importar y exportar a través de MS SQL u Oracle, ya que solo se conecta a través de esos protocolos.

Consulte http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset para obtener información sobre el enmascaramiento de datos, la metodología de enmascaramiento de datos, el descubrimiento de datos y los datos de prueba administración. También hay un blog útil en http://www.dataobfuscation.com.au


1

Hay una herramienta disponible en el mercado de Informatica que se llama Informatica ILM (TDM). Esto usa PowerCenter como un backone para ETL y datos de máscara con diferentes opciones de enmascaramiento disponibles. Aunque necesita un analista de datos o una PYME que pueda entender cómo se deben enmascarar los datos. La herramienta en sí no proporciona información sobre qué campos deben enmascararse, sin embargo, existe un algoritmo interno o procedimiento o proceso para identificar campos de datos sensibles, como Nombre, columnas de identificación con número, tarjeta de crédito, número de SSN, número de cuenta, etc.


Además, Informatica ILM TDM permite generar subconjuntos de datos. Por lo tanto, puede subconjugar los datos y enmascararlos o enmascarar todos los datos y luego subconjuntos según las necesidades comerciales.
Awadhesh Yona

1

Este año tengo la oportunidad de trabajar con IBM Optim que dice hacer lo que se le pide. No es gratis, pero funciona bien.


1

El que más me gusta es IRI FieldShield ( https://www.iri.com/products/fieldshield ) en términos de versatilidad (la mayoría de las funciones de enmascaramiento de datos), velocidad (motor CoSort para el movimiento de datos en el interior) y ergonomía (trabajos simples de 4GL compatible en su Eclipse GUI con toneladas de DB y conexiones de archivos). En cuanto al precio, es aproximadamente la mitad de IBM e Informatica, aunque también está disponible en un conjunto de integración de datos más grande para la transformación, migración y BI de datos 'grandes'. Por lo tanto, tampoco es gratuito, pero usa algo de código abierto (el IDE, y puede usar OpenSSL y GPG) y los scripts se ejecutan en Windows, Linux y otros sabores de Unix.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.