¿Existe un sistema de almacenamiento / SAN distribuido? [cerrado]


9

Como muchos otros lugares, les pedimos a nuestros usuarios que no guarden archivos en sus máquinas locales. En cambio, alentamos que se pongan en un servidor de archivos para que otros (con los permisos apropiados) puedan usarlos y que los archivos estén respaldados correctamente.

El resultado de esto es que la mayoría de los usuarios tienen discos duros grandes que están principalmente vacíos. Es 2010 ahora. ¿Seguramente hay un sistema por ahí que le permite convertir ese espacio vacío en una SAN virtual o biblioteca de documentos?

Lo que imagino es un programa cliente que se envía a las PC de los usuarios que se coordina con un servidor central. El servidor se ve a los usuarios como un servidor de archivos normal, pero en lugar de mantener todo el contenido del archivo, simplemente mantiene un registro de dónde se pueden encontrar esos archivos entre varias PC de usuario. Luego se coordina con los clientes adecuados para atender las solicitudes de archivos. El software del cliente podría responder a tales solicitudes directamente, así como ser lo suficientemente inteligente como para almacenar en caché los archivos recientes localmente. Para la redundancia, el servidor podría asegurarse de que los archivos se copien en varias PC, lo que quizás le permita definir grupos en diferentes ubicaciones para que una instancia de todo el repositorio viva en cada grupo para protegerse contra un desastre en un edificio que elimine todo lo demás.

Obviamente no señalarías tu servidor de base de datos aquí, pero para cosas más simples veo varias ventajas:

  • Los archivos a menudo se pueden transferir desde una máquina más cercana (o local ).
  • Distribuya la conectividad de red, en lugar de aglomerar todas las transferencias de archivos en una sola conexión
  • El espacio en disco crece automáticamente a medida que lo hace su empresa.
  • En última instancia, debería ser más barato, ya que no necesita mantener un conjunto separado de discos

También puedo ver algunos inconvenientes:

  • Degradación ocasional del rendimiento de la PC del usuario, si la máquina tiene que servir o aceptar una gran transferencia de archivos durante un período ocupado.
  • Las escrituras deben propagarse por la red varias veces (aunque sospecho que esto no es realmente un problema, ya que la lectura ocurre en la mayoría de los lugares más que la escritura)
  • Todavía necesito una forma de enviar una copia completa de los datos fuera del sitio ocasionalmente, y esto haría que sea muy difícil hacer diferenciales

Piense en esto como un sistema de almacenamiento en la nube que vive completamente dentro de su LAN corporativa y hace uso de su equipo de usuario existente.

Nuestro antiguo servidor de archivos principal se retirará en unos 2 años, y estoy buscando reemplazarlo con una SAN pequeña. Nuestro servidor de archivos actual utiliza aproximadamente 400 GB de un recurso compartido de 1 TB. Solo lo hemos mantenido tan pequeño porque nuestro espacio de respaldo era limitado. Estoy buscando expandirme al menos a 4TB de espacio utilizable cuando se reemplaza, tal vez mucho más si los precios bajan tanto como espero. Estoy pensando que algo así sería mejor. Como escuela, tenemos un par de laboratorios de computación que puedo dejar en funcionamiento que serían perfectos para agregar un poco de redundancia adicional a dicho sistema.

Con muy pocas excepciones, nuestros usuarios están llenando menos de 40 GB de sus discos duros de 120 GB, lo que significa que podría reservar fácilmente 65 GB por máquina. Y eso solo va a aumentar, ya que las máquinas más nuevas están llegando con unidades de 250 Gb e incluso esas podrían ser fácilmente más grandes pronto. Para cuando se reemplace el servidor de archivos, dado nuestro programa de reemplazo de escritorio, esperaría que dicho sistema permita 5 TB de almacenamiento utilizable, incluso permitiendo la redundancia y el historial.

Desafortunadamente, lo más parecido que puedo encontrar es Dienst , y es solo un artículo que se remonta a 1994. ¿Estoy usando las palabras de moda incorrectas en mis búsquedas, o esto realmente no existe? Si no, ¿hay un gran inconveniente que me estoy perdiendo?


1
En lugar de comprar unidades magnéticas grandes, debería considerar unidades de estado sólido más pequeñas para sus sistemas de usuario final.
jftuga

Es posible que desee ver CCNx desarrollado por un equipo alrededor de van Jacobson en el PARC. Relacionado: el proyecto SWIFT
the-wabbit

Respuestas:


3

Me parece que estás describiendo AFS , cuya implementación más común es OpenAFS . Los conceptos clave de OpenAFS se describen aquí: http://docs.openafs.org/UserGuide/ch01.html#HDRWQ3 .

AFS es:

  • Repartido. Sistema de archivos de múltiples máquinas, pero aún utiliza un espacio de nombres unificado para que la naturaleza distribuida sea transparente para la máquina del cliente.
  • Redundante. Los archivos pueden existir en múltiples nodos del servidor a la vez, por lo que la pérdida de varios nodos del servidor no da como resultado la inaccesibilidad de ningún dato.
  • Escalable Aparentemente, algunas implementaciones de "Enterprise" abarcan hasta 25,000 nodos.

Sin embargo, probablemente +1 no se ajuste a su especificación.
Warner

¿Qué parece faltar? Pensé que sería un ajuste perfecto. O al menos un 90% de ajuste.
Insyte

Bueno, el hecho de que ejecutar un servidor AFS en Windows no sea compatible podría tener algo que ver con eso. docs.openafs.org/ReleaseNotesWindows/ch03s11.html
mfinni

Huh Eso no coincide con lo que dicen aquí: openafs.org/windows.html .
Insyte

1
eso es para el software del cliente . ¿Desea que un cuadro de Windows se conecte a un recurso compartido de AFS existente? Ve a por ello. ¿Desea alojar un recurso compartido de AFS en Windows? Sin soporte
mfinni

2

Sí, los discos grandes en los sistemas de escritorio del usuario final no se utilizan trágicamente cuando se utiliza correctamente el almacenamiento centralizado. Oh bien. Algunas desventajas de usar un hipotético NAS distribuido en red de escritorio:

  1. Tendría que manejar la degradación causada por las máquinas de los usuarios que se desconectan. ¿Alguien no vino hoy y su máquina está apagada? Mejor esperar que los documentos allí se distribuyan en máquinas que están encendidas. ¿Alguien está trabajando hasta tarde esta noche y su máquina es la única que está encendida? Mala suerte, lo siento. A menos que también tenga todo copiado en un servidor de archivos real, y luego, ¿qué ganó?

  2. Todo debería tener un buen cifrado; de lo contrario, los documentos del jefe que contienen su plan de retiro, o el documento de recursos humanos que muestra el salario de todos, se replican en la máquina de Jimmy, el empleado de correo. En el que corre LimeWire. ¿Ves a dónde va esto?


3
Además: su rendimiento apesta, la red no será la velocidad máxima, la SAN se cae en las horas de la tarde, lo que apesta para las ejecuciones de mantenimiento. En lugar de deshacerse de los discos y arrancar desde SAN;)
TomTom

1

Algo como CleverSafe (tiene versiones de código abierto y comerciales) puede hacer lo que quieras, pero administrar nodos muy poco confiables podría ser un problema. CleverSafe maneja las interrupciones de múltiples nodos, pero quizás no lo suficientemente rápido para el tipo de "rotación constante" de nodos que vería usando escritorios como nodos de almacenamiento.

Creo que hay soluciones similares de trabajos académicos que he leído en el pasado, pero CleverSafe parece ser un producto real de trabajo y no solo un prototipo. La compañía ha estado presente desde 2004.


1

Software de virtualización de almacenamiento SANsymphony 7.0

a continuación se cita todo desde su sitio web:

Principales características

Agrupación de discos virtuales independiente del dispositivo, duplicación síncrona (HA), almacenamiento en caché de alta velocidad, replicación remota asincrónica, aprovisionamiento delgado, organización automática en niveles, instantáneas en línea, migración de disco sin interrupciones, protección continua de datos (CDP)

Tipo de acceso

Bloquee las E / S de disco en una SAN física o virtual. El acceso al sistema de archivos se proporciona a través de protocolos NFS / CIFS del sistema operativo Windows Server subyacente. Los dos métodos de acceso pueden combinarse para cumplir con los requisitos de alta disponibilidad y almacenamiento unificado (SAN / NAS).

Entornos host admitidos

Sistemas informáticos que ejecutan sistemas operativos Windows estándar que incluyen (Windows Server 2000, 2003, 2008, Hyper-V, Windows XP, Windows 7), UNIX, HP-UX, Sun Solaris, IBM AIX, RedHat Linus, Suse Linux, Apple MacOs, VMware ESX / vSphere, Citrix XenServer,

Discos compatibles (back-end)

Todas las unidades internas, unidades externas, matrices de discos externos, JBOD, discos de estado sólido (SSD) y sistemas de almacenamiento inteligente compatibles con Windows Server 2008 pueden conectarse a los nodos DataCore. Pueden estar conectados directamente o conectados a SAN.


Es lo que buscas, ¿sí?


No exactamente. Este software aún se hace cargo de cada máquina: debe tener máquinas 100% dedicadas al almacenamiento. Me gustaría ver algo que se ejecute en segundo plano en las PC que todavía se implementan con los usuarios finales, y que aproveche el disco de repuesto que ya existe.
Joel Coel

Al volver a leer la abstracción de almacenamiento / metadatos, vi esto recientemente, pero puede ser un ajuste conceptual más que práctico: xtreemfs.org/feature_replication.php
Mark Lawrence

Por supuesto, la otra cosa que vale la pena mirar si aún no lo ha hecho es Windows DFS-R. Con esto, configura un espacio de nombres de carpetas al que se accede y se replica de forma transparente a través de la replicación de AD. Las carpetas de espacio de nombres tienen objetivos en recursos compartidos físicos, y estos se pueden replicar utilizando la topología de su elección (p. Ej., Concentrador y radio, o libre para todos). Uh oh, hay un problema, creo que los objetivos tienen que estar ejecutando Windows Server.
Mark Lawrence

0

Lo que más me viene a la mente es Googles MapReduce o la alternativa gratuita de Hadoop, pero está diseñado para escalar en el área de petabytes para aplicaciones web realmente grandes.

En general, su situación no es algo que realmente me gustaría probar, ya que supongo que la sobrecarga administrativa para administrar las máquinas para este servicio adicional superará con creces cualquier beneficio que pueda obtener de él.

Además, vería un cierto riesgo de que pueda haber problemas no descubiertos en Windows (o cualquier otro sistema operativo) que puedan conducir a una vulnerabilidad para un gusano de rápida expansión que podría eliminar toda su red en cuestión de minutos, independientemente de cómo buenos y seguros, sus sistemas están configurados y llevarán todos sus grupos de almacenamiento de datos.

Además de eso, no estoy realmente seguro de que las capacidades de disco libre en los sistemas cliente continuarán creciendo, ya que supongo que en el futuro se transportarán muchas más aplicaciones a la web, incluidas cosas como aplicaciones de oficina e incluso Photoshop, lo que conducirá a Un gran impulso para los clientes delgados (de nuevo).

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.