¿Cómo convence a la gerencia de que los 3560/3750 son una mala idea en su DC?

12

Los 3560/3750 tienen pequeños amortiguadores y son buenos interruptores para armarios de cableado. Sin embargo, a menudo veo estos interruptores sentados en DC. Mucha gente tiende a usarlos, ya que generalmente son capaces de 1Gb y L3.

¿Hay alguna manera de demostrar cuán malos son en las implementaciones de DC? A menudo escucho a las personas decir que se quitaron sus 3750 tan pronto como pudieron, pero aún no he escuchado un escenario de falla real que podría usarse para informar a la gerencia para sacarlos.

cisco-catalyst

— mellowd
fuente

8

Primero demuestre que son una mala idea mediante la recopilación de datos de rendimiento.

— Zoredache

1

Para empezar, esto supone que su administración está de su lado y escuchará los argumentos de los datos de rendimiento. Muchas almas de redes pobres están subyugadas bajo CTO que no entienden la tecnología tan bien como piensan y prefieren gastar dólares en proyectos altamente visibles que alguna infraestructura de redes oculta a la vista. Por otro lado, tener un CTO que escuche la razón no significa usar interruptores de mayor rendimiento, ya que los requisitos de rendimiento para la aplicación deben ser entendidos y probados para soportar el crecimiento actual y anticipado.

— generalnetworkerror

A menos que tenga un núcleo Nexus que requiera capacidades más allá del 3560, creo que los conmutadores 3560/3750 son fantásticos. Seamos realistas, ¿quién tiene $ 10k para gastar en un interruptor de 1U en estos días? A menos que estés haciendo algo especial, la respuesta es nadie.

— Brain2000

13

FWIW He tenido experiencia con 3750 (3750G, y luego 3750E / 3560E) a escala en una configuración TOR; inicialmente con canales de puerto L2 / GLBP (variantes de 2x1G y 2x2G y el raro 2x4G para bastidores db) y luego con L3 a los TOR (fue con esto para 3750E / 3560E y 10G al núcleo). Estoy hablando de miles de ellos. Solo vimos problemas con los buffers para los servicios que requieren más ancho de banda, y en ese momento estábamos mirando 10G para el host de todos modos (y densas cajas de pizza con 24-48 SFP +).

Si vas a poder demostrar algo o no a la gerencia dependerá realmente de la aplicación y si haces tu tarea sobre cuáles son los requisitos de tu diseño y la aplicación, y saber exactamente cuáles son las especificaciones de la aplicación , así como la velocidad de crecimiento esperada del mismo. Configure una revisión de diseño con su cadena de administración, así como con los propietarios / clientes principales de la red.

La administración quiere ver los datos , y si no tiene los recursos para probar completamente la caja (elabore un plan de prueba, conéctelo a algún hardware de generación de tráfico, amplíelo por completo y pruébelo a las especificaciones de diseño, etc.) esto va a ser difícil de hacer. No van a quedar impresionados con la evidencia anecdótica, y encontrar este tipo de datos duros puede resultar difícil, ya que estoy seguro de que las personas que publican este tipo de cosas violarían todo tipo de NDA.

Todos los demás que publicaron una respuesta a esto han esbozado las "áreas problemáticas" de la plataforma 3750 bastante bien: modos de apilamiento y fallas extrañas inherentes, tamaños de búfer, etc. También existe esta pregunta que describe los problemas con la recopilación de estadísticas SNMP en las caídas de la cola de salida - los buffers se comparten entre los ASIC, por lo que cualquier estadística que obtenga con SNMP será la misma para rangos de puertos específicos (este podría ser un punto de conflicto que podría mencionar con su cadena de administración).

Para resumir, diría que el 3750/3560 estaría "bien" para la mayoría de las implementaciones, incluso a escalas algo grandes. Evita apilarlos si puedes, pero diría que no es demasiado horrible hacerlo en cantidades muy pequeñas y manejables.

— John Jensen
fuente

10

Realmente depende de su escenario de implementación. Los 3560/3750 son excelentes conmutadores, tienen búferes decentes y generalmente funcionan bien para la mayoría de las aplicaciones. Si su centro de datos ve flujos de tráfico que requieren memorias intermedias más grandes, debería poder extraer estadísticas de los conmutadores, como el uso de la memoria intermedia y las caídas de paquetes. Convencer a la gerencia de que deje caer los conmutadores que están dejando caer sus paquetes no debería ser un gran desafío. Yo creo que.

— Yosef Gunsburg
fuente

55

"soltar los interruptores que están soltando sus paquetes" - ¡genial!

— Stefan

8

En los primeros días del 3750, especialmente la tecnología de apilamiento que se lanzó justo antes de 2010 más o menos, hubo muchos problemas con fallas en los interruptores que hicieron que la pila fallara de una manera no tan elegante. Combine eso con el hecho de que actualizar una pila no fue el proceso más intuitivo (se ha mejorado desde entonces), el 3750 realmente tuvo una mala reputación que se ha mantenido desde entonces.

En centros de datos pequeños, la pila 3750 representa una opción de costo relativamente bajo para obtener la densidad de puertos sin el costo de un conmutador basado en chasis. Yo mismo acabo de instalar para un cliente más pequeño una solución de centro de datos que involucra unos pocos servidores Cisco UCS C220 M3 con un Netapp FAS2240, y utilicé una pila de 3750 para proporcionar redundancia de canal de ethernet de múltiples chasis a cada nuevo dispositivo, así como a todos sus servidores antiguos durante la transición Funcionó muy, muy bien.

Entonces, ¿el 3750 tiene sus problemas? Probablemente lo mismo que cualquier otro interruptor que haya existido durante tanto tiempo. El 6500 tuvo sus problemas al principio de su ciclo de vida, y ahora que ha estado fuera durante años y años, no es tan malo. Le recomiendo ver lo que le va a lanzar, y si las métricas de rendimiento se mantienen, asegúrese de monitorear su rendimiento con vigilancia.

— Mierdin
fuente

También he usado 3750 con éxito muchas veces. Por otra parte, mis implementaciones de DC son bastante pequeñas ya que la mayor parte de mi tiempo lo paso en el núcleo MPLS. Sigo escuchando cuán "malos" son, y estoy seguro de que son malos para algunas cosas, pero nunca vi estas declaraciones respaldadas con datos duros

— mellowd

Nuevamente, creo que se trata principalmente de problemas históricos con el producto. Sin mencionar que debe implementarlos en todas partes, el chasis se vuelve mucho más rentable con los requisitos de puerto más altos, sin mencionar la falta de capacidades de 10 GbE aguas abajo para el 3750. En mi opinión, es una cuestión bastante estándar de dimensionamiento, ahora que El producto ha tenido algunas de las grandes arrugas resueltas.

— Mierdin

6

Honestamente, la forma más común en que he visto los 3750 golpear la acera, fue cuando los interruptores principales se actualizaron a Nexus 7k. Generalmente (pero no siempre) parte de esa actualización es mover TOR a Nexus 2000 FEX o Nexus 5000.

A pesar de que los 3750 no tienen los amortiguadores más grandes, en la mente de la mayoría de las personas, funcionan "lo suficientemente bien" en la mayoría de los entornos empresariales DC.

A menos que pueda poner un valor en dólares en los problemas causados por tener 3560's / 3750's en un DC, dudo que pueda convencer a la gerencia para que los reemplace fuera de un ciclo regular de actualización del producto.

— Brett Lykins
fuente

El mayor problema que escucho de ellos es cuando puede tener un par de servidores conectados a las interfaces de concierto, y la interfaz que sale a la WAN es de 100Mb o menos. Pero, de nuevo, he visto aún no datos concretos que apoyen esta tesis

— MellowD

2

Eso sería un problema con los pequeños búferes, ya que estaría haciendo una copia de seguridad de los datos de sus enlaces de conciertos esperando llegar al enlace de 100 Meg, pero esto no es un problema de búfer: es un "No dimensionamos el ancho de banda de nuestra WAN correctamente "problema.

— bigmstone

6

@mellowd ciertamente tiene razón, estos interruptores no son interruptores de CC muy utilizables, debido a que las memorias intermedias muy limitadas micro-explotarán y dejarán caer el tráfico.

Considere que tiene una entrada de 2 * 1GE y una salida de 1 * 1GE. El peor de los casos es que el puerto de salida comienza a caer después de que los puertos de entrada se hayan enviado al mismo tiempo durante 2 ms. El mejor de los casos es que puede manejar una ráfaga de 8 ms.

Tiene 2 MB de búfer de salida por 4 puertos, por lo que 2 MB / (1 Gbps / 8) = 16 ms como máximo y 16/4 = 4 ms como mínimo. Divida ese número por la cantidad de puertos de ingreso que desea enviar, y obtendrá el número de cuánto tiempo puede manejarlo. Es decir, cuantos más puertos de entrada (servidores) agregue, menos microbursting podrá manejar.

Si debe vivir con 3750/3560, debe leer este documento para maximizar el uso del búfer. Y si todavía está cayendo, use LACP en la salida, a pesar de que sus gráficos muestran que la demanda promedio de salida es muy baja.

Para demostrar a sus gerentes que las memorias intermedias son insuficientes, supervise / toque / abarque sus redes actuales cambian todos los enlaces descendentes, luego tendrá marcas de tiempo y tamaños de paquetes que saldrán y podrá calcular cuánto más de 1 Gbps es su demanda instantánea y cuánto búfer que necesitará para manejarlo.

— ytti
fuente

6

El rendimiento es ciertamente un problema importante y está bien abordado anteriormente, pero también hay mucha diferenciación basada en características y conjuntos de características:

La necesidad de unidades RPS externas es un gran problema en muchas instalaciones: un interruptor de 1U se vuelve más costoso en términos de costos iniciales, espacio perdido y administración continua. La energía redundante debe considerarse una necesidad absoluta en todos los entornos de centros de datos, excepto en los más pequeños.
Se está ejecutando una gran cantidad de código innecesario para la conectividad del usuario final: más oportunidades para defectos, problemas de seguridad y tiempo de inactividad.
Las características de DC (ISSU, DCB, almacenamiento, ciertos elementos de secuencias de comandos en la caja) no están, y no estarán, en los dispositivos centrados en el campus. Los mecanismos para administrar y escalar la extensión L2 de una manera sensata también (es decir, FabricPath / TRILL, OTV, VXLAN, etc.) también tienden a faltar tanto en el estado actual como en las hojas de ruta fuera de los productos DC. La lista aquí solo va a crecer: virtualización en caja, soporte de mecanismos de asistencia HW, etc.
Escalabilidad: ¿cómo se hace crecer la infraestructura? ¿Montones y montones de interruptores (caros de administrar)? El apilamiento (operacionalmente difícil, problemas importantes de cableado) es un desastre. Además, la flexibilidad de los tipos de interfaz (fibra frente a cobre, por ejemplo) en densidad puede ser un desafío.

En general, las diferencias entre DC y la conmutación de armario están creciendo. En el mundo de Cisco hay distintos sistemas operativos (NXOS vs IOS) por muy buenas razones: los requisitos muy diferentes producen soluciones divergentes. La velocidad de la función para los mecanismos de autenticación de usuario (802.1x) o la elegante integración AV no se necesitan en el centro de datos, mientras que la capacidad de terminar toneladas de 10GE no se necesita en el armario de cableado. Diferentes herramientas para diferentes trabajos. Una caja Nexus que conecta computadoras de escritorio también sería un plan menos que ideal.

También le señalaría las diversas guías de diseño (CVD, etc.) que explican los motivos de los tipos de conmutadores utilizados en varios puntos de la red. Hay algo que decir sobre las soluciones que generalmente se asemejan a las mejores prácticas comunes en la industria, y los conmutadores que está mencionando generalmente no tienen cabida en DC, aparte de las redes de administración o ciertas situaciones de conectividad local de casos especiales.

— rnxrx
fuente

4

Tengo un cliente que los implementó como una pila de conmutadores SAN (usando 3750X) con la SAN conectada a 10 Gbit y luego sus hosts ESX conectados a Gbit (o múltiples Gbit usando LAG) y la cantidad de caídas de salida es astronómica, no importa cómo intentas afinar los tampones.

El mismo cliente tiene otras dos pilas 3750 en el mismo DC para otras redes y todas están limpias.

TL; DR: Realmente depende del tipo de tráfico que va a poner en la pila y dónde están sus cuellos de botella.

— David Rothera
fuente

3

Las fuentes de alimentación / ventiladores dentro de 3560/3750 no son intercambiables en caliente / una vez que se monta el conmutador y ocurre la falla inevitable de estos dispositivos, todos los servidores deben desconectarse del 3560/3750 mientras se desmonta y se reemplaza con el RMA.

Además, la dirección del ventilador en los 3560/3750 se convierte en un problema con el pasillo caliente / pasillo frío y otras configuraciones de enfriamiento. El montaje de los conmutadores donde los puertos del conmutador miran hacia la parte posterior de los servidores crea una situación en la que los ventiladores del conmutador soplan en la dirección incorrecta. Esto sobrecalienta el interruptor, lo que hace que sea más probable que falle / necesite reemplazo.

— Alex.D.Pappas
fuente