Las perturbaciones de un solo evento ya no son una cuestión de espacio ni de avión; Los hemos estado viendo en la superficie por más de una década, tal vez dos por ahora.
Sin embargo, como se mencionó, al menos en las aplicaciones espaciales tratamos las molestias mediante la votación triple (cada bit es realmente tres y gana un voto de dos tercios, por lo que si hay uno que cambia, los otros dos lo cubrirán). Y luego, ECC o EDAC , con depuradores que pasan por la RAM a una velocidad superior a la tasa de actualización de evento único prevista para limpiar las perturbaciones de eventos individuales (las que realmente empujan a los dos tercios a votar mal).
Luego está la dosis total; Con el tiempo, el material se vuelve demasiado radiactivo para funcionar, por lo que utiliza suficiente material para exceder la vida útil del vehículo. No es algo de lo que nos preocupemos en la superficie normalmente. (Y latchup) Usar tres / múltiples conjuntos de lógica en paralelo es / era una forma de tratar de no tener que usar la tecnología tradicional de rad-hard, y bueno, puedes encontrar qué tan bien está funcionando.
Las personas que solían saber cómo hacer cosas para el espacio en su mayoría se retiraron o se mudaron, por lo que ahora tenemos una serie de programas que hacen basura espacial. O tratando el espacio como productos terrestres, en lugar de tratar de hacer que todos trabajen y tener un reingreso y quemado controlados, ahora esperamos una cierta cantidad de basura espacial de cada constelación.
Vemos molestias en la superficie. Cualquier tarjeta de memoria ( DRAM ) que compre tiene un FIT, Failures In Time, y cualquier chip con RAM (todos los procesadores, muchos otros), también tendrá una especificación FIT (para los bloques RAM (SRAM)). La RAM es más densa y utiliza transistores más pequeños, por lo que es más susceptible a molestias, creadas internamente o externas. La mayoría de las veces no nos damos cuenta o no nos importa, ya que la memoria que usamos para datos, mirar un video, etc., se escribe, se lee y no se vuelve a usar antes de que permanezca el tiempo suficiente como para molestarla. Alguna memoria, como la que tiene un programa o el núcleo, es más arriesgada. Pero hace tiempo que estamos acostumbrados a la idea de reiniciar nuestra computadora o reiniciar / reiniciar nuestro teléfono (algunos teléfonos / marcas tendrían que quitar la batería periódicamente). ¿Fueron estas molestias o mal software o una combinación?
Los números FIT para su producto individual pueden exceder la vida útil de ese producto, pero en una gran granja de servidores, tiene en cuenta toda la RAM o los chips o lo que sea, y el MTBF pasa de años u órdenes más allá de eso, a días u horas, en algún lugar la granja. Y tiene ECC para cubrir lo que pueda de ellos. Y luego distribuye la carga de procesamiento con failovers para cubrir las máquinas o el software que no puede completar una tarea.
El deseo de almacenamiento en estado sólido y el movimiento de los medios giratorios ha creado un problema relacionado con esto. El almacenamiento utilizado para SSD (y otro almacenamiento no volátil) para ser más rápido y más barato, es mucho más volátil de lo que nos gustaría y depende de EDAC, porque estaríamos perdiendo datos sin él. Tiran muchos bits adicionales y eccúan todo, haciendo los cálculos para equilibrar la velocidad, el costo y la longevidad del almacenamiento. No nos veo volviendo atrás; la gente quiere más almacenamiento no volátil en todas partes que quepa en un paquete pequeño y no domine el precio del producto.
En lo que respecta a los circuitos normales, desde los primeros días de usar transistores para circuitos digitales hasta el presente, pasamos a través de la porción lineal del transistor y lo usamos como un interruptor, lo golpeamos entre los rieles con un poco de exceso para asegurar que se pegue. . Al igual que el interruptor de la luz en su pared, lo gira más de la mitad de un resorte para ayudar al resto y mantenerlo allí. Es por eso que usamos digital y no tratamos de vivir en la región lineal; Lo intentaron desde el principio, pero fracasaron. No pudieron permanecer calibrados.
Entonces, simplemente golpeamos el transistor en sus rieles y ambos lados de una señal se asentarán en el siguiente ciclo de reloj. Se toman grandes esfuerzos, y las herramientas actuales son significativamente mejores de lo que solían ser, al hacer el análisis del diseño del chip, para ver que por diseño hay margen en el tiempo. Luego pruebe cada troquel en cada oblea (eso y / o después del empaque), para ver que cada chip es bueno.
La tecnología de chips depende en gran medida de estadísticas basadas en experimentos. Cuando overclockea su CPU, está presionando ese margen, se mantiene dentro de la frecuencia de reloj, temperatura, etc. anunciadas y sus posibilidades son significativamente menores de tener problemas. Un procesador xyz de 3 GHz es simplemente un chip de 4 GHz que falló a 4 GHz pero pasó a 3 GHz. Las partes se clasifican por velocidad básicamente desde una línea de producción.
Luego están las conexiones entre chips o placas, y también están sujetas a problemas, y se necesita mucho tiempo y esfuerzo para hacer estándares y diseños de placa, etc., para mitigar el error en esas interfaces. USB , teclado, mouse, HDMI , SATA , etc. Así como todos los rastros en el tablero. Dentro y fuera del tablero tiene problemas de diafonía; una vez más, hay muchas herramientas disponibles si las usa, así como experiencia para evitar los problemas en primer lugar, pero otra forma en la que es posible que no veamos los unos y los ceros completamente comprometidos.
Ninguna de las tecnologías, ni siquiera el espacio, es perfecta. Solo tiene que ser lo suficientemente bueno, un porcentaje suficiente del producto debe cubrir la vida útil esperada del producto. Algún porcentaje de los teléfonos inteligentes tiene que durar al menos dos años, y eso es todo. Las fundiciones o tecnologías más antiguas tienen datos más experimentales y pueden producir un producto más confiable, pero es más lento y es posible que no sean diseños nuevos, así que ahí lo tienes. La vanguardia es solo eso, una apuesta para todos.
Para su pregunta específica, los transistores en cada extremo de una señal se empujan rápidamente a través de su región lineal y se inclinan hacia uno de los rieles. El análisis se realiza en cada ruta combinacional para determinar que se asentará antes de que el reloj al final de la ruta lo bloquee, de modo que realmente se convierta en cero o uno. El análisis se basa en experimentos. Los primeros chips de una línea de productos se empujan más allá de los límites del diseño, los gráficos schmoo se hacen para determinar si hay margen en el diseño. Se realizan variaciones en el proceso y / o se encuentran candidatos individuales que representan los chips lentos y rápidos. Es un proceso complicado y algunos tienen más material, otros tienen menos, corren más rápido pero usan más energía o corren más lento, etc.
Los empujas a los márgenes también. Y básicamente tiene una cálida sensación de que el diseño está bien para entrar en producción. La exploración JTAG / límite se utiliza para ejecutar patrones aleatorios a través de los chips entre cada estado bloqueado para ver que las rutas combinacionales son sólidas para un diseño. Y donde hay preocupaciones, algunas pruebas funcionales dirigidas también pueden ocurrir. Pruebas adicionales del primer silicio y quizás pruebas aleatorias para asegurarse de que el producto sea bueno. Si / cuando ocurren fallas, eso puede empujarlo de regreso a más pruebas funcionales en la línea de producción. Depende en gran medida de las estadísticas / porcentajes. 1/1000000 de los malos que salen pueden estar bien o 1/1000 o lo que sea; depende de cuántos creas que producirás de ese chip.
Las vulnerabilidades son como se mencionan aquí y con otros. Primero el chip en sí, qué tan bueno fue el diseño y el proceso, qué tan cerca del margen es la ruta más débil de un chip específico en el producto que compraste. Si está demasiado cerca del borde, el cambio de temperatura u otro puede causar problemas de temporización y los bits atraparán los datos que no se hayan asentado en uno o cero. Luego están los eventos individuales molestos. Y luego hay ruido. de nuevo cosas ya mencionadas ...