Si los valores digitales son meras estimaciones, ¿por qué no volver a analógico para IA?


18

El impulso detrás de la transición del siglo XX de los circuitos analógicos a digitales fue impulsado por el deseo de una mayor precisión y menor ruido. Ahora estamos desarrollando un software donde los resultados son aproximados y el ruido tiene un valor positivo.

  • En redes artificiales, utilizamos modelos de gradientes (jacobianos) o de segundo grado (hessianos) para estimar los próximos pasos en un algoritmo convergente y definir niveles aceptables de inexactitud y duda. 1
  • En las estrategias de convergencia, nosotros agregamos deliberadamente ruido al inyectar perturbaciones aleatorias o pseudoaleatorias para mejorar la confiabilidad al saltar esencialmente los mínimos locales en la superficie de optimización durante la convergencia. 2

Lo que aceptamos e introducimos deliberadamente en los sistemas actuales de IA son las mismas cosas que llevaron la electrónica a los circuitos digitales.

¿Por qué no volver a los circuitos analógicos para redes neuronales e implementarlas con matrices de amplificadores operacionales en lugar de matrices de elementos de procesamiento de señales digitales?

Los valores de los parámetros de aprendizaje de la red artificial pueden mantenerse utilizando condensadores integrados cargados a través de convertidores D-a-A, de modo que los estados aprendidos puedan beneficiarse de la precisión y conveniencia digital, mientras que la propagación directa se beneficia de ventajas analógicas.

  • Mayor velocidad 3
  • Órdenes de magnitud menos transistores para representar células de red
  • Ruido térmico natural 4

Un artículo académico o una búsqueda de patente para redes artificiales analógicas revela mucho trabajo en los últimos cuarenta años, y la tendencia de investigación se ha mantenido. Los circuitos analógicos computacionales están bien desarrollados y proporcionan una base para las matrices neurales.

¿Podría la obsesión actual con la computación digital estar nublando la visión común de las opciones arquitectónicas de IA?

¿Es el análogo híbrido la arquitectura superior para redes artificiales?

 


Notas al pie

[1] El marco de aprendizaje PAC (probablemente aproximadamente correcto) relaciona el error aceptable ϵ y la duda aceptable δ con el tamaño de muestra requerido para el aprendizaje de tipos de modelos específicos. (Tenga en cuenta que 1-ϵ representa la precisión y 1-δ representa confianza en este marco).

[2] El descenso de gradiente estocástico se muestra, cuando se utilizan estrategias apropiadas e hiperparámetros, para converger más rápidamente durante el aprendizaje y se está convirtiendo en una práctica recomendada en aplicaciones típicas del mundo real de redes artificiales.

[3] El procesador Intel Core i9-7960X funciona a velocidades turbo de 4.2 GHz, mientras que la transmisión satelital fija estándar es de 41 GHz.

[4] Se puede obtener ruido térmico en el silicio amplificando y filtrando la fuga de electrones a través de diodos zener polarizados inversamente en su punto de avalancha. La fuente de los fenómenos cuánticos es el ruido térmico de Johnson-Nyquist. Sanguinetti et. Alabama. en su 'Generación de números aleatorios cuánticos en un teléfono móvil' (2014), "Un detector se puede modelar como un canal con pérdida con una probabilidad de transmisión η seguido de un convertidor de fotón a electrón con eficiencia de la unidad ... la distribución medida sea ​​la combinación de incertidumbre cuántica y ruido técnico ", y está el trabajo JTWPA de CalTech. Ambos pueden convertirse en estándares para producir ruido cuántico verdaderamente no determinista en circuitos integrados.

Referencias


1
Yo diría que estás en algo. Hay algunos esfuerzos para poner la IA en chips analógicos (creo que Apple podría estar haciendo algo con el iPhone). No estoy seguro de cuánta investigación se ha realizado, pero estoy seguro de que puede encontrar algún documento técnico en alguna parte. Definitivamente vale la pena investigar. Mi predicción es que pronto puede haber chips de IA programables que tengan un número establecido de entradas y salidas (algo así como registros de bus).
Zakk Diaz

No es una respuesta completa, pero sospecho que el problema principal es el costo. Los circuitos de impresión son súper baratos a escala, y siguen siendo bastante caros en lotes pequeños. Las GPU discretas ya se producen en masa y funcionan "lo suficientemente bien". Un chip analógico generalmente solo puede hacer bien una tarea, y los modelos preferidos cambian rápidamente. Un chip discreto se puede programar para hacer muchas cosas diferentes. Si encontramos una "mejor" topología para ANN, tal vez tenga sentido volver a hacer chips analógicos.
John Doucette el

1
Guau. Mi primer día en este sitio y encontré a alguien que comparte un pensamiento conmigo. :-D

Respuestas:


6

Creo que hay varias razones. En primer lugar: flexibilidad. Con las CPU y GPU modernas, puede construir prácticamente todos los modelos de IA que desee y en cada tamaño y complejidad que desee. ¿Cómo puede estar seguro de que el modelo que está utilizando actualmente sigue siendo adecuado en unos años? ¿Tal vez habrá un gran avance en las NN en los próximos años? Tal vez algunos científicos descubran que hay una forma mucho mejor de desarrollar una IA que con NN, algoritmos genéticos, etc. Los chips normales pueden manejarlo todo y pueden manejarlo lo suficientemente bien. Pero si desea optimizarlo y no tiene que preocuparse por el dinero, puede desarrollar una arquitectura especializada (esto ya lo hacen diferentes empresas, lo que aumenta la velocidad en tareas específicas).

Razón número dos: producción en masa. Quiero decir, las empresas podrían producir componentes de inteligencia artificial analógicos altamente integrados (digamos, por ejemplo, chips NN). Pero eso sería una mayor inversión. No está claro si las unidades que son lo suficientemente flexibles como para ser una alternativa de hardware de IA seria, se pueden producir fácilmente en una producción de nm en masa que puede competir contra CPU y GPU. Especialmente estos últimos están altamente optimizados para hacer cálculos paralelos masivos. Y, si observa el desarrollo de arquitecturas similares a GPU (puede hacer algunas cosas, pero muy bien) que están optimizadas adicionalmente para el aprendizaje de máquinas, puede ver que sería una dura competencia para las unidades analógicas.

Todo lo anterior no significa que no haya investigación en esta área. Hay varios experimentos que intentan archivar eso, pero aún no son "peligrosos" para las arquitecturas comunes. Eventualmente, vendrán en el futuro, cuando comprendamos mejor la inteligencia artificial y la inteligencia en general y solo intentemos ajustar, pero soy bastante escéptico al respecto.

EDITAR: Además, algo que también pertenece a la flexibilidad: puede experimentar mejor con los algoritmos de IA que se ejecutan en hardware digital 'normal'. Por ejemplo, puede inspeccionar fácilmente un NN en ciertas ubicaciones, puede modificar rápidamente los datos de entrada o proporcionar otros, realmente no está obligado a nada. Y dado que todavía no conocemos o entendemos completamente cada modelo, cuándo usar cuál, si hay mejores arquitecturas para una determinada tarea, etc., no tiene sentido poner algo 'joven' y 'experimental' en un análogo fijo arquitectura.


Aunque la economía de escala (gran volumen de fabricación) favorece lo digital hoy, no lo hizo en la década de 1980 y muchas otras no en la década de 2040. El análogo es más barato por transistor. Hay 128,000 transistores en un núcleo CUDA por hilo y solo 40 transistores en un amplificador operacional multiplexado. Más importante aún, la pregunta es teórica, qué tiene más sentido tecnológico, no qué es económico en el estado actual de la economía VLSI. Si hay algún patrón que podamos ver en la tecnología en los últimos 100 años es que lo normal de hoy es la pieza de museo del mañana. - Leer los requisitos de recompensa puede ayudar.
FauChristian

¿Pero no es eso algo similar en este escenario? El desarrollo masivo de ese hardware AHORA no tendría sentido económico, pero tampoco tecnológico. Simplemente no sabemos lo suficiente.
Ben

Si "nosotros" es la membresía de AI Stack Exchange, existe una fuerte tendencia hacia lo que ya se ha implementado en las bibliotecas populares de Python. Pero los gobiernos y las grandes corporaciones parecen estar interesados ​​en aumentar las redes y el VLSI analógico también, USAF e Intel, por ejemplo. Hay un impulso de los laboratorios de robótica hacia lo análogo, y los investigadores neurocogitivos ven a los ANN como no dignos del medio N. Las neuronas reales son miles de veces más complejas que una función ReLU. Lo que surgirá como dominante para qué aplicación no está claro, pero eso no es lo mismo que no saber lo suficiente como para discutir las opciones.
FauChristian

Es posible que haya leído la palabra "puro" en la pregunta. Ninguna de las investigaciones en curso sugiere analógico puro, con diales en lugar de teclados y CRT en lugar de LCD. Todas las propuestas recientes en la literatura y en el desarrollo activo de VLSI siguen un paradigma bien comprendido: simule un análogo programable (no fijo) que pueda aprender el programa como pueden hacerlo las redes artificiales digitales, luego realice en silicio, sin eliminar la capacidad de aprendizaje o la capacidad de aprendizaje. Las señales en tiempo real pueden ser analógicas, digitales o ambas, pero el control general del chip es digital, como con una GPU o DSP.
FauChristian

El período de recompensa pronto terminará, y si el aprendizaje analógico tiene sentido porque puede capitalizar el ruido cuántico fácilmente disponible aún no se aborda en esta respuesta. La predicción no fue indicada por la pregunta. Además, el presupuesto masivo que parece estar dirigido al cálculo analógico de perceptrones, convolución y redes de picos puede prevalecer, pero solo si la viabilidad a largo plazo es racional. De ahí la pregunta.
FauChristian

6

Respuesta rápida

Cuando Intel adquirió Nirvana, indicaron su creencia de que el VLSI analógico tiene su lugar en los chips neuromórficos del futuro cercano 1, 2, 3 .

Si fue debido a la capacidad de explotar más fácilmente el ruido cuántico natural en los circuitos analógicos aún no es público. Es más probable debido a la cantidad y complejidad de las funciones de activación paralelas que se pueden empaquetar en un solo chip VLSI. Lo analógico tiene una ventaja de órdenes de magnitud sobre lo digital en ese sentido.

Es probable que sea beneficioso para los miembros de AI Stack Exchange ponerse al día con esta evolución tecnológica altamente indicada.

Tendencias importantes y no tendencias en IA

Para abordar esta cuestión científicamente, es mejor contrastar la teoría de señales analógicas y digitales sin el sesgo de las tendencias.

Los entusiastas de la inteligencia artificial pueden encontrar mucho en la web sobre aprendizaje profundo, extracción de características, reconocimiento de imágenes y las bibliotecas de software para descargar e inmediatamente comenzar a experimentar. Es la forma en que la mayoría se moja los pies con la tecnología, pero la introducción rápida a la IA también tiene su lado negativo.

Cuando no se entienden los fundamentos teóricos de los primeros despliegues exitosos de IA orientada al consumidor, se forman suposiciones que entran en conflicto con esos fundamentos. Se pasan por alto opciones importantes, como neuronas artificiales analógicas, redes con picos y retroalimentación en tiempo real. La mejora de las formas, las capacidades y la fiabilidad se ven comprometidas.

El entusiasmo en el desarrollo tecnológico siempre debe atenuarse con al menos una medida igual de pensamiento racional.

Convergencia y Estabilidad

En un sistema donde la precisión y la estabilidad se logran a través de la retroalimentación, los valores de señal tanto analógicos como digitales son siempre meras estimaciones.

  • Valores digitales en un algoritmo convergente, o, más precisamente, una estrategia diseñada para converger
  • Valores de señal analógica en un circuito amplificador operacional estable

Comprender el paralelismo entre la convergencia a través de la corrección de errores en un algoritmo digital y la estabilidad lograda a través de la retroalimentación en la instrumentación analógica es importante al pensar en esta pregunta. Estos son los paralelos que utilizan la jerga contemporánea, con digital a la izquierda y análogo a la derecha.

┌───────────────────────────────┬───────────────── ─────────────┐
│ * Redes Artificiales Digitales * Anal * Redes Artificiales Analógicas * │
├───────────────────────────────┼───────────────── ─────────────┤
│ Propagación hacia adelante │ Ruta de señal primaria │
├───────────────────────────────┼───────────────── ─────────────┤
│ Función de error │ Función de error │
├───────────────────────────────┼───────────────── ─────────────┤
│ Convergente │ Estable │
├───────────────────────────────┼───────────────── ─────────────┤
│ Saturación de gradiente │ Saturación en las entradas │
├───────────────────────────────┼───────────────── ─────────────┤
│ Función de activación │ Función de transferencia directa │
└───────────────────────────────┴───────────────── ─────────────┘

Popularidad de los circuitos digitales

El factor principal en el aumento de la popularidad del circuito digital es su contención de ruido. Los circuitos digitales VLSI de hoy tienen tiempos medios largos hasta el fallo (tiempo medio entre instancias cuando se encuentra un valor de bit incorrecto).

La eliminación virtual del ruido le dio a los circuitos digitales una ventaja significativa sobre los circuitos analógicos para la medición, el control PID, el cálculo y otras aplicaciones. Con los circuitos digitales, se pueden medir hasta cinco dígitos decimales de precisión, controlar con una precisión notable y calcular π a mil dígitos decimales de precisión, de forma repetible y confiable.

Fueron principalmente los presupuestos de aeronáutica, defensa, balística y contramedidas los que aumentaron la demanda de fabricación para lograr la economía de escala en la fabricación de circuitos digitales. La demanda de resolución de pantalla y velocidad de representación está impulsando el uso de la GPU como procesador de señal digital ahora.

¿Estas fuerzas en gran medida económicas están causando las mejores opciones de diseño? ¿Son las redes artificiales basadas digitalmente el mejor uso de los preciosos bienes inmuebles de VLSI? Ese es el desafío de esta pregunta, y es buena.

Realidades de la complejidad de IC

Como se menciona en un comentario, se necesitan decenas de miles de transistores para implementar en silicio una neurona de red artificial independiente y reutilizable. Esto se debe principalmente a la multiplicación de la matriz de vectores que conduce a cada capa de activación. Solo se necesitan unas pocas docenas de transistores por neurona artificial para implementar una multiplicación de matriz de vectores y la matriz de amplificadores operacionales de la capa. Los amplificadores operacionales pueden diseñarse para realizar funciones como paso binario, sigmoide, soft plus, ELU e ISRLU.

Ruido de señal digital de redondeo

La señalización digital no está libre de ruido porque la mayoría de las señales digitales son redondeadas y, por lo tanto, aproximaciones. La saturación de la señal en retropropagación aparece primero como el ruido digital generado a partir de esta aproximación. Se produce una saturación adicional cuando la señal siempre se redondea a la misma representación binaria.

vmiknortenorte es el número de bits en la mantisa.

v=norte=0 0norte1norte2k+mi+norte-norte

Los programadores a veces encuentran los efectos del redondeo en números de coma flotante IEEE de precisión doble o simple cuando las respuestas que se espera que sean 0.2 aparecen como 0.20000000000001. Un quinto no puede representarse con una precisión perfecta como un número binario porque 5 no es un factor de 2.

Ciencia sobre el bombo mediático y las tendencias populares

mi=metroC2

En el aprendizaje automático, como ocurre con muchos productos de tecnología, existen cuatro métricas clave de calidad.

  • Eficiencia (que impulsa la velocidad y la economía de uso)
  • Fiabilidad
  • Exactitud
  • Comprensibilidad (que impulsa la mantenibilidad)

A veces, pero no siempre, el logro de uno compromete a otro, en cuyo caso debe alcanzarse un equilibrio. El descenso de gradiente es una estrategia de convergencia que se puede realizar en un algoritmo digital que equilibra muy bien estos cuatro, por lo que es la estrategia dominante en el entrenamiento de perceptrones multicapa y en muchas redes profundas.

Esas cuatro cosas fueron centrales para el trabajo cibernético temprano de Norbert Wiener antes de los primeros circuitos digitales en Bell Labs o el primer flip flop realizado con tubos de vacío. El término cibernética se deriva del griego κυβερνήτης (pronunciado kyvernítis ) que significa timonel, donde el ruder y las velas tenían que compensar los cambios constantes del viento y la corriente y el barco necesitaba converger en el puerto o puerto previsto.

La tendencia de esta pregunta impulsada por la tendencia podría rodear la idea de si se puede lograr VLSI para lograr una economía de escala para redes analógicas, pero el criterio dado por su autor es evitar las opiniones impulsadas por la tendencia. Incluso si ese no fuera el caso, como se mencionó anteriormente, se requieren considerablemente menos transistores para producir capas de red artificiales con circuitos analógicos que con digitales. Por esa razón, es legítimo responder a la pregunta suponiendo que el análogo VLSI sea muy factible a un costo razonable si la atención se dirige a lograrlo.

Diseño de red artificial analógica

Se están investigando redes artificiales análogas en todo el mundo, incluida la empresa conjunta IBM / MIT, Intel Nirvana, Google, la Fuerza Aérea de EE. UU. Desde 1992 5 , Tesla y muchos otros, algunos indicados en los comentarios y la adición a este pregunta.

El interés en lo analógico para redes artificiales tiene que ver con la cantidad de funciones de activación paralelas involucradas en el aprendizaje que pueden caber en un milímetro cuadrado de bienes inmuebles con chips VLSI. Eso depende en gran medida de cuántos transistores se requieren. Las matrices de atenuación (las matrices de parámetros de aprendizaje) 4 requieren la multiplicación de matriz de vectores, lo que requiere una gran cantidad de transistores y, por lo tanto, una porción significativa de bienes inmuebles VLSI.

Debe haber cinco componentes funcionales independientes en una red básica de perceptrón multicapa si va a estar disponible para una capacitación totalmente paralela.

  1. La multiplicación de matriz de vectores que parametriza la amplitud de la propagación directa entre las funciones de activación de cada capa
  2. La retención de parámetros.
  3. Las funciones de activación para cada capa.
  4. La retención de las salidas de la capa de activación para aplicar en la retropropagación
  5. La derivada de las funciones de activación para cada capa.

En circuitos analógicos, con el mayor paralelismo inherente al método de transmisión de señal, 2 y 4 pueden no ser necesarios. La teoría de retroalimentación y el análisis armónico se aplicarán al diseño del circuito, utilizando un simulador como Spice.

CpagC(r)r(t,C)tyoyowyo τpagτun y τre respectivamente.

C=CpagC(r(t,C)ret)(yo=0 0yo-2(τpagwyowyo-1+τunwyo+τrewyo)+τunwyo-1+τrewyo-1)

Para valores comunes de estos circuitos en circuitos integrados analógicos actuales, tenemos un costo para chips VLSI analógicos que convergen con el tiempo a un valor de al menos tres órdenes de magnitud por debajo de los chips digitales con paralelismo de entrenamiento equivalente.

Directamente abordando la inyección de ruido

La pregunta dice: "Estamos utilizando gradientes (jacobianos) o modelos de segundo grado (hessianos) para estimar los próximos pasos en un algoritmo convergente y agregar deliberadamente ruido [o] inyectando perturbaciones pseudoaleatorias para mejorar la confiabilidad de la convergencia saltando pozos locales en el error superficie durante la convergencia ".

La razón por la que se inyecta ruido pseudoaleatorio en el algoritmo de convergencia durante el entrenamiento y en las redes entrantes en tiempo real (como las redes de refuerzo) se debe a la existencia de mínimos locales en la superficie de disparidad (error) que no son los mínimos globales de ese superficie. El mínimo global es el estado óptimo entrenado de la red artificial. Los mínimos locales pueden estar lejos de ser óptimos.

Esta superficie ilustra la función de error de los parámetros (dos en este caso altamente simplificado 6 ) y la cuestión de un mínimo local que oculta la existencia del mínimo global. Los puntos bajos en la superficie representan mínimos en los puntos críticos de las regiones locales de convergencia de entrenamiento óptima. 7,8

Superficie de error que muestra cómo se puede perder Global Optimum

Las funciones de error son simplemente una medida de la disparidad entre el estado actual de la red durante el entrenamiento y el estado deseado de la red. Durante el entrenamiento de redes artificiales, el objetivo es encontrar el mínimo global de esta disparidad. Tal superficie existe ya sea que los datos de la muestra estén etiquetados o no y si los criterios de finalización del entrenamiento son internos o externos a la red artificial.

Si la tasa de aprendizaje es pequeña y el estado inicial está en el origen del espacio de parámetros, la convergencia, usando el descenso de gradiente, convergerá al pozo más a la izquierda, que es un mínimo local, no el mínimo global a la derecha.

Incluso si los expertos que inicializan la red artificial para el aprendizaje es lo suficientemente inteligente como para elegir el punto medio entre los dos mínimos, el gradiente en ese punto todavía se inclina hacia el mínimo de la mano izquierda, y la convergencia llegará a un estado de entrenamiento no óptimo. Si la optimización de la capacitación es crítica, lo cual es frecuente, la capacitación no logrará resultados de calidad de producción.

Una solución en uso es agregar entropía al proceso de convergencia, que a menudo es simplemente la inyección de la salida atenuada de un generador de números pseudoaleatorios. Otra solución que se usa con menos frecuencia es ramificar el proceso de capacitación e intentar la inyección de una gran cantidad de entropía en un segundo proceso convergente para que haya una búsqueda conservadora y una búsqueda algo salvaje que se ejecute en paralelo.

Es cierto que el ruido cuántico en circuitos analógicos extremadamente pequeños tiene una mayor uniformidad en el espectro de la señal desde su entropía que un generador pseudoaleatorio digital y se requieren muchos menos transistores para lograr el ruido de mayor calidad. Si los desafíos de hacerlo en las implementaciones de VLSI se han superado aún no se ha revelado por los laboratorios de investigación integrados en gobiernos y corporaciones.

  • ¿Serán inmunes al ruido externo durante el entrenamiento tales elementos estocásticos utilizados para inyectar cantidades medidas de aleatoriedad para mejorar la velocidad y confiabilidad del entrenamiento?
  • ¿Estarán suficientemente protegidos de la conversación interna?
  • ¿Surgirá una demanda que reducirá el costo de fabricación de VLSI lo suficiente como para alcanzar un punto de mayor uso fuera de las empresas de investigación altamente financiadas?

Los tres desafíos son plausibles. Lo que es seguro y también muy interesante es cómo los diseñadores y fabricantes facilitan el control digital de las rutas de señal analógica y las funciones de activación para lograr un entrenamiento de alta velocidad.

Notas al pie

[1] https://ieeexplore.ieee.org/abstract/document/8401400/

[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age

[3] https://www.roboticstomorrow.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820

[4] La atenuación se refiere a la multiplicación de una salida de señal de una actuación por un perameter entrenable para proporcionar un suma para ser sumado con otros para la entrada a una activación de una capa posterior. Aunque este es un término de física, a menudo se usa en ingeniería eléctrica y es el término apropiado para describir la función de la multiplicación de matriz de vectores que logra lo que, en círculos menos educados, se llama ponderar las entradas de capa.

[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf

[6] Hay muchas más de dos parámetros en redes artificiales, pero solo dos se muestran en esta ilustración porque la gráfica solo puede ser comprensible en 3-D y necesitamos una de las tres dimensiones para el valor de la función de error.

[7] Definición de superficie: z=(X-2)2+(y-2)2+60 60-401+(y-1.1)2+(X-0.9)2-40(1+((y-2.2 2.2)2+(X-3.1)2)4 4)

[8] Comandos gnuplot asociados:

set title "Error Surface Showing How Global Optimum Can be Missed"
set xlabel "x"
set ylabel "y"
set pm3d at b
set ticslevel 0.8
set isosample 40,40
set xrange [0:4]
set yrange [0:4]
set nokey
splot (x-2)**2 + (y-2)**2 + 60 \
    - 40 / sqrt(1+(y-1.1)**2+(x-0.9)**2) \
    - 40 / (1+(y-2.2)**2+(x-3.1)**2)**4

4

Instrumentación digital de las células analógicas.

Uno de los desafíos clave en las redes artificiales analógicas es que la instrumentación de red sería más práctica si fuera digital. Cualquier implementación VLSI de perceptrones analógicos, convoluciones o redes de picos probablemente necesitará tener componentes digitales en una disposición híbrida para varias funciones.

  • Indicadores de salud
  • Indicadores de falla
  • Archivo y recuperación de parámetros aprendidos 1
  • Control general del sistema
  • Establecer hiperparámetros
  • Estadísticas operacionales
  • Introspección para desarrollo y depuración
  • Puntos de quiebre
  • Auditabilidad

Esto significa que la realización de una red de aprendizaje artificial analógica de propósito general requerirá una conversión de A a D y de D a A. 2 El desafío del diseño de VLSI es evitar la acumulación de transistores a partir de la introducción de una gran cantidad de bloques de conversión. Esto derrotaría la ventaja de densidad de la realización analógica de la propagación hacia adelante y hacia atrás.

La solución probable es utilizar una matriz de enclavamiento para distribuir señales desde los convertidores D-a-A a los condensadores y la matriz de conmutación de baja fuga para seleccionar qué valor leerán los convertidores A-D. Esto debe hacerse sin introducir ruido digital en las rutas analógicas y sin degradar las cargas almacenadas o la pérdida de precisión al cargarlas.

La importancia de la cantidad de transistores y rutas adicionales en un circuito fuera de la red primaria solo se puede encontrar ejerciendo un proceso de diseño VLSI.

Importantes contribuciones de código abierto

La Universidad de Massachusetts presentó el repositorio de código abierto BindsNet 3,4 en febrero de 2018. Simula redes de picos analógicos con software y hardware digital y aprovecha la aceleración de GPU a través de PyTorch.

Esto facilita la experimentación actual en los diseños y estrategias de red de punta. El éxito con la simulación, si es lo suficientemente significativo, probablemente conduciría a diseños VLSI superiores.


Notas al pie

[1] En cualquier sistema de aprendizaje práctico, los parámetros aprendidos deben extraerse de la implementación de VLSI, almacenarse en una base de datos y ponerse a disposición de cualquier número de sistemas de desarrollo, prueba, UAT o producción para su implementación, análisis de causa raíz de fallas, escalado y recuperación de desastres. Guardar y cargar debe ser una característica básica de las redes artificiales analógicas híbridas VLSI, incluso entre épocas durante el entrenamiento y durante el uso real en el campo.

[2] No se puede mantener el estado aprendido de una red artificial en condensadores indefinidamente. Aunque los condensadores se han convertido en el componente pasivo dominante para los circuitos analógicos diseñados en procesos CMOS estándar, no pueden tener mucha capacidad y la fuga no es cero. La vida media de los circuitos de almacenamiento capacitivo y la precisión requerida de los valores de los parámetros determinarán la velocidad de un ciclo de actualización condicional y de lectura.

[3] Repositorio de código abierto BindsNet

[4] BindsNET [paper]: una biblioteca de redes neuronales con picos orientada al aprendizaje automático en Python para la publicación en Harvard U del resumen del artículo de BindsNet.


4

Me sorprende que nadie haya mencionado algunas de las instrucciones específicas de investigación en el campo de la IA analógica. Y también para aclarar que la Inteligencia Artificial no es exactamente lo mismo que el Aprendizaje automático como sugiere esta respuesta . Los avances recientes en computación analógica solo han estado en el campo del aprendizaje automático.

CMOS analógico:

Primero, hablemos de las primeras implementaciones analógicas de neuronas. Dr.Giacomo Indiveri, et al ha sido pocos de los pioneros en el campo. Aunque con la lógica CMOS puedes diseñar redes neuronales con STDP (Plasticidad dependiente del tiempo de ), es difícil utilizar algoritmos de aprendizaje automático. El cerebro humano aún no se comprende por completo, especialmente cómo comunica información compleja con picos. Las redes basadas en picos son buenas para realizar tareas de reconocimiento de imagen relativamente pequeñas y de baja complejidad (la mayoría de los documentos parecen estar más preocupados por mejorar el rendimiento en lugar de aplicarlo a tareas altamente complejas). Debido a la gran cantidad de transistores disponibles, podríamos usarlo en tareas complejas.

El mejor ejemplo sería que Google está usando esta idea de baja precisión en TPU y precisión de compensación, al usar una gran cantidad de unidades de procesamiento que está causando algún tipo de compensación entre tiempo, precisión y área. Esto puede ser análogo a la gran cantidad de transistores en un procesador, aunque con poca precisión. ( Una mirada en profundidad a la primera Unidad de procesamiento de tensor (TPU) de Google )

NOTA: Algunos podrían argumentar que la tecnología CMOS cae dentro del dominio digital, pero dado que no estamos usando CMOS específicamente aquí para realizar ninguna operación digital, me gusta pensar que es analógica.

Las tareas basadas en Spike son aparentemente bastante buenas para las redes Winner Take All (algo así como Mapas de autoorganización ), por lo que es la forma general de implementar Algoritmos de aprendizaje automático en chips VLSI.

Las redes basadas en espigas no tienen memoria ideal, no puede tener pesos de alta precisión. Han propuesto implementar pesos biológicos o sinapsis o memoria usando condensadores, pero aparentemente enfrenta problemas similares a los chips de silicio normales, como la fuga de carga y también de otras no idealidades basadas en silicio y, por lo que he entendido, también pueden modelar pesos limitados ( como -1, 0, 1).

Computación digital:

Aquí, viene la computación digital. Las tareas que requieren una gran cantidad de representación en coma flotante no pueden implementarse simplemente mediante picos, ya que aún no sabemos ni somos capaces de imitar por completo la biofísica o cualquier aspecto de una neurona verdadera. La computación digital simplemente ayuda a transmitir más información y con tanta precisión como queramos (si diseñamos tal CPU). Aunque los cuellos de botella son un inconveniente conocido de la arquitectura de Von Neumann para la computación digital, no es tan problemático como la representación de información a través de picos. Los picos siempre tienen una magnitud fija, la única forma en que probablemente transmite información es por su frecuencia y signo (excitador o inhibidor). Además, las velocidades de reloj son bastante altas en las computadoras modernas.

Memristors: una nueva dirección

Aquí viene el invento más reciente, el Memristor . Este ha sido el dispositivo analógico más prometedor en Machine Learning. Los Memristors son un concepto muy nuevo predicho en los años 70 y producido solo en 2008. Básicamente, son RRAM o Resisitive RAM's. En esto, la resistencia de la resistencia de memoria o Memristor está directamente relacionada con la historia actual pasada, que es muy similar a los modelos biofísicos de neurona. También se pueden entrenar fácilmente usando conjuntos de barras cruzadas (básicamente matriz de contactos eléctricos) de memristors (los conjuntos de barras cruzadas representarán matrices de peso, el voltaje aplicado a lo largo de filas o columnas determina la propagación hacia adelante o hacia atrás).

Por lo tanto, Memristor da un giro analógico real a los algoritmos de Machine Learning. Desafortunadamente, debido a su reciente llegada, hay muchos problemas que aún no se han resuelto.

  • Los recuerdos pueden degradarse bastante rápido, es decir, tienen ciclos de entrenamiento limitados.
  • Las memorias introducen mucho ruido, lo que aparentemente no ayuda en la causa de la regularización como podría pensar un ingeniero de ML.
  • Elementos exóticos necesarios para hacerlo (TyoO2 y HFO2) los usuarios de Memristors en los círculos académicos son muy limitados. Pero algunos laboratorios que trabajan en esta área son:

Laboratorio de Investigación en Nanoelectrónica, Universidad de Purdue

Materiales electroquímicos, ETH Zurich

Proyecto de cerebro humano

El Instituto MARCS para el cerebro, el comportamiento y el desarrollo

Fotónica neuromórfica:

Recientemente, ha habido un interés en el campo de la fotónica neuromórfica. Aquí hay un breve artículo sobre lo mismo. No estoy familiarizado con el funcionamiento interno de la misma, pero AFAIK implica la transmisión de información en forma óptica dentro del propio chip de procesamiento. Esto conlleva algunas ventajas sobre los circuitos analógicos o digitales normales:

  • Procesamiento de información más rápido.
  • Mayor densidad de información.
  • Mejor fidelidad de datos debido a pérdidas mucho menores.

Nota al margen: algunas de mis observaciones están basadas en hechos, mientras que otras son puramente de memoria, por lo que podría estar equivocado (ya que soy un principiante en este campo). Siéntase libre de señalar errores.
DuttaA

2

Creo que la mayoría de las personas han respondido la pregunta con diligencia de una manera realmente informativa. Solo me gustaría decir que usamos circuitos digitales comúnmente porque esa es la tecnología existente y que definitivamente los circuitos analógicos parecen realmente prometedores.

Sin embargo, en este momento, esta idea no está muy bien desarrollada a pesar de la cantidad de investigación realizada en los últimos años. Hasta el momento, ninguna compañía ha intentado implementar la idea a nivel comercial donde están fabricando dichos chips para usarlos fuera de sus laboratorios.

Además, esta idea se siente como un nuevo enfoque y tiene un gran potencial.

Pero, con nuestra falta de comprensión sobre cómo funcionan algunos modelos, algunos simplemente no lo hacen por un problema; cómo las redes neuronales realmente resuelven problemas tan complejos y muchas otras cosas. Por lo tanto, todavía es una tecnología bastante distante para alcanzar su máximo potencial.

PD: Todavía soy un principiante en este campo y creo que mi opinión no cuenta, si fui redundante en algún lugar o no le di la respuesta esperada, lo lamento sinceramente.


Esta respuesta muestra pensamiento. También es cierto que la tecnología existente no muestra tanto progreso con VLSI analógico programable como digital. ... Lo que se desconoce es el resultado de la I + D de control analógico de la Marina de los EE. UU. Y DARPA que ha sido ampliamente financiada durante décadas. Solo los documentos iniciales han sido desclasificados. ICBM y la tecnología de contramedidas pueden ser circuitos de inteligencia analógicos en el rango de 100 GHz. O no. ... Tu escritura no era redundante ni ingenua. Seguramente, en el código abierto, estas tecnologías apenas comienzan a verse. Buena respuesta. Siéntase libre de dejarlo como está o desarrollarlo más.
FauChristian

2

También se puede abordar la cuestión desde el aspecto de la teoría de la información:

Hay dos compensaciones para elegir:

Información analógica que puede representar información de una manera más precisa / específica, pero limitada en cantidad.

Información digital que no representa completamente el mundo real, pero que puede contener una cantidad ilimitada de información en unos pocos bits. Un buen ejemplo podría ser algo así como un bucle incremental para:

i = 0
while True:
   print(i)
   i += 1

¿Cuál es más poderoso entonces?


Eso es generalmente cierto. Piensa en lo que eso significa aprender en el contexto de la IA. Hemos simulado varios tipos de aprendizaje en máquinas mediante sistemas de reglas con meta reglas, redes artificiales, extensiones de la cadena de Markov, lógica difusa y una amplia variedad de otras técnicas y arquitecturas. Cuando ocurre el aprendizaje, hay algún tipo de comportamiento óptimo que el aprendizaje intenta adquirir. ¿Cómo pueden los sistemas analógicos o digitales converger o seguir (en tiempo real) a ese comportamiento óptimo, y cuál tiene una ventaja a largo plazo?
FauChristian

1

Hava Siegelmann

A primera vista, la computación analógica es superior a la digital. Las computadoras cuánticas son más rápidas que las computadoras Von-Neumann y los chips neuromórficos necesitan menos energía que las CPU Intel. También desde un punto de vista teórico, muchos hablan por computadoras analógicas. Hava Siegelmann ha investigado la capacidad de Super-turing de la red neuronal, lo que significa que una computadora analógica puede emular una digital pero no al revés. Entonces, ¿por qué no deberíamos usar la computación analógica?

Stephen Wolfram

La razón tiene que ver con el sistema educativo. La matemática clásica que se enseña en las escuelas es la matemática analógica. Se basa en reglas de cálculo, tabla de logaritmos y el pensamiento en circuitos. Por el contrario, pensar en valores discretos de un algoritmo y describir el mundo en cero y unos es fundamentalmente diferente y nos lleva a un nuevo tipo de matemática. Stephen Wolfram ha explicado que la comprensión de los autómatas celulares es un paso importante para describir el universo y tiene razón. Ignorar las matemáticas analógicas y preferir los lenguajes de computadora capaces es un método poderoso en la educación. Ayuda no solo a familiarizarse con las computadoras, sino también con todas las demás cosas, como la medicina, la literatura y la economía. Incluso si las máquinas analógicas son técnicas superiores, preferimos máquinas Turing lentas pero discretas,

Enseñanza de las matemáticas

Para comprender la diferencia entre la computación digital y la analógica, debemos centrarnos en las matemáticas mismas que se utilizan en las escuelas. Si la idea es impulsar la computación analógica, el tipo apropiado de matemáticas se agrupa en torno a campos eléctricos, integración y diferenciación. En las escuelas, esto se enseña bajo el término general "Análisis matemático". Este tema fue muy importante en el pasado, porque el análisis ayuda a construir puentes, máquinas y automóviles. En todos estos dominios se utiliza el álgebra vectorial para describir el espacio geométrico.

Si la computación analógica es tan poderosa, ¿por qué alguien necesita las matemáticas digitales? Tiene que ver con el algoritmo. Lo que el analizador de planímetro y diferencial no tiene para ofrecer son las capacidades de programación. No es posible definir algoritmos y lenguajes artificiales. Una mirada a la historia de las matemáticas muestra que la teoría de algoritmos no era muy común en el pasado. En matemáticas modernas se discute bajo el término cálculo Lambda y problema de detención .

Lo curioso es que, a primera vista, el cálculo de Lamda no tiene aplicaciones prácticas. No es necesario si alguien quiere calcular el área de un puente. La teoría de algoritmos es una escuela de pensamiento para mejorar el pensamiento crítico. Es una filosofía que necesitan los humanos, no las máquinas.


Es bueno que le hayas mencionado a Seigelmann. El segundo párrafo es difícil de seguir lógicamente. Ciertamente, la educación es fundamental para esta pregunta, y la secuenciación del ADN y las imágenes digitales definitivamente han mejorado la medicina. ¿Puedes explicar cómo ha mejorado la literatura? Algunos argumentarían que la informática digital ha empeorado la volatilidad de la economía, pero más importante para los requisitos de recompensas, por qué alguien preferiría lento discreto sobre rápido continuo no se deduce de la declaración de Wolfram. Tampoco hay referencia a la declaración. ¿Puede proporcionar una referencia y proporcionar la lógica que falta?
FauChristian
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.