Investigadores han ideado una forma de hacer más eficientes los sistemas de visión artificial construyendo redes a partir de las puertas lógicas de los chips de computadora.
Las redes programadas directamente en el hardware de los chips informáticos pueden identificar imágenes más rápido y consumir mucha menos energía que las redes neuronales tradicionales que sustentan la mayoría de los sistemas de inteligencia artificial modernos. Así lo demuestra un trabajo presentado en una importante conferencia sobre aprendizaje automático celebrada en Vancouver la semana pasada.
Las redes neuronales, desde GPT-4 hasta Stable Diffusion, se construyen conectando perceptrones, que son simulaciones muy simplificadas de las neuronas de nuestro cerebro. En grandes cantidades, los perceptrones son potentes, pero también consumen enormes volúmenes de energía, tanta que Microsoft ha cerrado un acuerdo que reabrirá Three Mile Island para impulsar sus avances en inteligencia artificial.
Parte del problema es que los perceptrones son simplemente abstracciones de software: ejecutar una red de perceptrones en una GPU requiere traducir esa red al lenguaje del hardware, lo que requiere tiempo y energía. Construir una red directamente a partir de componentes de hardware elimina muchos de esos costos. Algún día, incluso podrían integrarse directamente en chips utilizados en teléfonos inteligentes y otros dispositivos, lo que reduciría drásticamente la necesidad de enviar datos hacia y desde servidores.
Felix Petersen, que realizó este trabajo como investigador postdoctoral en la Universidad de Stanford, tiene una estrategia para lograrlo. Diseñó redes compuestas de puertas lógicas, que son algunos de los componentes básicos de los chips informáticos. Compuestas por unos pocos transistores cada una, las puertas lógicas aceptan dos bits ( unos o ceros ) como entradas y, según una regla determinada por su patrón específico de transistores, dan como salida un solo bit. Al igual que los perceptrones, las puertas lógicas se pueden encadenar para formar redes. Y hacer funcionar redes de puertas lógicas es barato, rápido y fácil: en su charla en la conferencia Neural Information Processing Systems (NeurIPS), Petersen dijo que consumen menos energía que las redes de perceptrones por un factor de cientos de miles.
Las redes de puertas lógicas no funcionan tan bien como las redes neuronales tradicionales en tareas como el etiquetado de imágenes, pero la velocidad y la eficiencia de este método lo hacen prometedor, según Zhiru Zhang, profesor de ingeniería eléctrica e informática en la Universidad de Cornell. “Si podemos cerrar la brecha, esto podría abrir potencialmente muchas posibilidades en este ámbito del aprendizaje automático”, afirma.
Petersen no empezó a buscar formas de construir redes de IA energéticamente eficientes. Llegó a las puertas lógicas a través de un interés en las “relajaciones diferenciables”, o estrategias para manejar ciertas clases de problemas matemáticos en una forma que el cálculo pueda resolver. “En realidad, comenzó como una curiosidad matemática y metodológica”, afirma.
La retropropagación, el algoritmo de entrenamiento que hizo posible la revolución del aprendizaje profundo, fue un caso de uso obvio para este enfoque. Debido a que la retropropagación se ejecuta en cálculo, no se puede utilizar directamente para entrenar redes de puertas lógicas. Las puertas lógicas solo funcionan con 0 y 1 , y el cálculo exige respuestas sobre todas las fracciones intermedias. Petersen ideó una forma de «relajar» las redes de puertas lógicas lo suficiente para la retropropagación mediante la creación de funciones que funcionan como puertas lógicas en 0 y 1 , pero que también dan respuestas para valores intermedios. Ejecutó redes simuladas con esas puertas a través del entrenamiento y luego convirtió la red de puertas lógicas relajadas en algo que pudiera implementar en hardware de computadora.
Un desafío con este enfoque es que entrenar las redes relajadas es difícil. Cada nodo de la red podría terminar siendo cualquiera de las 16 puertas lógicas diferentes, y las 16 probabilidades asociadas con cada una de esas puertas deben controlarse y ajustarse continuamente. Eso requiere una enorme cantidad de tiempo y energía; durante su charla en NeurIPS, Petersen dijo que entrenar sus redes lleva cientos de veces más tiempo que entrenar redes neuronales convencionales en GPU. En las universidades, que no pueden permitirse el lujo de acumular cientos de miles de GPU , esa cantidad de tiempo de GPU puede ser difícil de manejar; Petersen desarrolló estas redes, en colaboración con sus colegas, en la Universidad de Stanford y la Universidad de Konstanz. «Definitivamente, hace que la investigación sea tremendamente difícil», dice.
Sin embargo, una vez que la red ha sido entrenada, las cosas se vuelven mucho, mucho más baratas. Petersen comparó sus redes de puertas lógicas con una cohorte de otras redes ultra eficientes, como las redes neuronales binarias, que utilizan perceptrones simplificados que pueden procesar solo valores binarios. Las redes de puertas lógicas funcionaron tan bien como estos otros métodos eficientes en la clasificación de imágenes en el conjunto de datos CIFAR-10, que incluye 10 categorías diferentes de imágenes de baja resolución, desde «rana» hasta «camión». Lo logró con menos de una décima parte de las puertas lógicas requeridas por esos otros métodos, y en menos de una milésima parte del tiempo. Petersen probó sus redes utilizando chips de computadora programables llamados FPGAs, que pueden usarse para emular muchos patrones potenciales diferentes de puertas lógicas; implementar las redes en chips ASIC no programables reduciría los costos aún más, porque los chips programables necesitan usar más componentes para lograr su flexibilidad.
Farinaz Koushanfar, profesora de ingeniería eléctrica e informática en la Universidad de California en San Diego, dice que no está convencida de que las redes de puertas lógicas puedan funcionar cuando se enfrenten a problemas más realistas. «Es una idea bonita, pero no estoy segura de lo bien que se puede escalar», dice. Señala que las redes de puertas lógicas solo se pueden entrenar de forma aproximada, a través de la estrategia de relajación, y las aproximaciones pueden fallar. Eso aún no ha causado problemas, pero Koushanfar dice que podría resultar más problemático a medida que las redes crezcan.
Sin embargo, Petersen es ambicioso. Planea seguir impulsando las capacidades de sus redes de puertas lógicas y espera, con el tiempo, crear lo que él llama un “modelo de base de hardware”. Una red de puertas lógicas potente y de uso general para la visión podría producirse en masa directamente en chips de computadora, y esos chips podrían integrarse en dispositivos como teléfonos personales y computadoras. Eso podría generar enormes beneficios energéticos, dice Petersen. Si esas redes pudieran reconstruir efectivamente fotos y videos a partir de información de baja resolución, por ejemplo, entonces se necesitarían enviar muchos menos datos entre servidores y dispositivos personales.
Petersen reconoce que las redes de puertas lógicas nunca competirán con las redes neuronales tradicionales en cuanto a rendimiento, pero ese no es su objetivo. Con crear algo que funcione y que sea lo más eficiente posible debería ser suficiente. “No será el mejor modelo”, afirma, “pero debería ser el más barato”.