Vía MIT Technology Review

El perro robot agita las patas en el aire como un escarabajo exasperado. Después de 10 minutos de lucha, se las arregla para rodar hacia el frente. Media hora después, el robot da sus primeros pasos torpes, como un ternero recién nacido. Pero después de una hora, el robot se pavonea por el laboratorio con confianza. 

Lo que hace que este robot de cuatro patas sea especial es que aprendió a hacer todo esto por sí mismo, sin que se le mostrara qué hacer en una simulación por computadora. 

Danijar Hafner y sus colegas de la Universidad de California, Berkeley, utilizaron una técnica de inteligencia artificial llamada aprendizaje por refuerzo, que entrena algoritmos recompensándolos por las acciones deseadas, para entrenar al robot para que camine desde cero en el mundo real . El equipo usó el mismo algoritmo para entrenar con éxito a otros tres robots, como uno que pudo recoger pelotas y moverlas de una bandeja a otra.

Tradicionalmente, los robots se entrenan en un simulador de computadora antes de intentar hacer algo en el mundo real. Por ejemplo, un par de piernas robóticas llamadas Cassie aprendieron a caminar por sí mismas mediante el aprendizaje por refuerzo, pero solo después de haberlo hecho en una simulación.

 “El problema es que su simulador nunca será tan preciso como el mundo real. Siempre habrá aspectos del mundo que te estás perdiendo”, dice Hafner, quien trabajó con sus colegas Alejandro Escontrela y Philipp Wu en el proyecto y ahora es pasante en DeepMind. Adaptar las lecciones del simulador al mundo real también requiere ingeniería adicional, dice. 

El algoritmo del equipo, llamado Dreamer, utiliza experiencias pasadas para construir un modelo del mundo circundante. Dreamer también permite que el robot realice cálculos de prueba y error en un programa de computadora en lugar del mundo real, al predecir posibles resultados futuros de sus acciones potenciales. Esto le permite aprender más rápido de lo que podría simplemente haciendo. Una vez que el robot aprendió a caminar, siguió aprendiendo a adaptarse a situaciones inesperadas, como resistirse a ser derribado por un palo. 

“Enseñar a los robots a través de prueba y error es un problema difícil, aún más difícil debido a los largos tiempos de capacitación que requiere tal enseñanza”, dice Lerrel Pinto, profesor asistente de ciencias de la computación en la Universidad de Nueva York, que se especializa en robótica y aprendizaje automático. Dreamer muestra que el aprendizaje de refuerzo profundo y los modelos mundiales pueden enseñar a los robots nuevas habilidades en un período de tiempo realmente corto, dice. 

Jonathan Hurst, profesor de robótica en la Universidad Estatal de Oregón, dice que los hallazgos, que aún no han sido revisados ​​por pares, dejan en claro que «el aprendizaje por refuerzo será una herramienta fundamental en el futuro del control de robots».

Eliminar el simulador del entrenamiento de robots tiene muchas ventajas. El algoritmo podría ser útil para enseñar a los robots cómo aprender habilidades en el mundo real y adaptarse a situaciones como fallas de hardware, dice Hafner; por ejemplo, un robot podría aprender a caminar con un motor que funciona mal en una pierna. 

El enfoque también podría tener un gran potencial para cosas más complicadas como la conducción autónoma, que requieren simuladores complejos y costosos, dice Stefano Albrecht, profesor asistente de inteligencia artificial en la Universidad de Edimburgo. Una nueva generación de algoritmos de aprendizaje por refuerzo podría «captar rápidamente en el mundo real cómo funciona el entorno», dice Albrecht. 

Pero hay algunos grandes problemas sin resolver, dice Pinto. 

Con el aprendizaje por refuerzo, los ingenieros deben especificar en su código qué comportamientos son buenos y, por lo tanto, son recompensados, y qué comportamientos son indeseables. En este caso, dar la vuelta y caminar es bueno, mientras que no caminar es malo. “Un especialista en robótica deberá hacer esto para todas y cada una de las tareas [o] problemas que quiera que el robot resuelva”, dice Pinto. Eso consume mucho tiempo y es difícil programar comportamientos para situaciones inesperadas. 

Y si bien los simuladores pueden ser inexactos, también lo pueden ser los modelos mundiales, dice Albrecht. “Los modelos mundiales parten de la nada, por lo que inicialmente las predicciones de los modelos estarán completamente dispersas”, dice. Se necesita tiempo hasta que obtengan suficientes datos para hacerlos precisos. 

En el futuro, dice Hafner, sería bueno enseñarle al robot a comprender los comandos hablados. Hafner dice que el equipo también quiere conectar cámaras al perro robot para darle visión. Esto le permitiría navegar en situaciones interiores complejas, como caminar hacia una habitación, encontrar objetos y, ¡sí!, jugar a buscar.