3 preguntas: cómo aprende a correr el mini guepardo del MIT | Noticias del MIT


Han pasado unos 23 años desde que uno de los primeros animales robóticos trotó en escena, desafiando las nociones convencionales de nuestros tiernos amigos de cuatro patas. Desde entonces, un aluvión de máquinas para caminar, bailar y abrir puertas ha dominado su presencia, una elegante combinación de baterías, sensores, metal y motores. A la lista de actividades cardiovasculares le faltaba una actividad amada y odiada por los humanos (dependiendo de a quién le preguntes), y que resultó ser un poco más complicada para los bots: aprender a correr.

Investigadores del Improbable AI Lab del MIT, parte del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y dirigidos por el Profesor Asistente del MIT Pulkit Agrawal, así como del Instituto de IA e Interacciones Fundamentales (IAIFI) trabajaron en un progreso rápido para un mini guepardo robótico – y su sistema de aprendizaje por refuerzo sin modelo batió el récord de la ejecución más rápida registrada. Aquí, el estudiante de doctorado del MIT, Gabriel Margolis, y el becario postdoctoral de IAIFI, Ge Yang, analizan qué tan rápido puede correr el guepardo.

P: Hemos visto videos de robots funcionando antes. ¿Por qué es más difícil correr que caminar?

A: Lograr una operación rápida requiere llevar el hardware a sus límites, como operar cerca de la salida de par máxima de los motores. Bajo tales condiciones, la dinámica del robot es difícil de modelar analíticamente. El robot debe reaccionar rápidamente a los cambios en el entorno, como cuando se encuentra con hielo mientras corre sobre la hierba. Si el robot está caminando, se mueve lentamente y la presencia de nieve no suele ser un problema. Imagínate si caminaras despacio, pero con cuidado: puedes atravesar casi cualquier terreno. Los robots de hoy enfrentan un problema similar. El problema es que caminar sobre cualquier terreno como si estuvieras caminando sobre hielo es muy ineficiente, pero es común en los robots de hoy. Los humanos corremos rápido sobre la hierba y lentos sobre el hielo: nos adaptamos. Dar a los robots una adaptabilidad similar requiere una rápida identificación de los cambios en el terreno y una rápida adaptación para evitar que el robot se caiga. En resumen, dado que no es práctico construir modelos analíticos (diseñados por humanos) de todos los terrenos posibles por adelantado, y la dinámica de los robots se vuelve más compleja a altas velocidades, las carreras de alta velocidad son más difíciles que caminar.

Miniatura de vídeo

Reproduce el video

El mini Cheetah del MIT aprende a correr más rápido que nunca, utilizando un canal de aprendizaje basado completamente en simulación de prueba y error.

P: Los controladores de carreras ágiles anteriores para MIT Cheetah 3 y Mini Cheetah, así como los robots de Boston Dynamics, están «diseñados analíticamente», confiando en ingenieros humanos para analizar la física de la locomoción, formular abstracciones eficientes e implementar una jerarquía especializada de controladores para hacer el robot se equilibra y opera. Utiliza un «modelo de aprendizaje experiencial» para ejecutarlo en lugar de programarlo. ¿Por qué?

A: Programar cómo debe actuar un robot en todas las situaciones posibles es simplemente muy difícil. El proceso es tedioso porque si un robot fallara en un terreno en particular, un ingeniero humano tendría que identificar la causa de la falla y adaptar manualmente el controlador del robot, y este proceso puede requerir un tiempo humano considerable. El aprendizaje de prueba y error elimina la necesidad de que un ser humano especifique con precisión cómo debe comportarse el robot en cada situación. Funcionaría si: (1) el robot puede experimentar una variedad extremadamente amplia de terrenos; y (2) el robot puede mejorar automáticamente su comportamiento con la experiencia.

Gracias a las modernas herramientas de simulación, nuestro robot puede acumular 100 días de experiencia en varios terrenos en tan solo tres horas de tiempo real. Hemos desarrollado un enfoque mediante el cual el comportamiento del robot mejora a partir de la experiencia simulada, y nuestro enfoque también permite de manera crítica el despliegue exitoso de estos comportamientos aprendidos en el mundo real. La intuición detrás de por qué las habilidades de carrera del robot funcionan bien en el mundo real es la siguiente: de todos los entornos que ve en este simulador, algunos le enseñarán habilidades que son útiles en el mundo real. Cuando opera en el mundo real, nuestro controlador identifica y ejecuta habilidades relevantes en tiempo real.

P: ¿Se puede extender este enfoque más allá del mini guepardo? ¿Qué le emociona acerca de sus futuras aplicaciones?

A: En el corazón de la investigación de IA se encuentra el equilibrio entre lo que los humanos necesitan para construir (naturaleza) y lo que la máquina puede aprender por sí sola (construir). El paradigma tradicional de la robótica es que los humanos le dicen al robot qué tarea hacer y cómo hacerlo. El problema es que dicho marco no es escalable, ya que se necesitaría un inmenso esfuerzo de ingeniería humana para programar manualmente un robot con las habilidades para operar en muchos entornos diversos. Una forma más práctica de construir un robot con muchas habilidades diversas es decirle al robot qué hacer y dejar que descubra cómo hacerlo. Nuestro sistema es un ejemplo. En nuestro laboratorio, hemos comenzado a aplicar este paradigma a otros sistemas robóticos, incluidas manos capaces de agarrar y manipular muchos objetos diferentes.

Este trabajo cuenta con el apoyo del Programa de Sentido Común de la Máquina DARPA, Naver Labs, el Laboratorio de Robótica Biomimética del MIT y el Instituto de IA e Interacciones Fundamentales de NSF AI. La investigación se llevó a cabo en el Improbable AI Lab.

Deja un comentario