El perro robot pasó de rodar por el suelo a caminar en una hora

Las redes neuronales y el aprendizaje por refuerzo recientemente lograron cosas que parecían ciencia ficción, pero ahora tenemos un ejemplo de aprendizaje automático real del Berkeley Robot Learning Lab de Peter Abiel. Un perro robótico pasa de agitar las patas en el aire a caminar sin ayuda externa en una hora.


El aprendizaje por refuerzo es atractivo porque es muy simple y directo y parece suceder en el mundo real. Un dispositivo realiza una acción en el mundo y recompensa esa acción en función de qué tan bien el mundo logra su objetivo. Cuando entrenamos una red neuronal mediante el aprendizaje por refuerzo, organizamos el entorno de entrenamiento para que las diferentes acciones sean recompensadas de acuerdo con la forma en que el dispositivo de acción se mueve hacia su objetivo. Funciona muy bien y las redes neuronales aprenden a jugar juegos como el go, el ajedrez y los clásicos juegos de arcade usando este método de entrenamiento.

Tenga en cuenta que el dispositivo de aprendizaje por refuerzo solo le dice qué tan bien se desempeñó, no sabe en qué dirección ir para mejorar. Lo que suele ocurrir es que el dispositivo explora el entorno e intenta diferentes acciones y prefiere las acciones que proporcionan recompensas. La búsqueda de una solución óptima es efectivamente ciega, lo que significa que se requiere una gran cantidad de entrenamiento para alcanzar el objetivo en cualquier lugar.

Hay algo mal con este pensamiento. Cuando trabajamos en un comportamiento a través del aprendizaje por refuerzo, no elegimos acciones. A veces nos tomamos un descanso y pensamos. ¿Qué hubiera pasado si hubiera elegido la acción B en lugar de la acción A? Con suficiente imaginación, puede averiguar qué podría haber sucedido y qué tipo de recompensa podría ofrecerse. Usamos la imaginación para ampliar nuestro conjunto de entrenamiento ejecutando simulaciones e implementando mejoras en nuestro desempeño.

READ  Hubble tiene una potencia galáctica

Soñador2

Un perro robótico de la Universidad de California, Berkeley, hace más o menos esto. Comienza agitando las patas en el aire boca arriba, pero poco a poco va mejorando y aprendiendo cosas útiles sobre su entorno. Crea un modelo y el modelo se puede usar para descubrir cómo hacer mejor el mismo ejercicio o uno similar sin repetirlo.

Esta técnica se llama acertadamente «soñador» porque es casi como resolver problemas soñando con ellos. Bueno, crear un modelo y usarlo es como soñar. Esto esencialmente trae la planificación al mal uso del aprendizaje por refuerzo.

Ahora que tienes una idea de lo que está pasando, mira el video e inspírate:

Si cree que las primeras etapas recuerdan a un animal pequeño que aprende a caminar después del nacimiento, estoy de acuerdo. Esta idea de modelado y refuerzo parece más plausible biológicamente. Sí, acepto que la persona con el tubo de cartón debe ser denunciada a la Agencia de Seguridad de Robots. Cuando terminó la hora, el robot fue empujado suavemente y diez minutos después se enderezó.

Aprender a caminar en tiempo real en una hora es un gran paso adelante, otro ejemplo del éxito continuo de las redes neuronales. Después de fallar por falta de poder de cómputo, se han convertido en el pilar de la IA, con grandes cantidades de datos y capacitación. Ahora en su tercer año, muchas redes neuronales trabajan junto con otros sistemas para hacer la transición del entrenamiento a ciegas a la exploración planificada y el aprendizaje rápido.

El equipo también usó Dreamer para un brazo robótico de recoger y colocar y un robot con ruedas. Como puede suponer, descubrieron que Dreamer permitía que los robots aprendieran habilidades relevantes de manera eficiente y las aprendieran bien.

READ  El astrónomo aficionado se aferra al objeto dentro de Júpiter

«Aplicamos Dreamer al aprendizaje de robots físicos y descubrimos que los modelos del mundo moderno permiten el aprendizaje de robots eficientes en el modelo para una variedad de tareas, tanto en el mundo real nuevo como sin simuladores. También encontramos que este enfoque es generalmente aplicable para resolver el movimiento del robot, tareas de manipulación y navegación sin cambiar los hiperparámetros. El soñador cuatro rueda detrás del robot, se pone de pie y caminar A 1 h desde cero, esto requería previamente una amplia capacitación en simulación, seguida de transferencia al mundo real o generadores de trayectoria parametrizados y políticas de reinicio. También demostramos que dos brazos robóticos aprenden a elegir y colocar objetos a partir de píxeles y recompensas raras en 8 a 10 horas».

Los investigadores prometen publicar su código muy pronto.

soñador 3

Más información

DayDreamer: Modelos mundiales para el aprendizaje físico de robots

Philipp Wu, Alejandro Escotrella, Danijar Hafner, Ken Goldberg y Pieter Abbeel. Universidad de California, Berkeley

https://danijar.com/project/daydreamer/

Artículos relacionados

Un robot finalmente aprende a caminar

Peter Abiel ganó el Premio ACM de Informática 2021

Un robot aprende a hacer cosas usando una red neuronal profunda

aprendiendo a caminar

Robot con miedo a caer: los surcoreanos ganan el desafío de robótica DARPA

Una evolución virtual de caminar

Robots andantes

El increíble Dr. Kuro y sus robots andantes.

Deep Mimic – Un especialista virtual

Suscríbete a nuestro boletín semanal para conocer nuevos artículos sobre I Programmer, Síguenos suscribiéndote al feed RSS Gorjeo, Facebook O LinkedIn.

Bandera


Pythondata



READ  Mira cómo dos astronautas de la NASA caminan al espacio el martes

comentarios

O envíe su comentario por correo electrónico a: [email protected]

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio