Observe a un robot navegar por las oficinas de Google DeepMind usando Gemini

La IA generativa ya se ha mostrado muy prometedora en los robots. Las aplicaciones también incluyen interacciones de lenguaje natural, aprendizaje de robots, programación y diseño sin código. El equipo DeepMind Robotics de Google está demostrando esta semana otro posible punto ideal entre las dos disciplinas: la navegación.

En el artículo, titulado «Mobility VLA: navegación instructiva multimodal con VLM de contexto largo y gráficos topológicos», el equipo demuestra cómo implementaron Google Gemini 1.5 Pro para enseñar a un robot a responder a comandos y navegar por una oficina. Naturalmente, DeepMind ha utilizado algunos de los robots todos los días desde que cerró el proyecto el año pasado en medio de despidos generalizados.

En una serie de videos adjuntos al proyecto, los empleados de DeepMind abren con un asistente inteligente «Está bien, robot» antes de pedirle al sistema que realice varias tareas en un espacio de oficina de 9,000 pies cuadrados.

En un ejemplo, Googler le pide al robot que lo lleve a algún lugar para dibujar cosas. «Está bien», responde el robot, que lleva una pajarita amarilla, «dame un minuto. Pensando con Géminis…» El robot dirige al humano hacia una pizarra del tamaño de una pared. En el segundo vídeo, una persona diferente le dice al robot que lo haga. siga las instrucciones en la pizarra.

Un mapa sencillo muestra al robot cómo llegar a la «zona azul». Nuevamente, el robot piensa por un momento antes de dar un largo paseo para convertirse en algo que prueba la robótica. «Seguí con éxito las instrucciones de la pizarra», anunció el robot con un nivel de confianza con el que la mayoría de los humanos sólo pueden soñar.

READ  Vaya: Google envió una actualización enorme e inútil a los usuarios de Pixel

Antes de estos vídeos, los robots se familiarizaron con el espacio mediante lo que se denomina «Navegación de instrucción multimodal con recorridos de demostración (MINT)». Efectivamente, eso significa hacer caminar al robot por la oficina señalando diferentes puntos de referencia con el habla. A continuación, el equipo utiliza la visión-lenguaje-acción (VLA) jerárquica para «combinar eso[e] Conciencia ambiental y poder de razonamiento con sentido común”. Una vez que se combinan los procesos, el robot puede responder a comandos escritos y dibujados, así como a gestos.

Google dice que el robot tiene una tasa de éxito del 90% o más en más de 50 interacciones con empleados.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio