El modelo de imagen de IA de Google Imagen está teniendo una salida pública muy limitada

Google ha sido cauteloso con el lanzamiento de sus sistemas de inteligencia artificial de texto a imagen. Aunque el modelo Imagen de la compañía produce una salida equivalente en calidad a DALL-E 2 de OpenAI o la difusión estable de Stability AI, Google no ha puesto el sistema a disposición del público.

Hoy, sin embargo, el gigante de las búsquedas anunció que Imagen agregará: una Mucho Forma limitada: a su aplicación AI Test Kitchen como una forma de recopilar comentarios tempranos sobre la tecnología.

AI Test Kitchen se lanzó a principios de este año como una forma de que Google probara en versión beta varios sistemas de IA. Actualmente, la aplicación ofrece algunas formas diferentes de interactuar con el modelo de texto LaMDA de Google (sí, eso es lo que pretendía el ingeniero), y la compañía pronto agregará solicitudes de imágenes con restricciones similares como parte de lo que llama una «temporada». Actualizar a la aplicación de dos”. En resumen, hay dos formas de interactuar con Imagen, que Google demostró hasta el borde Antes del anuncio de hoy: «City Dreamer» y «Wobble».

En City Dreamer, los usuarios pueden pedirle a un modelo que cree elementos de una ciudad diseñada en torno a un tema de su elección, por ejemplo, calabazas, mezclilla o el color Blerg. Imagen crea modelos de edificios y parcelas (plazas, bloques de apartamentos, aeropuertos, etc.), todos los diseños parecen modelos isométricos como lo que ves. SimCity.

La tarea «City Dreamer» permite a los usuarios solicitar edificios urbanos temáticos en diseños isométricos.

Imagen: Google

En Wobble, creas un pequeño monstruo. Puedes hacerlo de (arcilla, fieltro, mazapán, caucho) y luego vestirlo con cualquier atuendo que te guste. El modelo genera tu monstruo, le da un nombre y luego puedes clasificarlo y empujarlo para que «baile». Nuevamente, la producción del modelo se limita a una estética muy específica que, en mi opinión, parece un cruce entre los diseños de Pixar. Monstruos inc. Y función de creador de personajes. Espora. (Alguien en el equipo de IA debe ser fanático de Will Wright).

READ Las personas con Apple Vision Pro deben usar gafas genéricas

En comparación con otros modelos de texto a imagen, estas interacciones son muy limitadas y los usuarios no pueden simplemente solicitarlas. cualquier cosa Ellos quieren. Pero esto es intencional por parte de Google. Tal como lo explica Josh Woodward, director sénior de gestión de productos de Google hasta el bordeEl objetivo de AI Test Kitchen es a) obtener comentarios de las personas sobre estos sistemas de IA yb) aprender más sobre cómo las personas los rompen.

Woodward no quiso discutir ejemplos específicos de cómo los usuarios de AI Test Kitchen rompieron sus funciones de Lambda, pero señaló que surgió una debilidad cuando se le pidió al modelo que describiera lugares específicos.

«Los lugares significan diferentes cosas para diferentes personas en diferentes momentos de la historia, por lo que hemos visto algunas formas creativas en las que las personas han tratado de poner un lugar en particular en el sistema y ver qué produce», dijo Woodward. Cuando se le preguntó qué lugares podrían crear representaciones controvertidas, Woodward dio el ejemplo de Tulsa, Oklahoma. «Hubo algunos disturbios raciales en Tulsa en los años 20», dijo. «Y si alguien pone ‘Tulsa’, es posible que el modelo no represente eso… y te puedes imaginar con lugares de todo el mundo».

*La función «Wobble» permite a los usuarios crear un monstruo y hacerlo bailar.*

Aquí hay una lectura entre líneas: imagina si le pidieras a un modelo de IA que describiera la ciudad medieval de Dachau en Alemania. ¿Quieres que la respuesta del modelo represente el campo de concentración nazi construido allí o no? ¿Cómo saber si un usuario está buscando esta información? ¿Y es aceptable omitirlo bajo cualquier circunstancia? En muchos sentidos, los problemas de construir modelos de IA con interfaces de texto son similares a los desafíos de ajustar la búsqueda: debe interpretar las solicitudes de los usuarios de una manera que los haga felices.

READ ¿No le gusta el nuevo Inicio o la barra de tareas de Windows 11? No se preocupe, Microsoft tiene su registro anterior

Google no comparte ningún dato sobre cuántas personas realmente usan AI Test Kitchen («No estamos preparados para convertirlo en una aplicación de Google de mil millones de usuarios», dice Woodward), pero dice que los comentarios que está recibiendo son invaluables. «El compromiso supera nuestras expectativas», dijo Woodward. «Es un grupo de usuarios muy activo y obstinado». Señala que la aplicación es útil para llegar a «ciertos tipos de personas: investigadores, legisladores» que pueden usar la aplicación para comprender mejor las limitaciones y capacidades de los modelos de IA de última generación.

Sin embargo, la gran pregunta es si Google quiere ofrecer estos modelos al público en general y, de ser así, de qué forma. Los rivales de la empresa, OpenAI y Stability AI, ya se están moviendo para comercializar modelos de texto a imagen. ¿Google alguna vez considerará sus sistemas lo suficientemente seguros como para sacarlo de la cocina de prueba de IA y entregárselo a sus usuarios?

Federico Rangel

«Orgulloso pionero de Twitter. Analista. Comunicador. Geek web profesional. Especialista en música de por vida».

Deja un comentario Cancelar respuesta