Probé la IA de texto a imagen de Google y me sorprendieron los resultados

Probé la IA de texto a imagen de Google y me sorprendieron los resultados

Los programas de inteligencia artificial de texto a imagen no son algo nuevo. De hecho, las redes neuronales existentes como DALL-E nos han impresionado con su capacidad para generar imágenes simples y fotorrealistas a partir de oraciones cortas pero descriptivas.

Pero esta semana descubrí Imagen (opens in a new tab). Desarrollado por Brain Team de Google Research, Imagen es una IA similar a DALL-E y LDM. Sin embargo, el objetivo de Brain Team con Imagen es generar imágenes con un mayor nivel de precisión y fidelidad, utilizando el mismo método de oraciones cortas y descriptivas para crearlas.

Un ejemplo de este tipo de frases sería -según demostraciones en el sitio web de Imagen- "Una foto de un panda peludo con un sombrero de vaquero y una chaqueta de cuero negro andando en bicicleta en la cima de una montaña". Es bastante largo, pero la oración está estructurada de tal manera que la IA puede identificar cada elemento según sus propios criterios.

Luego, la IA analiza cada segmento de la oración como un bloque digerible de información e intenta producir una imagen lo más cercana posible a esa oración. Y salvo rarezas o peculiaridades aquí y allá, Imagen puede hacerlo con resultados sorprendentemente rápidos y precisos.

Pintura al óleo de un gato en patineta

Imagen dibuja mejor que yo. (Crédito de la imagen: Google/Imagen)

¿Un poco demasiado saludable?

Si usted mismo ha revisado Imagen u otras redes neuronales, probablemente haya notado la abrumadora atención a algunos temas selectos. A DALL-E, por ejemplo, le gusta crear imágenes basadas en objetos cotidianos del hogar, como relojes o inodoros. Imagen, al menos por ahora, parece poner animales lindos al frente de sus capacidades de generación de imágenes. Pero en realidad hay una muy buena razón para ello.

El equipo Brain de Google se apresura a decir que Imagen mantiene las cosas relativamente inofensivas. Bajo un descargo de responsabilidad bastante largo, el equipo es muy consciente de que las redes neuronales se pueden usar para generar contenido dañino como estereotipos raciales o impulsar ideologías tóxicas. Imagen incluso utiliza un conjunto de datos que se sabe que contiene este tipo de contenido inapropiado.

“Si bien se filtró un subconjunto de nuestros datos de entrenamiento para eliminar el ruido y el contenido no deseado, como imágenes pornográficas y lenguaje tóxico”, señala Brain Team, “también usamos el conjunto completo de datos LAION-400M que se sabe que contiene una amplia gama de contenido inapropiado, incluidas imágenes pornográficas, insultos raciales y estereotipos sociales dañinos.

"Imagen se basa en codificadores de texto entrenados en datos web no seleccionados y, por lo tanto, hereda los sesgos sociales y las limitaciones de los grandes modelos de lenguaje".

gato tocando la guitarra

Fue una de las fotos menos extrañas que pude generar con Imagen. (Crédito de la imagen: Google/Imagen)

Esta es también la razón por la que el equipo Brain de Google no tiene intención de lanzar Imagen para uso público, al menos hasta que puedan desarrollar nuevas "protecciones" para evitar que la IA se utilice con fines dañinos. Como resultado, la vista previa en el sitio web se limita a unas pocas variables cuidadosamente seleccionadas.

Al final, es la elección correcta. Ha habido ejemplos en el pasado de programas de IA lanzados al público en línea... con resultados extremadamente indeseables. Es posible que recuerde a Tay de Microsoft, una cuenta de Twitter de IA que se introdujo en la plataforma de redes sociales hace unos cinco años.

Tay fue un experimento bastante valiente por parte de Microsoft. Su intención era ver cómo una IA reaccionaría e interactuaría con personas reales en un entorno de redes sociales. Sin embargo, en cuestión de horas, Tay pasó de ser un chatbot cuerdo a un distribuidor de temas de conversación antisemitas. Esto es a pesar de que el bot está "modelado, limpiado y filtrado" según Microsoft (gracias, The Verge).

Dado el precedente establecido por una IA como Tay, es fácil ver por qué Imagen fue dominada. Obviamente, incluso un filtrado extenso podría no ser suficiente.

Todavía lejos de ser perfecto

Si bien Imagen me impresionó inmensamente y me divertí mucho mezclando y combinando oraciones para crear todo tipo de imágenes extrañas, definitivamente no es algo que consideraría abrumadoramente convincente. Al menos no por el momento.

La mayoría de las veces, Imagen arrojó resultados terriblemente divertidos. Los animales, en particular, aparecían a menudo en todo tipo de proporciones extravagantes. Ver un mapache con una cabeza enorme o brazos ensangrentados como humanos agarrando el manillar de una bicicleta era algo bastante común. Aunque muy divertidos, estos resultados particulares mezclados con fotorrealismo a menudo han producido resultados inquietantes e inquietantes.

La opción de generar una pintura al óleo era en realidad mucho más convincente, y la mayor parte de lo que Imagen pudo producir aquí no se vería fuera de lugar en un proyecto escolar. Y lo digo de la mejor manera posible. Resulta que un gato persa tocando una guitarra se traduce mucho más convincentemente en una pintura que en una foto realista.

Como se señaló, es muy probable que no obtengamos un lanzamiento público de Imagen en el corto plazo. O nunca, para el caso. Los riesgos que plantean los programas de inteligencia artificial y las redes neuronales capaces de generar contenido de mala reputación aún son demasiado grandes. Por ahora, sin embargo, estoy contento con que Imagen sea una pequeña rareza divertida para aquellos que buscan pasar un tiempo generando divertidos animales con sombreros de vaquero que andan en patineta por una montaña.