Lo nuevo de Open AI: ¿Qué son los modelos DALL-E y CLIP?

¡Hola a todos! Los laboratorios de investigación de la empresa de Inteligencia Artificial Open AI han publicado dos nuevos artículos en su blog, presentando sus dos nuevos modelos preentrenados DALL-E y CLIP. Son modelos que poseen billones de parámetros y tienen resultados bastante impresionantes. Establecen un vínculo entre el Procesamiento del Lenguaje natural (NLP) y la Visión por Computador (Computer Vision).

Open AI Dall-E and CLIP models overview

El primero, DALL-E, es capaz de generar imágenes totalmente nuevas a partir de una descripción escrita en Lenguaje Natural, el segundo, CLIP, es capaz de dar una descripción en texto de lo que puede observar en una imagen.

DALL-E

DALL-E, es un modelo que permite generar imágenes que coincidan con el texto escrito como entrada, en Lenguaje Natural. Su nombre proviene del Pintor Español Salvador Dalí y el robot Wall-E, de la película de Pixar.
 
Puede crear versiones humanizadas de animales u objetos, combinar dos conceptos en una forma creativa y aplicar transformaciones sobre imágenes. No solo permite generar imágenes desde cero, también puede regenerar o autocompletar cualquier sección rectangular en una imagen para que se adapte a lo que indique el texto.
 
Dall-E text to image examples Open AI
Foto cortesía del blog de Open AI (https://openai.com/blog/dall-e/)
 
Con anterioridad se han podido generar imágenes a partir de textos, con redes como StackGAN o StackGAN++, pero éstas sólo son capaces de generar imágenes de una categoría, solo pájaros, sólo flores, etc. Sin embargo, Dall-E abarca un rango amplio entidades o conceptos que puede generar. Por medio de GPT-3 se dieron cuenta del gran potencial de los Transformers pre-entrenados para tareas de generación de texto. Luego con Image GPT descubrieron que este tipo de redes neuronales también pueden ser utilizadas para generar imágenes con alta fidelidad.

Este modelo es capaz de:
  • Controlar los atributos de los objetos: Colores, formas, textura, etc.
  • Dibujar múltiple objetos: Asociar que atributos corresponden a cada uno y donde están ubicados.
  • Visualizar la perspectiva y escenas en 3D: Controlar desde donde se observa y como se representará: En voxels, renderizado 3D (Realista), figuras de plastilina, etc.
  • Dibujar en 3D la cabeza de un personaje conocido visto desde diferentes ángulos.
Open AI Dall-E completion examples
Foto cortesía del blog de Open AI (https://openai.com/blog/dall-e/)
  • Aplicar distorsiones ópticas a la escena:  Vista de ojo de pez, panorama esférico, etc.
  • Visualizar la estructura interna y externa de un objeto: Cómo se ve cortado por la mitad, a través de los Rayos X, etc.
  • Representar datos contextuales: Por ejemplo, a dónde apunta la sombra de un objeto, su reflejo, etc.
  • Combinar objetos no relacionados: Sintetizar objetos que probablemente no existan en la realidad. Esto le agrega un toque de creatividad a esta tecnología.
  • Crear ilustraciones animales humanizados, objetos, emojis, etc.
  • Generar imágenes que nunca ha visto antes (Zero-shot visual reasoning).
  • Utilizarse en la industria de la moda y el diseño de interiores.
  • Asociar elementos relacionados a hechos geográficos. Por ejemplo: una foto de la comida de China.
  • Entender conceptos que varían con el tiempo: Por ejemplo, un teléfono de la época de los 20s.
Fashion and InteriOr Design Examples Dall-E
Foto cortesía del blog de Open AI (https://openai.com/blog/dall-e/)
 
DALL-E, representa un gran avance en el campo de la Inteligencia Aritifical, la Vision por Computador y el Natural Language Processing, por todo lo que puede hacer.

Este modelo ha sido entrenado con pares Texto-Imagen y posee 12 billones de parámetros. Por ahora no se ha presentado un Paper de investigación, así que no sabemos exactamente como funciona, pero en este artículo de su blog explican a fondo lo que es capaz de lograr, con múltiples ejemplos interactivos para que prueben.

CLIP

CLIP (Contrastive Language Image Pre-Training) es un modelo capaz de calcular la similaridad entre una imagen aleatoria y conjunto de textos que recibe como entrada. Su objetivo es identificar la etiqueta correcta dada una imagen. Siendo capaz de clasificarla, sin tener que haberla visto con anterioridad (zero-shot image classification). Pueden seguir leyendo sobre CLIP en este artículo del blog de OpenAI.

Este modelo aprende como ciertos patrones visuales pueden ser descritos a través de texto en lenguaje natural. También supone una forma diferente de crear etiquetas, por ejemplo describir un mismo objeto de diferentes formas pero cuyo significado es equivalente. 

CLIP Open AI results Classification
Foto cortesía del blog de Open AI (https://openai.com/blog/dall-e/)

Por medio de este enlace puedes ir a ejecutar los códigos en Google Colab y experimentar con una versión más reducida del modelo CLIP. Con 150 millones de parámetros y casi 50.000 palabras en su vocabulario.

Problemas que resuelve

Etiquetado automático de datos

Una de las tareas más difíciles y costosas a la hora de crear modelos de Inteligencia Artificial es la recolección y el etiquetado de cada uno de los datos, los cuales son cantidades excesivamente grandes, por ejemplo, millones y billones de imágenes que tienen que ser etiquetadas por miles de trabajadores. 

Pero, qué tal si dejamos a que una Inteligencia Artificial nos etiquete cada imagen basándonos en lo que ella pueda identificar en la misma. Por medio de CLIP, se pueden etiquetar automáticamente los datos mediante una descripción en texto generada a partir de los patrones visuales que detecte (Esto es un perro, esto es un gato, etc.).

Este modelo ha sido entrenado con una gran cantidad de datos (pares de Imagen-Texto) que pueden obtenerse a través de internet, por lo que la variabilidad es alta, ya que allí se puede encontrar de todo, enriqueciendo el set de datos de entrenamiento.

Buen rendimiento con diferentes Data Sets

Otro problema que resuelve CLIP es la pérdida de precisión al cambiar el conjunto de datos. Por ejemplo, el modelo se desenvuelve muy bien en una tarea y con cierto Dataset, pero al probarlo en otra tarea, el rendimiento cae súbitamente. Teniendo que reentrenar el modelo con otro conjunto de datos y ajustarlo, En contraste, con CLIP se ha obtenido un buen rendimiento tanto en Dataset original con que se entrenó, como en otros conjuntos de datos en donde se aplique.

Este fenómeno es conocido como Overfitting, ese sobre aprendizaje sobre los datos de entrenamiento pero la caída en el rendimiento en los datos de prueba.

A este modelo le anteceden una gran cantidad de trabajos que han tratado de cumplir estas tareas, pero utilizando diferentes técnicas.

Limitaciones 

A pesar de que es capaz de reconocer muy bien objetos cotidianos con alta precisión, Open AI resalta que CLIP presenta dificultades en tareas más abstractas o sistemáticas, por ejemplo contar el número de objetos que aparecen en una imagen, así como con tareas complejas como identificar cual es el objeto más cercano en una imagen.
 
Open AI's CLIP models limitations

Conclusiones

CLIP permite crear Datasets de una forma menos costosa, supone un avance en la búsqueda de un método de crear conjunto de datos de entrenamiento con una menor cantidad de tiempo y esfuezo humano.
 
DALL-E supone una revolución en las Redes Generativas, establece una relación entre el texto y su representación visual, entiende características físicas, temporales y espaciales, permitiendo crear imágenes inimaginables y también supone un aporte a la creación de datases variados.

Open AI es una empresa que ha optado por escalar todos sus modelos, con estas técnicas son capaces de crear un conjunto de datos de entrenamiento bastante enriquecido obtenido a través de Internet.  Resaltan que en el futuro, modelos como éstos, pueden tener un gran impacto en la sociedad, en ciertos procesos y profesiones. Por ejemplo, desde este instante podemos observar cómo podría afectar a los Diseñadores Gráficos. 
 
Pero no hay de que temer, es una tecnología que apenas se está formando y nos motiva a seguir investigando en los usos de la Inteligencia Artificial en nuestras profesiones, no como un reemplazo del trabajo humano, sino como una gran ayuda para los mismos. Para reducir el tiempo y aprovecharlo en otras labores, como compartir con nuestras familias.

¿Qué les ha parecido esta noticia? ¿Les gustaría probar estos modelos y ver que pueden crear? Déjenmelo saber en los comentarios.

¡Saludos y espero verlos pronto!

Si te gustó este artículo ¡Compartenos en las redes!

Publicar un comentario

0 Comentarios