Meta presentó este viernes, el primer modelo multimodal de IA generativa capaz de crear imágenes a partir de texto y viceversa, con una “receta adaptada” de lenguaje multimodal que, además, se entrena con “cinco veces menos recursos” llamado CM3leon.
La compañía liderada por Mark Zuckerberg continúa investigando en modelos generativos de IA, introduciendo avances en el procesamiento del lenguaje natural, en este caso, para permitir que las páginas entiendan y expresen lenguaje, así como sistemas que pueden generar imágenes basadas en entradas de texto.
Tal y como explicó la compañía en un comunicado en su blog, se trata de una solución innovadora porque es “primer modelo multimodal” que está entrenado con una adaptación de modelos de lenguaje de solo texto. Es decir, los modelos generativos de solo texto se ajustan a instrucciones multitarea, comprendiendo distintas gamas de acciones a la hora de seguir indicaciones. Sin embargo, los modelos de generación de imágenes están especializados, por norma general, solo en tareas concretas.
Al aplicar las multitareas a gran escala de los modelos de solo texto para la generación de imágenes y texto, se ha mejorado el rendimiento en otras tareas como, por ejemplo, la generación de texto a partir de imágenes para escribir una leyenda de estas.
Además, aunque es un modelo entrenado con una cantidad de recursos cinco veces menor que los modelos anteriores, CM3leon es capaz de ofrecer un rendimiento “de última generación” para crear imágenes a partir de texto y viceversa. De hecho, Meta ha subrayado que CM3leon tiene la “versatilidad y efectividad de los modelos autorregresivos”. Como consecuencia, es un modelo que mantiene bajos costos de entrenamiento y es eficiente.
Con todo ello, la compañía ha matizado que se trata de un modelo causal enmascarado mixto-modal (CM3) ya que puede generar secuencias de texto e imágenes condicionadas a “secuencias arbitrarias de otro contenido de imagen y texto”.
Siguiendo esta línea, CM3Leon también muestra una capacidad “impresionante” para generar objetos compositivos complejos, es decir, imágenes con distintos componentes que no tienen que ver entre sí o que son complicados de encajar juntos.
Igualmente, la empresa matriz de Instagram ha destacado que CM3leon se desempeña bien en una “amplia variedad de tareas de visión y lenguaje”, incluida la respuesta visual a preguntas y subtítulos de formato largo.
Le puede interesar: Ojo con la inteligencia artificial