Ir al contenido principal

Meta presentó este viernes, el primer modelo multimodal de IA generativa capaz de crear imágenes a partir de texto y viceversa, con una «receta adaptada» de lenguaje multimodal que, además, se entrena con «cinco veces menos recursos» llamado CM3leon.

La compañía liderada por Mark Zuckerberg continúa investigando en modelos generativos de IA, introduciendo avances en el procesamiento del lenguaje natural, en este caso, para permitir que las páginas entiendan y expresen lenguaje, así como sistemas que pueden generar imágenes basadas en entradas de texto.

Tal y como explicó la compañía en un comunicado en su blog, se trata de una solución innovadora porque es «primer modelo multimodal» que está entrenado con una adaptación de modelos de lenguaje de solo texto. Es decir, los modelos generativos de solo texto se ajustan a instrucciones multitarea, comprendiendo distintas gamas de acciones a la hora de seguir indicaciones. Sin embargo, los modelos de generación de imágenes están especializados, por norma general, solo en tareas concretas.

Al aplicar las multitareas a gran escala de los modelos de solo texto para la generación de imágenes y texto, se ha mejorado el rendimiento en otras tareas como, por ejemplo, la generación de texto a partir de imágenes para escribir una leyenda de estas.

Además, aunque es un modelo entrenado con una cantidad de recursos cinco veces menor que los modelos anteriores, CM3leon es capaz de ofrecer un rendimiento «de última generación» para crear imágenes a partir de texto y viceversa. De hecho, Meta ha subrayado que CM3leon tiene la «versatilidad y efectividad de los modelos autorregresivos». Como consecuencia, es un modelo que mantiene bajos costos de entrenamiento y es eficiente.

Con todo ello, la compañía ha matizado que se trata de un modelo causal enmascarado mixto-modal (CM3) ya que puede generar secuencias de texto e imágenes condicionadas a «secuencias arbitrarias de otro contenido de imagen y texto».

Siguiendo esta línea, CM3Leon también muestra una capacidad «impresionante» para generar objetos compositivos complejos, es decir, imágenes con distintos componentes que no tienen que ver entre sí o que son complicados de encajar juntos.

Igualmente, la empresa matriz de Instagram ha destacado que CM3leon se desempeña bien en una «amplia variedad de tareas de visión y lenguaje», incluida la respuesta visual a preguntas y subtítulos de formato largo.

Le puede interesar: Ojo con la inteligencia artificial

Europa Press

enb_1989@hotmail.com

PORTADA

José Moreno Caballero, abogado de defensa del exdirector de la Unidad Nacional Para la Gestión del Riesgo de Desastres (UNGRD), Olmedo López, celebró la decisión de la Corte Suprema de Justicia de dictar orden de captura contra los expresidentes del Senado y…
El senador de la Alianza Verde, Jonathan Ferney Pulido Hernández, conocido como Jota Pe Hernández anunció su deseo de competir internamente en su partido por la candidatura a la presidencia de la república. El nombre de Jota Pe Hernández se suma a la…
La Sala de Instrucción de la Corte Suprema de Justicia ordenó la captura de los expresidentes de Senado y Cámara, Iván Name y Andrés Calle, señalados de supuestamente recibir dineros del saqueo de la Unidad Nacional de Gestión del Riesgo y de Desastre…
El presidente de Colombia, Gustavo Petro, ha asegurado sentirse traicionado «a cada rato» por funcionarios del Gobierno. «Me quieren matar», ha dicho durante una comisión sobre la reforma agraria, en la que ha denunciado un pacto entre los grupos armados, el…
El presidente, Gustavo Petro, desde la red social X anunció una demanda en contra de su exministro de relaciones exteriores, Álvaro Leyva, luego de que este último publicara una nueva carta en donde señala una supuesta adicción a las drogas del primer…