Ir al contenido principal

Meta presentó este viernes, el primer modelo multimodal de IA generativa capaz de crear imágenes a partir de texto y viceversa, con una «receta adaptada» de lenguaje multimodal que, además, se entrena con «cinco veces menos recursos» llamado CM3leon.

La compañía liderada por Mark Zuckerberg continúa investigando en modelos generativos de IA, introduciendo avances en el procesamiento del lenguaje natural, en este caso, para permitir que las páginas entiendan y expresen lenguaje, así como sistemas que pueden generar imágenes basadas en entradas de texto.

Tal y como explicó la compañía en un comunicado en su blog, se trata de una solución innovadora porque es «primer modelo multimodal» que está entrenado con una adaptación de modelos de lenguaje de solo texto. Es decir, los modelos generativos de solo texto se ajustan a instrucciones multitarea, comprendiendo distintas gamas de acciones a la hora de seguir indicaciones. Sin embargo, los modelos de generación de imágenes están especializados, por norma general, solo en tareas concretas.

Al aplicar las multitareas a gran escala de los modelos de solo texto para la generación de imágenes y texto, se ha mejorado el rendimiento en otras tareas como, por ejemplo, la generación de texto a partir de imágenes para escribir una leyenda de estas.

Además, aunque es un modelo entrenado con una cantidad de recursos cinco veces menor que los modelos anteriores, CM3leon es capaz de ofrecer un rendimiento «de última generación» para crear imágenes a partir de texto y viceversa. De hecho, Meta ha subrayado que CM3leon tiene la «versatilidad y efectividad de los modelos autorregresivos». Como consecuencia, es un modelo que mantiene bajos costos de entrenamiento y es eficiente.

Con todo ello, la compañía ha matizado que se trata de un modelo causal enmascarado mixto-modal (CM3) ya que puede generar secuencias de texto e imágenes condicionadas a «secuencias arbitrarias de otro contenido de imagen y texto».

Siguiendo esta línea, CM3Leon también muestra una capacidad «impresionante» para generar objetos compositivos complejos, es decir, imágenes con distintos componentes que no tienen que ver entre sí o que son complicados de encajar juntos.

Igualmente, la empresa matriz de Instagram ha destacado que CM3leon se desempeña bien en una «amplia variedad de tareas de visión y lenguaje», incluida la respuesta visual a preguntas y subtítulos de formato largo.

Le puede interesar: Ojo con la inteligencia artificial

Europa Press

enb_1989@hotmail.com

PORTADA

El exembajador de Colombia en Argentina, Camilo Romero, presentará de manera oficial su aspiración a la Presidencia de la República dejando claro si buscará la candidatura en el Partido Alianza Verde o a través de otra fuerza política. La presentación de…
Al estilo de las Cosas de la Política de Confidencial Noticias, explicamos quienes fueron los que en realidad perdieron con la resurrección del proyecto de la reforma laboral y el hundimiento de la consulta popular. Nota recomendada: Gustavo Petro…
La demanda interpuesta por el abogado por Fabiola Perea contra la canciller, Laura Sarabia, por daños y perjuicios causados tras haberla convertido en víctima de seguimientos e interceptaciones ilegales dentro del caso de su exniñera, Marelbys Mesa, superó…
El presidente de la Central Unitaria de Trabajadores (CUT), Fabio Arias, en entrevista para Confidencial Noticias, explica que el llamado a un paro nacional lo hacen para manifestar su apoyo al proyecto de consulta popular y rechazar un posible nuevo…
Foto: El Tiempo La Corte Suprema de Justicia dio a conocer la terna de candidatas que competirán para el cargo de magistrada de la Corte Constitucional. Esta terna, integrada exclusivamente por mujeres, tiene como propósito seleccionar a la jurista que…