Conecta con nosotros

Noticias

SeamlessM4T, Meta publica una IA multimodal de traducción en 100 idiomas

Publicado

el

SeamlessM4T, Meta publica una IA multimodal de traducción en 100 idiomas

Meta se ha tomado en serio, muy en serio, la revolución de la inteligencia artificial, y SeamlessM4T es el ejemplo más reciente (y uno de los más interesante, además) de ello. Y esto me recuerda a principios de este año, cuando Yann LeCun afirmó que ChatGPT no era innovador no revolucionario. Recordemos que LeCun, además del máximo responsable de IA en Meta, es toda una institución en el campo de la inteligencia artificial. Algo en lo que podíamos estar de acuerdo si se refería a la tecnología subyacente al servicio, pero no tanto en lo referido a la concepción y puesta en marcha del mismo.

Meta tuvo, a principios de este año, un problema semejante al de Google, y es que ambas tecnológicas llevan ya bastante tiempo trabajando en el campo de la inteligencia artificial, pero la visibilidad de sus avances en este sentido era bastante reducida. Por poner solo un ejemplo, ya en 2011 Google creó DistBelief, que es su gran evolución de 2015 pasaría a convertirse en TensorFlow, una biblioteca de código abierto para aprendizaje automático de uso muy, muy extendido desde entonces. Y sí, por si te lo estás preguntando, no es casual que los SoC de Google, denominados Tensor y especialmente capacitados para tareas de IA, se llamen precisamente así.

Sea como fuere, y volviendo a Meta, si algo se le podía reprochar a leCun cuando hizo aquella afirmación, era que Meta no resultara tan revolucionaria, a nivel de calle, como lo estaba siendo OpenAI, y muy poco después empezaría a serlo también Microsoft. Ahora bien, Parece evidente que él mismo también debió llegar a esa conclusión y, desde entonces, Meta ha empezado a demostrar su potencial en el campo de la inteligencia artificial. Y sí, se está convirtiendo en una superpotencia en el mismo.

SeamlessM4T, Meta publica una IA multimodal de traducción en 100 idiomas

Así, cuando apenas había transcurrido un mes desde dichas declaraciones, Meta presentó y liberó LlaMa (Large Language Model Meta AI), un modelo generativo entrenado con un vasto conjunto de datos compuesto por textos en 20 idiomas distintos y que, por lo que pudimos ver en sus especificaciones, aspiraba a competir de tú a tú con GPT-3 (ojo, hablo del modelo, no de ChatGPT, pues lo presentado por Meta es un modelo, no un chatbot basado en el mismo). Posteriormente llegaría SAM, una IA capaz de identificar y segregar los distintos componentes de una imagen y, desde entonces, se han producido algunos anuncios más.

Y eso nos lleva al presente, un momento en el que la compañía ya ha logrado consolidar su posición en este campo, pero que pese a ello no apunta a relajarse. Así, según podemos leer en su blog, Meta ha presentado SeamlessM4T, un modelo de IA multimodal capaz de realizar traducciones entre 100 idiomas. Multimodal, en este contexto, quiere decir que permite entradas y salidas tanto escritas como de audio, aunque su alcance en lo referido al número de idiomas varía en función del tipo de medio de entrada y/o salida empleado. Estas son sus capacidades, según podemos leer en el blog:

  • Reconocimiento automático de voz para casi 100 idiomas
  • Traducción de voz a texto para casi 100 idiomas de entrada y salida
  • Traducción de voz a voz, compatible con casi 100 idiomas de entrada y 35 (+ inglés) idiomas de salida
  • Traducción de texto a texto para casi 100 idiomas
  • Traducción de texto a voz, compatible con casi 100 idiomas de entrada y 35 (+ inglés) idiomas de salida

SeamlessM4T, Meta publica una IA multimodal de traducción en 100 idiomas

La cantidad de idiomas soportados ya hace que SeamlessM4T tenga un enorme alcance, pero algo que lo hace todavía mucho más interesante es que es capaz de detectar cambios de idioma cuando la fuente de entrada sea audio alterna entre dos o más idiomas en una misma frase / conversación. Así, a diferencia de otros sistemas de este tipo, en los que la entrada solo puede producirse en un único idioma, o en los que es necesario indicarle al software que tal cambio se ha producido, este modelo es inteligente a este respecto.

Otro aspecto destacable de SeamlessM4T es que Meta lo publicará con una licencia CC BY-NC 4.0, es decir, que será accesible pública y gratuitamente para todo tipo de entidades, tanto públicas como privadas, interesadas en emplearlo para cualquier fin. Ahora bien, y al igual que con LlaMa, no parece que Meta tenga planes de crear un servicio online de traducciones basado en este modela. Pero si estabas deseando probarlo no te preocupes, y es que ya puedes hacerlo, si lo deseas, en la página de SeamlessM4T en HuggingFace.

Si me dieran una cana por cada contenido que he escrito relacionado con la tecnología... pues sí, tendría las canas que tengo. Por lo demás, música, fotografía, café, un eReader a reventar y una isla desierta. ¿Te vienes?

Lo más leído