VALL-E, la IA de Microsoft capaz de imitar voces
La inteligencia artificial es la tecnología de moda, y VALL-E es el último (por ahora, claro) ejemplo de ello. Y también de lo en serio que se ha tomado Microsoft la importancia de avanzar y tomar posiciones en este mercado que se encuentra en una fase de absoluta eclosión. ¿Es una apuesta segura o nos encontramos ante una nueva burbuja? Todavía es pronto para saberlo, pero las perspectivas señalan más en el sentido de que nos encontramos frente a algo verdaderamente disruptivo.
Como decía, Microsoft se lo ha tomado bastante en serio. Ya hemos hablado últimamente de sus planes para integrar ChatGPT, primero en Bing, y ayer mismo supimos que también en algunas de las aplicaciones de Microsoft 365. Además, hoy mismo se ha sabido que los de Redmond plantean incrementar su participación económica en OpenAI, la empresa responsable de ChatGPT, algo que cuadra a la perfección con sus planes de exprimir al máximo las tecnologías de la misma en sus productos y servicios.
Ahora bien, que Microsoft se muestre muy interesada en las soluciones de OpenAI no significa, ni mucho menos, que confíe en dicha compañía para todo lo relacionado con la inteligencia artificial. Además de mantener el ojo bien puesto sobre lo que hacen otras muchas empresas, también está trabajando en este campo con sus equipos de ingeniería y de I+D, ya sea con soluciones dirigidas específicamente a alguno de sus productos, o bien como experimentación sobre lo que se puede llegar a hacer con la IA. Y de este tipo de investigaciones es de donde ha salido VALL-E.
Aunque su nombre te recuerde al de DALL-E, la IA de OpenAI de generación de imágenes, en este caso nos encontramos frente a una propuesta algo distinta, y es que VALL-E, nacida de los laboratorios de Microsoft, solo necesita escuchar tres segundos de una voz para imitarla. Y aunque no es perfecto, la compañía ha publicado una extensa lista de ejemplos de esta IA y el resultado es, no sé si decir que sorprendente, fascinante o escalofriante.
En la parte técnica, desde luego los resultados obtenidos por VALL-E son asombrosos, y son muchísimos los usos prácticos que se le pueden dar a una solución como ésta que, además, nos recuerda un tanto a la que Apple ha desarrollado para la narración automática de audiolibros. El software de síntesis de voz no es nada nuevo, y durante muchos años sus responsables se han esforzado por hacer que su sonido resultara más y más natural, por lo que VALL-E, con su propuesta, nos acerca a la cima de esa montaña.
No es, sin embargo, la primera ocasión en la que vemos una IA capaz de generar audio que parezca la voz de una determinada persona. Adobe nos dejó con la boca abierta, allá por 2016, con Adobe VoCo, un prototipo de aplicación que era capaz de «aprender» una voz y, a partir de ese punto, ofrecer la traslación de texto a voz de cualquier mensaje de texto.
Esta IA abrió un importante debate sobre los riesgos que plantea algo así en un mundo en el que las noticias falsa circulan a la velocidad de la luz. Los posibles usos malintencionados de soluciones como VALL-E obligan a sus responsables a actuar con una enorme cautela pues, de lo contrario, pueden ver cómo sus bienintencionadas creaciones se convierten en una herramienta empleada con las más aviesas intenciones.