12'

Google I/O 2024: todo a la inteligencia artificial

Publicado

14 mayo, 2024

Google hizo pública, a mitades de marzo, la fecha en la que tendría lugar el Google I/O 2024, la edición de este año de su evento para desarrolladores que, desde hace algunos años, también atrae el interés del gran público, ya que es el espacio elegido por la tecnológica para realizar algunos anuncios destacables. Un ejemplo perfecto de ello lo tuvimos el año pasado, en el que probablemente haya sido uno de los I/O más completos de los últimos años.

Este año, después de los anuncios de la semana pasada, supimos que los dispositivos no tendrán cabida en la edición de este año. Y esto, junto con la publicación de la agenda hace unas semanas, nos ha permitido hacer una aproximación bastante centrada sobre lo que se reservaba Google para la inauguración del Google I/O 2024. Lo que no quita que, como ya indicamos entonces, quedara un enorme margen para el desarrollo de esas premisas y, por lo tanto, para muchas sorpresas.

Nuestra apuesta basculaba, ya lo sabes, sobre tres grandes ejes: Android 15 (que trataremos en otra entrada), Google Gemini e inteligencia artificial. Y desde el mismo arranque del evento ha quedado claro que, al menos en los dos últimos puntos, no nos equivocábamos. Eso sí, a diferencia de 2023, donde Gemini compartió protagonismo con otros modelos empleados en otras funciones, este año la tecnológica ha hecho un all-in con su LLM, que ha protagonizado casi todo lo referido a novedades basadas en inteligencia artificial.

Y no solo en lo referido a servicios, también la (muy breve) parte del evento dedicada a Android se ha centrado, exclusivamente, en las capacidades del OS en relación con la inteligencia artificial… gracias a Gemini. Esperábamos, pues era evidente, que Google pusiera el foco de esta keynote inaugural del Google I/o 2024 en sus avances en IA, más aún si tenemos en cuenta el evento de OpenAI de ayer, el de Microsoft que tendrá lugar el 20 de mayo, el inicio un día después del Microsoft Build 2024, y la WWDC 2024 de Apple que tendrá lugar en junio.

Sí es cierto, no obstante, que debido al foco absoluto puesto en Gemini y su integración en productos y servicios, personalmente he echado un poco de menos que se abordaran otras áreas, y en este punto estoy pensando especialmente en Android 15. Es cierto, sí, que tendrá cabida en bastantes de las actividades programadas, pero me habría gustado ver algo con un poco más de variedad en este sentido. Pero bueno, esto es más la expresión de una preferencia personal que la valoración del evento. Un evento que, sin llegar al nivel que alcanzó el año pasado, sí que ha tenido también bastantes anuncios interesantes, que repasamos a continuación:

Project Astra

Sin restarle importancia al resto de lo anunciado, sin duda lo más interesante de cuanto nos han mostrado ha sido Proyecto Astra, una proyección de futuro pero realizada con tecnología ya existente que nos muestra la visión de Google en lo referido a agentes universales (de propósito general) con soporte multimodal nativo. Todavía no hay, claro, una estimación concreta sobre cuándo podremos empezar a disfrutar de una experiencia de uso como la mostrada en el vídeo, pero saber que es una demo real, sin duda resulta emocionante.

No hay que ser un gurú para darse cuenta de la enorme relación que hay entre Project Astra y lo que nos mostró ayer OpenAI con GPT-4o, el futuro de los asistentes pasa claramente por la comunicación mediante voz, a la que se suman tanto la entrada como la salida de texto y de imágenes, y que nos acercará, aunque con bastantes limitaciones, al futuro que describió Spike Jonze en Her, algo sobre lo que reflexionaba esta misma tarde.

Ahora será clave, claro, ver la velocidad con la que Google es capaz de convertir Astra en una realidad, pues es evidente que Apple y OpenAI caminan en esa misma dirección, y visto lo visto tiene sentido pensar que Microsoft también tengan planes en este sentido, si bien es probable que, en su caso, sea con un plazo superior. Así pues, la gran carrera en este sentido se disputará entre Android e iOS, y sacar ventaja temporal en este sentido puede tener mucho peso en la carrera a largo plazo.

Gemini Pro, contexto de un millón de tokens para todos

El pasado mes de febrero, con el anuncio de Gemini 1.5, una de las novedades más interesantes que adelantaron es que esta versión de su modelo es capaz de trabajar con una ventana de contexto de un millón de tokens. Esa brutal ventana estaría disponible, eso sí, de manera bastante limitada. Sin embargo, entre las novedades anunciadas en el Google I/O 2024, hoy hemos sabido que esta prestación pasa a estar disponible para todos los usuarios de esta versión del modelo. Lo que, como puedes ver en la imagen superior, también incluye a los suscriptores de Gemini Advanced, la modalidad de pago del chatbot de Google.

La gran ventaja que proporciona una ventana de contexto de esta capacidad es, claro, la de poder alimentar la IA con documentos de todo tipo, cuyo contenido sea tenido en cuenta en las posteriores interacciones con el modelo. Así, para facilitarlo en Gemini Advanced, se van a añadir los controles necesarios para que los usuarios puedan subir documentos tanto directamente desde sus dispositivos, como desde sus cuentas de Google Drive.

Y si piensas que un millón de tokens de ventana de contexto se te pueden quedar cortos, tampoco debes preocuparte, puesto que Google ha adelantado que más adelante crecerá hasta los dos millones de tokens.

Adicionalmente, la familia Gemini ha crecido con una nueva versión del modelo, Gemini Flash, que es más liviano que la versión Pro pero, aún así, ofrece buena parte de sus funciones, como sus capacidades multimodales y la ventana de contexto de un millón de tokens. Google lo recomienda para usos en los que se requiera de la máxima eficiencia y rapidez, pues en estos casos puede ofrecer un mejor resultado que Pro.

Veo e Imagen 3

AL principio he indicado que gran parte del protagonismo de este Google I/O 2024 le ha correspondido a Gemini, pero también hemos tenido noticias interesantes con respecto a otros dos modelos.

Por una parte tenemos Imagen 3, la tercera generación del modelo de generación de imágenes, que ha mejorado al nivel de proporcionar imágenes foto-realísticas. En el evento se han mostrado algunas imágenes generadas con esta nueva generación del modelo y, aunque evidentemente en estos casos siempre se escogen los mejores resultados, lo cierto es que la calidad de sus composiciones es sorprendente. Además, según han contado, se ha mejorado sustancialmente la interpretación del texto de los prompts, lo que además de permitir que éstos puedan ser más sencillos, también mejora la interpretación y aplicación de todos los detalles indicados en el texto.

Por otra parte Google ha presentado Veo, un modelo generativo de vídeo que, sin duda, es la respuesta de los del buscador a Sora (que, recordemos, fue presentado por OpenAI el mismo día que Google anunció Gemini 1.5). En su versión inicial, de acceso limitado, permite crear vídeos de hasta un minuto, de alta calidad con resolución 1.080p. Además, gracias a su entrenamiento, es capaz de responder a peticiones con términos cinematográficos como timelapse o tomas aéreas de paisajes.

IA generativa en las búsquedas

Mostrada inicialmente en el Google I/O 2023, este año Google nos ha mostrado la evolución que ha experimentado la búsqueda en la que se integra la inteligencia artificial generativa, tras pasar un año en el modo de experimento. Así, como ya vimos entonces, ahora el buscador es capaz de ofrecer resúmenes personalizados para las búsquedas de información que llevemos a cabo. Obviamente se siguen mostrando resultados, pero ahora en una selección de menor tamaño y con un texto que nos facilita la navegación por los mismos.

Por otra parte, también hemos visto que la integración de Gemini permite realizar consultas multimodales, incluso con vídeo, que el buscador será capaz de analizar para proporcionarnos una respuesta al prompt que acompañe los mismos. Para tal fin se ha mostrado una demo en directo con un tocadiscos en el que el brazo fonocaptor no se posa sobre el vinilo. Tras analizar el vídeo y el texto de la consulta, Google responde al usuario con las posibles razones del fallo, indicando al principio que parece no estar correctamente calibrado.

Google ha recopilado algunos ejemplos de uso muy interesantes, que puedes encontrar en esta página. Además, han confirmado que esta modalidad de búsqueda estará disponible, desde hoy mismo, en Estados Unidos y en Reino Unido.

Gemini se integra en Google Fotos

De todas las integraciones que Gemini que se han mostrado hoy, ésta me ha parecido una de las más interesantes, y es que ahora Google Fotos podrá analizar, y por lo tanto «entender» el contenido de las imágenes, lo que nos permitirá realizar búsquedas en función de su contenido. Y sí, es cierto que la IA en este sentido ya ha estado presente en Google Fotos desde hace tiempo, permitiendo por ejemplo identificar a personas, pero en este caso nos encontramos ante una evolución mayor.

En la demo que se ha mostrado en el Google I/O 2024, hemos podido ver como una consulta sobre la evolución en el tiempo de la técnica de natación de una niña, obtenía como respuesta una selección de fotografías protagonizadas por la misma, organizadas cronológicamente, y que por lo tanto representaba, efectivamente, su evolución tal y como se pedía en la búsqueda.

Gemini en Google Workspace

Siguiendo con las integraciones de Gemini, probablemente la que más desarrollo ha tenido hasta el momento es la de Workspace, el conjunto de herramientas de productividad, comunicación y trabajo en grupo de Google. Y esto es comprensible, ya que el alcance que pueden llegar a tener las funciones generativas en un conjunto de herramientas de este tipo es, sencillamente, formidable. Así, hoy han sido dos las principales novedades que se nos han mostrado en el Google I/O 2024.

En primer lugar, y como cabía esperar, la versión actualizada de Google Gemini 1.5 Pro (incluida la ventana de contexto de un millón de tokens) pasa a ser la integrada en Workspace, y sus herramientas estarán accesibles desde el panel lateral de Gmail, Documentos, Drive, Presentaciones y Hojas de cálculo. De momento esta versión actualizada está disponible para los usuarios de Workspace Labs y para los usuarios Alpha de Gemini para Workspace, pero su despliegue tanto a empresas (con planes de Gemini para Workspace) como particulares (con el plan AI Premium de Google One) se iniciará el mes que viene.

También se han anunciado novedades basadas en IA para la app móvil de Gmail, como la muy valorada función de creación de resúmenes, propuesta de respuestas en diferentes sentidos basadas en el contexto y, con su debut previsto para más adelante, una lista de opciones de tareas a llevar a cabo, también contextuales.

Gems

Google también ha adelantado hoy una función que se integrará próximamente en Gemini Advanced y que, sin duda, te resultará de lo más familiar, y en la que esperemos que Google haya sido capaz de identificar los principales errores de su referencia para evitarlos aquí. En este punto es posible que ya hayas deducido que, efectivamente, los Gems son la versión del chatbot de Google de los GPTs de ChatGPT, es decir, versiones personalizadas de Gemini para adaptarlas a un contexto concreto.

Por lo que nos han mostrado en el Google I/O 2024, la creación de un Gem será bastante sencilla, tan solo tendremos que parametrizar (mediante texto) el comportamiento que esperamos del mismo. Y, por lo que se ha mostrado, será posible compartir los Gem que creemos con otros usuarios. Como decía antes, si Google es capaz de evitar el caos en el que se ha convertido la tienda de OpenAI, podemos estar hablando de una función bastante interesante.

SIGUIENTE