Google anuncia Gemini 1.5, con una brutal ventana de contexto
Gemini es, sin duda, el resultado de la plétora de luces rojas que se encendieron en Google hace alrededor de un año, cuando ChatGPT y su primo-hermano Bing estaban cobrándose toda la atención de prácticamente todo el mundo en lo referido a chatbots e inteligencia artificial. La primera reacción fue, ya te lo contamos en su momento, anunciar Bard, pero desde el primer momento quedó claro que esto era solo un plan de contingencia, pero que en realidad sus planes iban mucho más allá.
La primera confirmación de ello la tuvimos cuando escuchamos hablar por primera vez de Gemini, en el Google I/O 2023, y el alcance de este nuevo modelo nos quedó claro con su presentación hace tan solo dos meses y unos días. La versión Pro de este modelo empezó a incorporarse a Bard, mientras que el debut de Ultra se anunció para principios de este año, y que las funciones de Nano irían llegando a determinados dispositivos Android.
Así, tanto la llegada del modelo más avanzado, como la sustitución de Bard por Gemini (que es tanto el nombre del modelo como del servicio) se produjo hace hoy justo una semana. En consecuencia, esperábamos que las próximas noticias al respecto estuvieran relacionadas con su expansión internacional (territorios e idiomas) y con el desarrollo de nuevas funciones. Sin embargo, Google nos ha sorprendido hoy presentado Gemini 1.5, una destacable actualización del modelo que, eso sí, todavía no está disponible.
¿Y es tan sorprendente la evolución de la versión 1.0 a la versión 1.5? Pues lo cierto es que sí, y lo es principalmente por dos razones. La primera es que que se han mejorado, al unísono, rendimiento y eficiencia. Así, según podemos leer en el anuncio oficial, Gemini Pro 1.5 está a la par, en resultados, con Ultra 1.0, pero es que además lo hace con una menor necesidad de cómputo, algo para lo que ha recurrido a una técnica cada vez más común conocida como «Mixture of Experts» (MoE), que permite el uso solo de partes concretas del modelo, en vez de usarlo en su totalidad para cada consulta.
Este tipo de optimización juega un papel clave para la que es, no obstante, la sorprendente novedad de Gemini 1.5, y es que Google ha logrado extender su ventana de contexto hasta el millón de tokens. Para quienes no lo recuerden, la ventana de contexto es volumen máximo de información, medido en tokens, que puede gestionar un modelo para una sesión de trabajo y, por dar un poco de contexto, el pasado mes de mayo Antrophic nos sorprendió con una VdC de 100.000 tokens. Y, por si te lo estás preguntando, actualmente GPT-4 ofrece una ventana de contexto máxima de 128.000 tokens. Y si esto te parece una cifra desmedida, me pregunto qué pensarás al saber que Oriol Vinyals, vicepresidente de investigación de Google Deepmind, ha contado en su cuenta de Twitter que han llegado a probarlo con una VdC de hasta 10 millones de tokens de texto.