Conecta con nosotros

Noticias

Antrophic incrementa la ventana de contexto de Claude hasta los 100.000 tokens, un salto de gigante

Publicado

el

Antrophic incrementa la ventana de contexto de Claude hasta los 100.000 tokens, un salto de gigante

Al hablar de inteligencias artificiales generativas, modelos y chatbots como ChatGPT, Bing, Claude, Bard y demás, solemos poner el foco en algunos aspectos básicos y técnicos sobre sus especificaciones y funcionamiento, como el número máximo de interacciones por conversación, la cantidad de datos empleados en su entrenamiento, su velocidad, los medios de entrada que permite… es decir, aquellos que son rápidamente mesurables y que, claro, inciden de manera muy directa en las interacciones con los mismos.

Hay, sin embargo, otros aspectos menos conocidos pero que resultan igualmente importantes, en algunos casos incluso más, y  la ventana de contexto es uno de ellos. Pero, claro, para entender la razón por la que el salto que menciono en el titular de esta noticia es algo verdaderamente tremendo, es necesario entender previamente algunos conceptos técnicos. Pero no te preocupes, son básicos e interesantes, y los vamos a repasar en un momento.

El primero concepto fundamental es token. Si en alguna ocasión has empleado un modelo generativo, es bastante probable que hayas visto que su salida de mide en tokens, no en palabras, píxeles, notas ni aquellas medidas que sean empleadas, por norma general, para mesurar el tipo de contenido que se está generando. Los tokens son unidades básicas de información que se utilizan para representar y procesar datos en los modelos de inteligencia artificial generativa.

Los tokens pueden ser palabras, caracteres, símbolos o píxeles, dependiendo del tipo de datos que se utilicen. Dicho de otra manera, los modelos aprenden con palabras, notas y bits, pero los descomponen en tokens. Y a la inversa, generan siempre su salida en tokens, aunque el resultado que nos entregan, lógicamente, se estructure en un modo legible/interpretable por nosotros. En el caso de los modelos generativos de texto, se suele considerar (aunque es muy variable) que diez tokens son entre siete y ocho palabras.

Antrophic incrementa la ventana de contexto de Claude hasta los 100.000 tokens, un salto de gigante

Por su parte, la ventana de contexto hace referencia al volumen máximo de información, medido en tokens, que puede gestionar un modelo para una sesión de trabajo, como una conversación completa si hablamos de chatbots, o los datos que puede aceptar como entrada para confeccionar una salida en base a los mismos. Es importante, eso sí, no confundir los datos de la ventana de contexto, que son los propios de cada sesión de trabajo, con los datos empleados para entrenar y validar el modelo, que es la información que se suele proporcionar al hablar de los  mismos, y cuyo volumen es gigantesco.

Del tamaño máximo de la ventana de contexto depende, por lo tanto, los datos que podremos darle a un modelo para que genere una salida en base a los mismos. Y, claro, otra métrica importante es el tiempo que necesita el modelo para ingerir dichos datos. Y es en ambos puntos en los que Claude, el modelo generativo de Antrophic y que puedes probar, en modo de chatbot, en Poe, ha decidido dar un puñetazo en la mesa, poniéndose muy por encima de sus competidores.

En concreto, según podemos leer en una publicación de su blog oficial, Antrophic ha incrementado la ventana de contexto de Claude de 9.000 a 100.000 tokens, lo que la compañía cuantifica en alrededor de 75.000 palabras. Por dar un poco de contexto (nunca mejor dicho), el modelo GPT-4 estándar es capaz de procesar 8.000 tokens, mientras que una versión extendida puede procesar 32.000 tokens. Por su parte, ChatGPT tiene un límite de alrededor de 4.000 tokens.

Este incremento permite que, por ejemplo, Claude sea capaz de ingerir una novela entera para una sesión de trabajo, lo que permitiría, por ejemplo, emplearlo para revisar un borrador completo. O también emplearlo para que sea capaz de revisar una gran selección de informes, con el fin de generar uno nuevo en base a la información de los mismos. Y, para un uso más cercano, que la duración de las conversaciones se pueda extender muchísimo más, antes de que el modelo empiece a experimentar confusión por todos los datos presentes en la misma.

Si me dieran una cana por cada contenido que he escrito relacionado con la tecnología... pues sí, tendría las canas que tengo. Por lo demás, música, fotografía, café, un eReader a reventar y una isla desierta. ¿Te vienes?

Lo más leído