A Fondo

Inteligencia artificial, TOPs y tokens: todo lo que debes saber

Publicado

12 junio, 2024

por

Hace cosa de seis años hablábamos de la inteligencia artificial como una tecnología prometedora, como un proyecto de futuro que podría transformar profundamente nuestra sociedad. Recuerdo perfectamente que en aquél momento no faltaron los escépticos que decían que todo era puro humo, y también había un sector que decía que no debíamos tener muchas expectativas, porque sus posibilidades reales se habían exagerado.

El tiempo ha pasado, y la verdad es que no hemos tenido que esperar mucho para ver que las predicciones más positivas eran las que tenían razón. La inteligencia artificial está transformando la forma en la que trabajamos, creamos, socializamos y jugamos. Su potencial es tan enorme que se ha extendido a diferentes sectores y niveles, y sigue siendo prometedora porque todavía nos encontramos en una etapa relativamente temprana, lo que significa que seguirá experimentando mejoras muy importantes.

Cuando hablamos de inteligencia artificial todos tenemos, más o menos claro, a qué nos estamos refiriendo. Sin embargo, con la popularización de esta tecnología han ido surgiendo nuevos conceptos que están profundamente vinculados a ella y que son muy importantes, pero que al mismo tiempo son menos conocidos. Hoy quiero profundizar en este tema, y me voy a centrar en dos grandes claves, los TOPs y los tokens.

Inteligencia artificial y TOPs

Los TOPs son una unidad de medida que podríamos comparar con otras más conocidas, como los FPS (fotogramas por segundo en juegos) o los GB/s (gigabytes por segundo) en unidades SSD. Esas siglas se refieren a trillones de operaciones por segundo, y como suele ocurrir en la mayoría de los casos cuando hablamos de rendimiento «más TOPs siempre es mejor».

Es una unidad muy fácil de entender. Los TOPs se refieren a los trillones de operaciones que un componente es capaz de realizar en un segundo. Por ejemplo, si una NPU (unidad de procesamiento neural) tiene un valor de potencia de 50 TOPs significa que es capaz de realizar 50 trillones de operaciones en un segundo. Esta sería menos potente que otra NPU con una potencia de 60 TOPs.

Los modelos de inteligencia artificial que utilizamos actualmente necesitan de ciertos valores de rendimiento para poder trabajar de forma óptima, y estos se miden en TOPs. Por ejemplo, Microsoft Copilot+ necesita de un mínimo de 40 TOPs para funcionar de forma óptima. Esto representa un valor orientativo que nos permite establecer el nivel mínimo para que funcionen modelos de IA sencillos de forma local.

Para poder mover modelos de IA mucho más avanzados y complejos impulsados por inteligencia artificial generativa, como por ejemplo los asistentes inteligentes de creación de contenidos digitales, la tecnología de reescalado inteligente aplicada a juegos en PC (NVIDIA DLSS), la generación de imágenes a partir de texto o vídeo y los LLMs (grandes modelos de lenguaje) es necesario contar con mucha más potencia, y es aquí donde entran en juego las GPUs.

Una NPU de última generación puede ofrecer alrededor de 50 TOPs, mientras que una GeForce RTX 4090 puede alcanzar, gracias a sus núcleos tensor de cuarta generación, la friolera de 1.300 TOPs. La diferencia es espectacular, y deja claro también que hay una importante división entre inteligencia artificial básica que se puede afrontar de forma asequible y eficiente, e inteligencia artificial avanzada, que requiere de componentes más punteros y avanzados.

Los TOPs son solo una cara de la moneda, conoce a los tokens

Ya sabes qué son exactamente los TOPs, pero cuando hablamos de LLMs la unidad de medida de rendimiento cambia y pasamos a utilizar los tokens. Sé lo que estás pensando, ¿qué es un token? Pues es muy sencillo, podemos definirlo como la cantidad de elementos de salida que puede generar un LLM. Por ejemplo, un token puede ser una palabra en una frase o incluso un elemento mucho más pequeño, como una letra o un signo de puntuación.

Por tanto, el rendimiento de los LLMs se puede medir en tokens por segundo. Llegados a este punto es importante introducir también otro concepto clave que es todavía menos conocido, pero que resulta fundamental cuando hablamos de modelos grandes de lenguaje, el tamaño de los lotes, que se define como la cantidad de operaciones de entrada que se pueden procesador de forma simultánea en una única pasada de inferencia.

Un LLM que sea capaz de trabajar con varias operaciones de entrada o «inputs» de fuentes y aplicaciones diferentes será superior a otro que se tenga que limitar a una única fuente. Trabajar con lotes más grandes mejorará el rendimiento y el proceso de inferencia, pero al mismo tiempo aumentará la cantidad de memoria necesaria para que ese LLM pueda funcionar correctamente.

Para afrontar este tipo de cargas de trabajo lo ideal es contar con una GPU dedicada que tenga una cantidad de memoria gráfica adecuada. Por ejemplo, una GeForce RTX 4080 con 16 GB de memoria gráfica podrá trabajar con lotes más pequeños que una GeForce RTX 4090 con 24 GB de memoria gráfica, y lo mismo ocurrirá si comparamos a esta última con una NVIDIA RTX 6000, que tiene 48 GB de memoria gráfica.

La memoria gráfica importa, pero el hardware especializado y el software también juegan un papel fundamental para conseguir el máximo rendimiento trabajando con LLMs. Estos pueden aprovechar los núcleos tensor de las GeForce RTX y NVIDIA RTX, y tienen un soporte pleno en el kit de desarrollo NVIDIA TensorRT, lo que se traduce en una inteligencia artificial más eficiente y precisa, y en una mayor capacidad de respuesta a futuros desafíos.

Si halamos de generación de imágenes el rendimiento se puede medir también partiendo del tiempo necesario para generar cada imagen. Esto es lo que hace Procyon, por ejemplo, como podemos ver en la imagen adjunta, donde tenemos el rendimiento medio de una GeForce RTX 4090 para portátiles trabajando bajo FP16 (precisión media) y TensorRT como sistema de aceleración para mejorar el rendimiento.

Interesante, ¿verdad? Si te has quedado con ganas de saber más sobre la inteligencia artificial te recomiendo que eches un vistazo a la serie AI Decoded de NVIDIA, donde encontrarás más información sobre esta tecnología aplicada a diferentes sectores, y también sobre otros conceptos muy importantes que son clave para entenderla.

Relacionados:destacado Inteligencia artificial Tecnología

A continuación

Novedades VOD 24/24: ‘Ultraman: El ascenso’, la niñera definitiva

No te pierdas

WWDC 2024: novedades de iOS 18, macOS 15 y más

Isidro Ros

Editor de la publicación on-line líder en audiencia dentro de la información tecnológica para profesionales. Al día de todas las tecnologías que pueden marcar tendencia en la industria.