Conecta con nosotros

Noticias

NVIDIA RTX AI Toolkit se actualiza para ofrecer soporte multi-LoRA

Publicado

el

NVIDIA RTX AI Toolkit IA portada

Los LLMs, siglas de grandes modelos de lenguaje, ha transformado el mundo y han contribuido muchísimo a la popularización de la IA. NVIDIA fue una de las primeras en darse cuenta del importante papel que estaban jugando los LLMs, y supo responder con el NVIDIA RTX AI Toolkit, una plataforma que permite implementar y personalizar modelos de IA de una manera más sencilla y eficiente.

Las posibilidades de los LLMs son enormes. Se pueden utilizar para dar forma a herramientas de productividad, para crear ayudantes digitales, para dar forma a NPCs altamente realistas e interactivos y también para crear otros tipos de soluciones especializadas que nos harán la vida mucho más fácil. Sin embargo, para alcanzar esa gran riqueza funcional es necesario adoptar un alto grado de especialización.

El NVIDIA RTX AI Toolkit ha resuelto el problema de la especialización y la personalización de los LLMs de una manera muy inteligente, adoptando un soporte total de múltiples adaptadores LoRA de forma simultánea a través de NVIDIA TensorRT-LLM, una biblioteca especializada en IA que permite acelerar y mejorar hasta en 6 veces el rendimiento de los modelos de LLMs personalizados.

LLMs, NVIDIA RTX AI Toolkit y la importancia de la especialización

Los LLMs fundacionales son los pilares de la IA. han sido entrenados con una enorme cantidad de datos y de información, lo que los convierte en plataformas muy versátiles que están llenas de posibilidades. Sin embargo tienen un problema, y es que carecen del contexto que necesitan para alcanzar un grado de especialización ideal de cara a ser utilizados en ciertos ámbitos y aplicaciones.

Piensa, por ejemplo, en el grado de especialización que necesitaría un LLM para poder dar vida a NPCs altamente realistas en un videojuego. Para conseguir esa especialización es necesario llevar a cabo un proceso especial de entrenamiento que permitirá adaptar el modelo de lenguaje a los objetivos propios de esa especialización, pero esto puede ser complicado, y dependiendo de la manera en la que se aborde puede consumir muchos recursos.

Ahí es donde entra en juego LoRA, siglas de «adaptación de bajo rango», que podemos definir como un archivo o un parche que contiene todas las personalizaciones que se han realizado durante el proceso de ajuste cuidadosamente afinado. Una vez finalizado el entrenamiento, los adaptadores LoRA se pueden integrar sin problemas en el modelo fundacional durante el proceso de inferencia añadiendo una carga mínima.

Los desarrolladores pueden conectar estos adaptadores a un único modelo para atender a múltiples casos de uso, lo que permite mantener un consumo de memoria bajo y proporciona los detalles adicionales necesarios para cada caso de uso específico. Ya sabemos lo importante que es el consumo de memoria cuando hablamos de LLMs y las diferencias que esto puede marcar.

En el mundo real esto significa que una aplicación puede mantener solo una copia del modelo base en la memoria, y que puede acompañarla de muchas personalizaciones mediante el uso de múltiples adaptadores LoRA. Este proceso se denomina servicio multi-LoRA, y es lo que se ha integrado en NVIDIA RTX AI Toolkit.

Cuando se realizan múltiples llamadas al modelo, la GPU puede procesar todas las llamadas en paralelo, maximizando el uso de sus núcleos tensor y minimizando las demandas de memoria y ancho de banda, permitiendo a los desarrolladores usar modelos de IA de manera eficiente en sus flujos de trabajo. Los modelos optimizados que utilizan adaptadores multi-LoRA funcionan hasta 6 veces más rápido, como os comenté anteriormente.

Imagen de portada generada con IA.

Editor de la publicación on-line líder en audiencia dentro de la información tecnológica para profesionales. Al día de todas las tecnologías que pueden marcar tendencia en la industria.

Lo más leído