
Nvidia Desarrolla Técnica que Reduce Costos de LLM en 8x
TL;DR
Nvidia presenta una nueva técnica llamada Dynamic Memory Sparsification (DMS), que reduce los costos de memoria de los modelos de lenguaje a gran escala en
Nvidia presenta una nueva técnica llamada Dynamic Memory Sparsification (DMS), que disminuye los costos de memoria de los modelos de lenguaje de gran tamaño en hasta **ocho veces**. Esta innovación permite que los modelos mantengan o incluso mejoren sus capacidades de razonamiento mientras procesan información.
Con el DMS, la caché de valor-clave (KV), que almacena datos temporales durante el razonamiento de los modelos, se comprime de manera eficiente. Investigaciones anteriores habían mostrado dificultades para reducir la caché sin comprometer la inteligencia del modelo, pero el enfoque de Nvidia logró descartar partes significativas de la caché sin pérdida de precisión.
Desafíos del Razonamiento en Modelos de Lenguaje
Los modelos de lenguaje mejoran su desempeño en tareas complejas al generar tokens de "chain-of-thought" que detallan su razonamiento. Sin embargo, este proceso aumenta la demanda computacional debido al crecimiento lineal de la caché KV, que puede convertirse en un obstáculo significativo en aplicaciones prácticas.
El aumento del uso de memoria en GPUs resulta en **latencia** y limita el número de usuarios atendidos simultáneamente. Piotr Nawrot, ingeniero de Nvidia, destaca: "La cuestión no es solo sobre la cantidad de hardware, sino también si su infraestructura está procesando 100 o 800 hilos de razonamiento por el mismo costo".
Resolver este problema no es solo una cuestión técnica, sino también económica, ya que el aumento de los costos operativos puede afectar a las empresas. Métodos anteriores, que utilizaban reglas fijas como "ventana deslizante" para mantener solo los tokens más recientes, a menudo resultaban en pérdida de información crucial.
Funcionamiento de Dynamic Memory Sparsification
La técnica DMS modifica los modelos existentes, permitiendo que gestionen su propia memoria de manera inteligente. En lugar de seguir una regla rígida para la eliminación, el DMS entrena a los modelos para identificar qué tokens son esenciales y cuáles pueden ser descartados.
Nawrot explica: "No es solo una adivinanza sobre la importancia; el modelo aprende una política que preserva explícitamente la distribución final de salida". El DMS adapta modelos preentrenados, como Llama 3 o Qwen 3, permitiendo que se vuelvan autocomprimibles sin necesidad de entrenamiento desde cero.
Un recurso importante del DMS es el mecanismo de "desalojo retardado", que permite que tokens considerados no importantes permanezcan accesibles por un tiempo antes de ser excluidos, garantizando que información relevante se integre antes de la eliminación.
DMS en Acción
Para validar la técnica, Nvidia aplicó el DMS a modelos de razonamiento como Qwen-R1 y Llama 3.2, probándolos en benchmarks desafiantes. Los resultados indican una notable mejora en el rendimiento evitando la compresión asociada a una mayor dificultad en entender contextos largos.
En pruebas con el benchmark AIME 24, el modelo Qwen-R1 32B, equipado con DMS, obtuvo **12.0 puntos** más en comparación con un modelo estándar, todo esto sin aumentar los requisitos de memoria. Esto resalta que el modelo puede desarrollar un razonamiento más profundo sin el costo adicional habitual.
Estos avances en eficiencia también se traducen en ahorro de hardware, permitiendo que un solo servidor maneje hasta **cinco veces más** consultas simultáneamente, manteniendo la calidad. El NVidia DMS es una adición significativa a la biblioteca KVPress, con implementación simplificada.
Perspectivas Futuras de la Gestión de Memoria
El DMS representa un cambio en cómo la gestión de memoria puede integrarse en los sistemas de inteligencia artificial, siendo compatible con arquitecturas emergentes como Multi-Head Latent Attention (MLA). Esta combinación podría resultar en ganancias de eficiencia aún mayores.
A medida que las empresas evolucionan de chatbots simples a sistemas complejos de razonamiento, la reducción de costos en la inferencia se convierte en una prioridad. Técnicas como el DMS son diferenciales para escalar estas capacidades de manera sostenible. "Apenas hemos raspado la superficie de lo que es posible," concluye Nawrot, refiriéndose al futuro del DMS en expandir las fronteras del razonamiento en modelos de lenguaje.
Contenido seleccionado y editado con asistencia de IA. Fuentes originales referenciadas arriba.


