
Stanford y Nvidia Optimizan GPUs 2x Más Rápido con TTT-Discover
TL;DR
Investigadores de Stanford, Nvidia y Together AI han desarrollado una técnica innovadora llamada TTT-Discover (Entrenamiento en Tiempo de Prueba para Descubrir) que mejora la optimización de códigos en GPUs, ejecutando algoritmos dos veces más rápido que los escritos por expertos humanos durante el proceso de inferencia.
Investigadores optimizan el rendimiento de GPUs utilizando TTT-Discover
Investigadores de Stanford, Nvidia y Together AI han desarrollado una técnica innovadora llamada TTT-Discover (Entrenamiento en Tiempo de Prueba para Descubrir) que mejora la optimización de códigos en GPUs, logrando ejecutar algoritmos dos veces más rápido que los escritos por expertos humanos, durante el proceso de inferencia.
La técnica desafía el paradigma actual de modelos "congelados", que son incapaces de aprender después del entrenamiento. Con el TTT-Discover, el modelo continúa entrenando y ajustando sus pesos mientras intenta resolver un problema específico.
El límite de los modelos 'congelados'
Los modelos de IA empresariales a menudo utilizan enfoques donde los parámetros permanecen estáticos. Aunque estos modelos son eficaces en problemas conocidos, fallan en situaciones que requieren soluciones innovadoras, como la formulación de algoritmos inéditos.
Como mencionó Mert Yuksekgonul, uno de los autores del estudio y doctorando en Stanford: "Los modelos que piensan no podrían probar P != NP sin el entrenamiento durante la inferencia, así como Andrew Wiles no habría probado el Último Teorema de Fermat sin años de esfuerzo".
Un nuevo enfoque para el aprendizaje por refuerzo
El TTT-Discover propone un avance significativo en el entrenamiento de modelos de razonamiento. A diferencia del aprendizaje estándar, que busca un rendimiento medio en diversas tareas, esta técnica se centra en encontrar la solución óptima para un problema específico.
Los investigadores implementaron dos componentes clave que diferencian el TTT-Discover:
- Objetivo entropico: Este componente hace que el modelo ignore soluciones medias y busque activamente resultados excepcionales, potencialmente más gratificantes.
- Búsqueda PUCT: Una nueva estrategia de búsqueda en árbol inspirada en AlphaZero, que explora diferentes caminos de solución.
Esta técnica es más eficaz en problemas que presentan una señal de recompensa continua, permitiendo el seguimiento de mejoras graduales.
Consideraciones económicas sobre la inferencia pesada
Las empresas que pagan por llamadas de API pueden necesitar cambiar su enfoque, ya que un único uso del TTT-Discover puede costar alrededor de $500. Esta técnica resulta más ventajosa para activos estáticos y de alto valor.
Por ejemplo, optimizar un código crucial en una empresa que procesa grandes volúmenes de datos puede generar ahorros significativos. Yuksekgonul afirma que esto es ideal para decisiones de alto impacto, donde la mejora puede proporcionar un retorno sobre la inversión inmediatamente visible.
Consideraciones sobre la implementación
Una ventaja del TTT-Discover es que no requiere un modelo propietario. Los investigadores utilizaron el gpt-oss-120b, un modelo de código abierto, poniendo a disposición el código para la comunidad.
Esta flexibilidad permite a las empresas realizar sus optimizaciones dentro de entornos seguros, sin necesidad de enviar datos a servidores externos. "Si una empresa ya utiliza aprendizaje por refuerzo, no hay necesidad de infraestructura adicional", afirma Yuksekgonul.
Casos de uso en el mundo real
El TTT-Discover se ha aplicado en cuatro dominios técnicos y ha establecido nuevos estándares de rendimiento en muchos casos. En un experimento, la optimización de kernels de GPU para multiplicación de matrices alcanzó velocidades hasta dos veces más rápidas que las mejores opciones anteriores.
La técnica es más adecuada para áreas que requieren señales de progreso verificables, como logística y gestión de recursos, donde es fundamental medir el rendimiento de manera objetiva.
Perspectivas futuras e implicaciones
El futuro de la adopción de IA empresarial puede requerir la evolución de los sistemas para soportar aprendizaje por problema. "Las empresas deben aprender a especificar problemas y a proporcionar datos de feedback internos para que el aprendizaje en el tiempo de prueba sea efectivo", concluye Yuksekgonul.
La identificación de problemas que puedan beneficiarse del TTT-Discover representa una nueva oportunidad para transformar la inferencia en un laboratorio automatizado de I+D.
Contenido seleccionado y editado con asistencia de IA. Fuentes originales referenciadas arriba.


