Investigadores del MIT han desarrollado un nuevo método de entrenamiento que recorta el tiempo necesario para entrenar grandes modelos de lenguaje hasta un 70-210%, ahorrando potencialmente millones en costos de computación. La técnica, llamada «Taming the Long Tail» (TLT), reutiliza ciclos de GPU inactivos durante el aprendizaje por refuerzo para entrenar simultáneamente un modelo «drafter» más pequeño, duplicando la eficiencia sin sacrificar la precisión.
El avance soluciona un cuello de botella crítico en el desarrollo de la inteligencia artificial, donde la fase de generación durante el aprendizaje por refuerzo puede ocupar hasta el 85% del tiempo total de entrenamiento, según el artículo de investigación publicado en ArXiv. Esta ineficiencia resulta cada vez más costosa mientras las empresas compiten para crear modelos de razonamiento más sofisticados capaces de resolver problemas complejos.
La innovación opera mediante lo que los investigadores denominan un marco dinámico teacher-student. Durante los periodos tradicionalmente inactivos cuando algunos procesadores han finalizado sus tareas asignadas, el sistema reutiliza automáticamente estos recursos para entrenar un modelo secundario ligero. Este modelo «student» más pequeño aprende del LLM primario en tiempo real, creando un bucle de retroalimentación continuo que acelera el proceso de entrenamiento en su conjunto.
Mejoras de Rendimiento Comprobadas
Las pruebas en modelos destacados, incluidos Qwen-7B y DeepSeek-R1-7B, mostraron mejoras sustanciales en múltiples métricas, como se detalla en los hallazgos de la investigación. El método logró aceleraciones de extremo a extremo que oscilan entre 1,7x y 2,1x, conservando completamente la precisión del modelo, según datos del sitio web personal de los investigadores.
Más allá de las mejoras de velocidad bruta, la técnica ofrece un beneficio inesperado: un modelo ‘drafter’ completamente entrenado y de alta calidad que emerge como subproducto del proceso. Este modelo secundario puede desplegarse de forma independiente para tareas de inferencia de baja latencia, añadiendo un valor significativo sin requerir recursos de entrenamiento adicionales.
Este enfoque difiere fundamentalmente de métodos de eficiencia existentes como offline distillation o arquitecturas mixture-of-experts. En lugar de requerir una fase de entrenamiento separada o modificar la arquitectura del modelo, TLT aprovecha de forma oportuna los ciclos computacionales inactivos que de otro modo quedarían sin uso. MIT News informa que esto lo hace compatible con técnicas de pipeline parallelism existentes, multiplicando potencialmente las ganancias de eficiencia al combinarse.
Para la industria de la IA, estas mejoras podrían traducirse en millones de dólares en costos de cómputo reducidos y un consumo energético significativamente menor. Los investigadores han puesto su código a disposición del público, permitiendo una adopción inmediata por parte de organizaciones que desarrollan modelos avanzados de razonamiento. Mientras las empresas invierten miles de millones en entrenar sistemas de IA cada vez más potentes, las técnicas que reducen drásticamente el tiempo de comercialización manteniendo la calidad representan una ventaja competitiva crucial.
Sources
- MIT News
- ArXiv

