MIT-Forscher haben eine neue Trainingsmethode entwickelt, welche die Zeit für das Training großer Sprachmodelle um bis zu 70–210 % reduziert und potenziell Millionen an Rechenkosten einspart. Die Technik, genannt „Taming the Long Tail“ (TLT), nutzt ungenutzte GPU-Zyklen während des Reinforcement Learnings, um simultan ein kleineres ‚Drafter‘-Modell zu trainieren, wodurch die Effizienz verdoppelt wird, ohne die Genauigkeit zu beeinträchtigen.
Der Durchbruch adressiert einen kritischen Engpass in der Entwicklung künstlicher Intelligenz, bei dem die Rollout-Phase während des Reinforcement Learnings bis zu 85 % der gesamten Trainingszeit verschlingen kann, laut dem auf arXiv veröffentlichten Forschungspapier. Diese Ineffizienz ist zunehmend kostspielig geworden, da Unternehmen darum wetteifern, ausgefeiltere Reasoning-Modelle zu entwickeln, die komplexe Problemlösungen ermöglichen.
Die Innovation funktioniert durch das, was Forscher als dynamischen Lehrer-Schüler-Rahmen bezeichnen. In den traditionell ungenutzten Phasen, in denen einige Prozessoren ihre zugewiesenen Aufgaben abgeschlossen haben, weist das System diese Ressourcen automatisch neu zu, um ein leichtgewichtiges sekundäres Modell zu trainieren. Dieses kleinere ‚Student‘-Modell lernt in Echtzeit vom primären LLM und schafft eine kontinuierliche Feedback-Schleife, die den gesamten Trainingsprozess beschleunigt.
Nachweisliche Leistungssteigerungen
Tests an führenden Modellen, darunter Qwen-7B und DeepSeek-R1-7B, zeigten substanzielle Verbesserungen über mehrere Metriken hinweg, wie in den Forschungsergebnissen detailliert beschrieben. Die Methode erzielte End-to-End-Geschwindigkeitssteigerungen von 1,7x bis 2,1x, während die Genauigkeit des Modells vollständig erhalten blieb, gemäß Daten von der persönlichen Website der Forscher.
Jenseits reiner Geschwindigkeitsverbesserungen liefert die Technik einen unerwarteten Bonus: ein vollständig trainiertes, hochwertiges ‚Drafter‘-Modell, das als Nebenprodukt des Prozesses entsteht. Dieses sekundäre Modell kann unabhängig für Inferenzaufgaben mit niedriger Latenz eingesetzt werden und bietet erheblichen Mehrwert, ohne zusätzliche Trainingsressourcen zu erfordern.
Der Ansatz unterscheidet sich grundlegend von bestehenden Effizienzmethoden wie Offline-Destillation oder Mixture-of-Experts-Architekturen. Anstatt eine separate Trainingsphase zu erfordern oder die Modellarchitektur zu ändern, nutzt TLT opportunistisch verschwendete Rechenzyklen, die andernfalls ungenutzt bleiben würden. MIT News berichtet, dass dies die Methode kompatibel mit bestehenden Pipeline-Parallelismus-Techniken macht und potenziell Effizienzgewinne vervielfacht, wenn diese kombiniert werden.
Für die KI-Branche könnten diese Verbesserungen zu Millionenbeträgen an eingesparten Rechenkosten und zu deutlich geringerem Energieverbrauch führen. Die Forscher haben ihren Code öffentlich zugänglich gemacht, was eine sofortige Übernahme durch Organisationen, die fortgeschrittene Reasoning-Modelle entwickeln, ermöglicht. Da Unternehmen Milliarden in das Training zunehmend leistungsfähiger KI-Systeme investieren, stellen Techniken, die Time-to-Market drastisch reduzieren und dabei die Qualität beibehalten, einen entscheidenden Wettbewerbsvorteil dar.
Sources
- MIT News
- ArXiv

