Meta hat RCCLX, ein Open-Source-Upgrade der GPU-Kommunikationssoftware von AMD, am 24. Februar 2026 veröffentlicht und liefert bis zu 50 % schnellere Leistung für KI- und Large Language Model-Workloads. Die Erweiterung integriert Metas eigene CTran-Transportebene mit AMDs RCCL-Bibliothek und führt GPU-Resident Collectives sowie weitere fortschrittliche Funktionen ein, die PyTorch-basierte KI-Berechnungen deutlich beschleunigen.
Der Durchbruch kommt zu einem entscheidenden Zeitpunkt für AMD, da es mit NVIDIA um die Dominanz im Markt für KI-Beschleuniger konkurriert. RCCLX adressiert langjährige Leistungsengpässe in AMDs Kommunikationsstack, die seine Einführung für das Training großer KI-Modelle eingeschränkt haben, so Meta Engineering.
Die Software führt drei zentrale Innovationen ein, die die Leistungssteigerungen antreiben. GPU-Resident Collectives ermöglichen es Grafikprozessoren, Kommunikationsvorgänge direkt zu verwalten, ohne Eingriffe der Host-Seite, was die Latenz erheblich reduziert. Direct Data Access Algorithmen zielen speziell auf AllReduce-Operationen ab und erreichen 10-50 % Geschwindigkeitserhöhungen für Decode-Phasen und 10-30 % Verbesserungen für Pre-Fill-Phasen bei der Inferenz von Sprachmodellen, so Meta.
Vielleicht am bemerkenswertesten sind die neuen Low-Precision Collectives, die FP8-Quantisierung verwenden, um Datenübertragungen um bis zu 4:1 zu komprimieren, während die Rechenpräzision in FP32 erhalten bleibt. Diese Funktion allein bietet eine signifikante Beschleunigung für große Nachrichtenübertragungen auf AMDs MI300- und MI350-Serien-GPUs, laut Benchmarks, die von Meta veröffentlicht wurden.
Markteinfluss und Adoption
Die Veröffentlichung stärkt AMDs Position im wettbewerbsintensiven KI-Hardware-Umfeld, indem ein wesentlicher Software-Nachteil beseitigt wird. RCCLX integriert sich nahtlos in PyTorch über das Torchcomms-Projekt, wodurch die Einführung für Entwickler, die bereits Metas KI-Framework verwenden, unkompliziert wird.
Verfügbar unter einer BSD-3-Klausel-Lizenz auf GitHub, erfordert die Software AMDs ROCm-Versionen 6.4 oder 7.0 und ist für die neuesten Instinct MI300X-, MI325X- und MI350X-Beschleuniger des Unternehmens optimiert. Entwickler können die Verbesserungen aktivieren, indem sie Torchcomms aus dem Quellcode mit bestimmten Umgebungsvariablen erstellen, so Metas Dokumentation.
Der Zeitpunkt scheint strategisch zu sein, da die Nachfrage nach KI-Infrastruktur weltweit weiter steigt. Durch die Open-Source-Veröffentlichung dieser Optimierungen ermöglicht Meta der breiteren KI-Gemeinschaft eine bessere Leistung auf AMD-Hardware und könnte die Akzeptanz jenseits der eigenen Rechenzentren beschleunigen.
Meta kündigte Pläne an, RCCLX weiterzuentwickeln, um die Funktionsparität mit NCCLX, dem NVIDIA-Äquivalent, zu erreichen. Das Unternehmen beschreibt Torchcomms als „experimentell“ und signalisiert damit eine laufende Weiterentwicklung, während sich die Bedürfnisse des KI-Ökosystems erweitern. Das Projekt bleibt offen für Beiträge der Community und positioniert es für eine kooperative Weiterentwicklung, da mehr Organisationen AMD-GPUs für KI-Workloads einsetzen.
Sources
- Meta Engineering

