Ein Büroarbeitsplatz, der alte und neue Technologien nebeneinander zeigt, mit einem Vintage-Computer und modernen Laptops auf den Schreibtischen.

Kann KI das Peer-Review reparieren? Die Ergebnisse liegen vor

Forscher fanden in einer bahnbrechenden Studie heraus, dass KI-gestütztes Feedback die Qualität der akademischen Begutachtung signifikant verbesserte; an der Untersuchung waren über 20.000 Begutachtungen bei der renommierten ICLR 2025 Konferenz beteiligt. Die randomisierte Studie zeigte, dass 27 % der Gutachter, die Vorschläge von einem Large Language Model erhielten, ihre Einreichungen überarbeiteten, was zu detaillierteren, informativeren Gutachten führte und einen verstärkten Dialog zwischen Autoren und Gutachtern anregte.

Das bahnbrechende Experiment, das in Nature Machine Intelligence detailliert beschrieben wird, stellt die erste randomisierte kontrollierte Studie dieser Art im wissenschaftlichen Verlagswesen dar. Laut dem ICLR-Blog setzte das Forschungsteam einen „Review Feedback Agent“ ein, der von Anthropics Claude 3.5 Sonnet angetrieben wird, um Gutachtern innerhalb weniger Stunden nach ihren ersten Entwürfen automatisierte, private Vorschläge bereitzustellen.

Das KI-System wurde entwickelt, um drei kritische Probleme zu kennzeichnen: vage oder unbelegte Behauptungen, mögliche Missverständnisse des Papiers und unprofessionellen Ton. Ein entscheidender Punkt: Die Gutachter behielten die volle Kontrolle darüber, ob sie das Feedback berücksichtigten, wobei die Vorschläge für Autoren und Konferenzorganisatoren unsichtbar blieben, um die Entscheidungen über die Annahme nicht zu beeinflussen.

Messbarer Einfluss auf die Qualität der Begutachtung

Über die bloße Übernahmequote hinaus führte die Intervention zu konkreten Verbesserungen in der Tiefe und dem Engagement der Gutachten. Gutachter, die KI-Vorschläge einbezogen, fügten ihren ursprünglichen Einreichungen durchschnittlich 80 Wörter hinzu, was zu substanzielleren Kritiken führte. Die Auswirkungen erstreckten sich über den gesamten Begutachtungsprozess: Die Antworten der Autoren wurden in der Behandlungsgruppe um 6 % länger, während nachfolgende Antworten der Gutachter um 5,5 % zunahmen, was auf einen produktiveren akademischen Dialog hindeutet.

Bei verblindeten Bewertungen wurden Gutachten, die mit KI-Unterstützung überarbeitet wurden, im Vergleich zur Kontrollgruppe konsequent als ‚informativ‘ eingestuft. Das System verarbeitete mehr als 12.000 Vorschläge, welche die Gutachter in ihre endgültigen Einreichungen aufgenommen hatten.

Die Software hinter der Studie wurde von der Zou Group auf GitHub als Open Source veröffentlicht, was es anderen Konferenzen und Fachzeitschriften ermöglicht, ähnliche Systeme zu implementieren. Das Interventionsmodell betonte die Erweiterung statt des Ersatzes menschlicher Expertise, wobei die KI streng als Assistent dient, der vollständig überstimmt oder ignoriert werden kann.

Diese groß angelegte Validierung erfolgt zu einem Zeitpunkt, an dem das akademische Verlagswesen unter dem wachsenden Druck durch das exponentielle Wachstum der Einreichungen steht. Große Konferenzen wie die ICLR erhalten jährlich Tausende von Arbeiten, was das ehrenamtliche Peer-Review-System, das den wissenschaftlichen Fortschritt untermauert, belastet. Der Erfolg dieser Studie legt nahe, dass KI-Tools helfen könnten, die Qualität der Begutachtung aufrechtzuerhalten, selbst wenn die Einreichungszahlen weiter steigen.

Sources

  • Nature Machine Intelligence
  • ICLR Blog