Des chercheurs ont observé que les retours générés par l’IA ont considérablement amélioré la qualité de l’évaluation par les pairs lors d’un essai majeur portant sur plus de 20 000 rapports à la prestigieuse conférence ICLR 2025. L’étude randomisée a révélé que 27 % des réviseurs ayant reçu des suggestions d’un grand modèle de langage ont modifié leurs soumissions, aboutissant à des évaluations plus détaillées et instructives qui ont favorisé un dialogue accru entre auteurs et réviseurs.
Cette expérience révolutionnaire, présentée dans Nature Machine Intelligence, constitue le premier essai contrôlé randomisé de ce genre dans la publication académique. L’équipe de recherche a déployé un « Review Feedback Agent » propulsé par Claude 3.5 Sonnet d’Anthropic pour fournir des suggestions automatisées et privées aux réviseurs dans les heures suivant leurs soumissions initiales, selon le blog de l’ICLR.
Le système d’IA a été conçu pour signaler trois problèmes critiques : les affirmations vagues ou non étayées, les incompréhensions potentielles de l’article et un ton manquant de professionnalisme. Point crucial, les réviseurs gardaient le contrôle total sur le choix d’intégrer ces retours, les suggestions restant invisibles aux auteurs et aux organisateurs de la conférence pour éviter d’influencer les décisions d’acceptation.
Impact mesurable sur la qualité des évaluations
Au-delà du taux d’adoption observé, l’intervention a engendré des améliorations concrètes dans la richesse et l’engagement des évaluations. Les réviseurs ayant intégré les suggestions de l’IA ont ajouté en moyenne 80 mots à leurs soumissions initiales, produisant des critiques plus substantielles. Les répercussions se sont étendues à tout le processus d’évaluation : les réponses des auteurs se sont allongées de 6 % dans le groupe test, tandis que les réponses ultérieures des réviseurs ont augmenté de 5,5 %, indiquant un dialogue académique plus productif.
Lors d’analyses en aveugle, les évaluations révisées avec l’aide de l’IA ont été systématiquement jugées plus « informatives » que celles du groupe témoin. Le système a traité plus de 12 000 suggestions que les réviseurs ont choisi d’incorporer dans leurs soumissions finales.
Le logiciel soutenant l’essai a été publié en open source sur GitHub par le groupe Zou, permettant à d’autres conférences et journaux de mettre en œuvre des systèmes similaires. Le modèle d’intervention privilégiait l’enrichissement plutôt que le remplacement de l’expertise humaine, l’IA servant strictement d’assistant pouvant être écarté ou totalement ignoré.
Cette validation à grande échelle survient alors que l’édition académique affronte une pression croissante due à la hausse exponentielle des soumissions. Des conférences majeures comme l’ICLR reçoivent des milliers d’articles chaque année, mettant à rude épreuve le système bénévole d’évaluation par les pairs qui soutient le progrès scientifique. Le succès de cet essai suggère que les outils d’IA pourraient aider à préserver la qualité de l’évaluation même si les volumes de soumissions continuent d’augmenter.
Sources
- Nature Machine Intelligence
- ICLR Blog

