Un espacio de trabajo en una oficina que exhibe una yuxtaposición de tecnología antigua y moderna, con una computadora vintage y portátiles actuales sobre los escritorios.

¿Puede la IA arreglar la revisión por pares? Los resultados han llegado.

Los investigadores descubrieron que la retroalimentación impulsada por IA mejoró significativamente la calidad de la revisión por pares académica en un ensayo histórico que involucró más de 20,000 revisiones en la prestigiosa conferencia ICLR 2025. El estudio aleatorizado mostró que el 27% de los revisores que recibieron sugerencias de un Gran Modelo de Lenguaje modificaron sus entregas, lo que dio lugar a evaluaciones más detalladas e informativas que promovieron un mayor diálogo entre autores y revisores.

El innovador experimento, detallado en Nature Machine Intelligence, representa el primer ensayo controlado aleatorizado de su tipo en la publicación académica. El equipo de investigación implementó un «Review Feedback Agent» impulsado por Claude 3.5 Sonnet de Anthropic para proporcionar sugerencias automatizadas y privadas a los revisores pocas horas después de sus envíos iniciales, según el Blog del ICLR.

El sistema de IA fue diseñado para señalar tres cuestiones críticas: afirmaciones vagas o sin respaldo, posibles malinterpretaciones del artículo y un tono poco profesional. Lo crucial es que los revisores mantuvieron el control total sobre la incorporación de los comentarios, permaneciendo las sugerencias invisibles para los autores y los organizadores de la conferencia a fin de evitar influir en las decisiones de aceptación.

Impacto Medible en la Calidad de la Revisión

Más allá de la tasa de adopción inicial, la intervención produjo mejoras concretas en la profundidad de las revisiones y en la participación. Los revisores que incorporaron las sugerencias de la IA añadieron un promedio de 80 palabras a sus envíos originales, creando críticas más sustanciales. Los efectos en cascada se extendieron a lo largo del proceso de revisión: las respuestas de los autores se volvieron un 6% más largas en el grupo de tratamiento, mientras que las respuestas posteriores de los revisores aumentaron un 5,5%, lo que indica un diálogo académico más productivo.

En evaluaciones a ciegas, las revisiones realizadas con asistencia de IA fueron calificadas consistentemente como más «informativas» que las del grupo de control. El sistema procesó más de 12,000 sugerencias que los revisores decidieron incorporar en sus entregas finales.

El software detrás del ensayo ha sido publicado como código abierto en GitHub por el Grupo Zou, permitiendo que otras conferencias y revistas implementen sistemas similares. El modelo de intervención enfatizó potenciar la experiencia humana en lugar de sustituirla, con la IA sirviendo estrictamente como un asistente que podía ser descartado o ignorado por completo.

Esta validación a gran escala llega en un momento en que la publicación académica se enfrenta a una presión creciente debido al aumento exponencial de envíos. Conferencias importantes como ICLR reciben miles de artículos cada año, saturando el sistema de revisión por pares voluntario que sustenta el progreso científico. El éxito de este ensayo sugiere que las herramientas de IA podrían ayudar a mantener la calidad de la revisión incluso mientras continúan aumentando los volúmenes de envíos.

Sources

  • Nature Machine Intelligence
  • ICLR Blog