PyTorch 2.11 impulsa el rendimiento de IA

PyTorch lanzó hoy la versión 2.11, que ofrece mejoras de rendimiento de hasta 600x para operaciones de IA específicas y añade compatibilidad con GPUs NVIDIA e Intel de próxima generación. La actualización, construida a partir de 2,723 contribuciones de 432 desarrolladores, introduce colectivas diferenciables para entrenamiento distribuido, backend FlashAttention-4 y una compatibilidad ampliada con Apple Silicon, lo que marca un avance significativo para investigadores y desarrolladores de aprendizaje automático en todo el mundo.

Las nuevas capacidades sitúan a PyTorch a la vanguardia de la competencia entre frameworks de IA, mientras las organizaciones se apresuran a optimizar el entrenamiento y la inferencia para modelos cada vez más complejos. La función de colectivas diferenciables cambia de forma fundamental cómo los investigadores pueden abordar algoritmos de entrenamiento distribuido al permitir que los gradientes se calculen directamente a través de operaciones de comunicación colectiva, eliminando la necesidad de implementaciones personalizadas.

Las ganancias de rendimiento en esta versión son especialmente notables para operaciones de álgebra lineal. La función torch.linalg.lstsq alcanza aceleraciones de 1.7x a 620x, mientras que torch.linalg.svd ofrece mejoras de 2x a 400x. Estas mejoras provienen de sustituir el backend heredado MAGMA por implementaciones optimizadas de cuSOLVER y cuBLAS.

FlexAttention, ahora impulsado por el backend FlashAttention-4, proporciona aceleraciones de 1.2x a 3.2x para cargas de trabajo de atención limitadas por cómputo en GPUs Hopper y Blackwell de NVIDIA. Esta optimización utiliza compilación just-in-time para generar kernels específicamente adaptados a estas arquitecturas de próxima generación.

Cambios en la compatibilidad de hardware

Vista interior de un centro de datos mostrando filas de servidores y unidades de almacenamiento.

Un cambio significativo acompaña las mejoras de rendimiento: la instalación predeterminada de PyTorch 2.11 ahora se distribuye con CUDA 13.0, dejando de soportar arquitecturas de GPU más antiguas. Las GPUs Volta, Pascal y Maxwell ya no son compatibles con la compilación predeterminada, aunque los usuarios aún pueden acceder a compilaciones con CUDA 12.6 para compatibilidad con hardware heredado.

La actualización amplía el soporte multiplataforma con capacidades mejoradas para Apple Silicon, añadiendo nuevas funciones de distribución y un mejor reporte de errores para operaciones MPS. Los usuarios con GPUs Intel obtienen soporte para XPUGraph, una funcionalidad similar a CUDA Graphs que reduce la sobrecarga de CPU capturando y reproduciendo secuencias de operaciones.

La versión también marca avances en las capacidades de despliegue en producción de PyTorch. La API torch.export ahora admite la exportación de módulos RNN, incluidos LSTM y GRU, para ejecución en GPU, ampliando el conjunto de modelos listos para inferencia en producción. Este avance está alineado con el abandono progresivo de TorchScript por parte de PyTorch en favor del ecosistema de export.

Consideraciones de seguridad y migración

Las mejoras de seguridad incluyen el refuerzo de torch.hub.load, que ahora solicita confirmación a los usuarios antes de ejecutar código de repositorios no confiables. Las organizaciones que actualicen desde PyTorch 2.10 deberán abordar varios cambios disruptivos, en particular relacionados con la compatibilidad de CUDA y modificaciones de API en los mecanismos de atención.

La naturaleza colaborativa de la versión, construida a partir de 2,723 contribuciones de 432 desarrolladores, subraya la posición de PyTorch como un proyecto impulsado por la comunidad que compite con alternativas propietarias de grandes empresas tecnológicas.

Sources

pytorch.org/blog

PyTorch 2.11 impulsa el rendimiento de IA

La newsletter del futuro

Cambios en la compatibilidad de hardware

Consideraciones de seguridad y migración

Sources

La newsletter del futuro