Investigadores han desarrollado LLaMat, familia de modelos IA especializados que superan sistemas generales mayores en ciencia de materiales con menos parámetros. Basados en la arquitectura de Meta LLaMA y entrenados con 30 mil millones de tokens científicos, revelaron algo inesperado: LLaMA-2 se adapta mejor que el nuevo LLaMA-3, sugiriendo que modelos avanzados pueden resistir el aprendizaje de dominio.
Los investigadores han desarrollado LLaMat, una familia de modelos de lenguaje IA especializados que superan a sistemas de mayor tamaño de uso general en tareas de ciencia de materiales a pesar de tener menos parámetros. Los modelos, basados en la arquitectura LLaMA de Meta y entrenados con 30 mil millones de tokens de literatura científica, revelaron un hallazgo inesperado: LLaMA-2 se adapta mejor al entrenamiento especializado que el más nuevo LLaMA-3, lo que sugiere que los modelos avanzados pueden resistirse al aprendizaje específico del dominio.
Estos modelos avanzados logran su rendimiento a través de un sofisticado proceso de entrenamiento en dos etapas. Los investigadores primero continuaron preentrenando las arquitecturas LLaMA base en la literatura de ciencia de materiales, luego implementaron ajuste de instrucciones usando tanto el dataset OpenOrca de uso general como un set de instrucciones curado diseñado específicamente para ciencia de materiales y química, según el repositorio GitHub del proyecto.
La infraestructura de entrenamiento incluyó clusters Cerebras CS2 para preentrenamiento y GPUs NVIDIA A100 80GB para ajustar instrucciones. El equipo de investigación basó su código base de entrenamiento en las bibliotecas Megatron-LLM y Meditron-LLM, haciendo todo el código disponible públicamente para la reproducibilidad.
En evaluaciones de rendimiento a lo largo de tareas de ciencia de materiales, incluyendo extracción de información y benchmarks de PNL específicos del dominio, los modelos LLaMat especializados de 7 y 13 mil millones de parámetros superaron consistentemente a sus contrapartes generales de mayor tamaño. Esto demuestra que la especialización de dominio dirigida puede superar la ventaja tradicional de la escala en sistemas IA.
Descubrimiento inesperado sobre la adaptabilidad de los modelos
La investigación reveló un hallazgo contraintuitivo sobre la selección de modelos base. LLaMA-3, a pesar de ser más avanzado, se adaptó menos eficazmente al entrenamiento del dominio de ciencia de materiales en comparación con el más antiguo LLaMA-2, según lo detallado en la publicación Nature Machine Intelligence.
Este hallazgo sugiere que los modelos extensamente preentrenados en corpus generales pueden desarrollar una capacidad reducida para asimilar conocimiento altamente especializado. El descubrimiento tiene implicaciones significativas para los investigadores que eligen modelos base para la adaptación al dominio, indicando que lo más nuevo no siempre significa mejor para aplicaciones especializadas.
El desarrollo confirma que el preentrenamiento continuo específico del dominio representa una estrategia altamente efectiva para las aplicaciones de IA científicas. Demuestra un claro equilibrio entre el tamaño del modelo y la especialización, donde modelos de tamaño moderado, bien entrenados, pueden superar a sistemas generalistas masivos en tareas específicas.
Para garantizar la reproducibilidad y acelerar futuras investigaciones, el equipo ha publicado tanto el código completo para procesamiento de datos, entrenamiento y evaluación, como los pesos del modelo LLaMat preentrenados y ajustados en Hugging Face Hub. La publicación principal incluye documentación exhaustiva de las limitaciones de los modelos y consideraciones éticas, según Nature Machine Intelligence.
Este trabajo establece un nuevo paradigma para desarrollar herramientas IA para investigación científica, demostrando que la especialización estratégica puede ofrecer un rendimiento superior mientras se utilizan menos recursos computacionales que las alternativas de uso general.
Sources
- Nature Machine Intelligence

