
Estudio de grandes modelos lingüísticos capaces de entender instrucciones
Ander Corral presentó el artículo “Pipeline Analysis for Developing Instruct LLMs in Low-Resource Languages: A Case Study on Basque” a principios de mayo en la conferencia NAACL (North American Chapter of the Association for Computational Linguistics), una de las tres principales conferencias en el ámbito del procesamiento del lenguaje natural (NLP).
En este estudio, Ander Corral, Ixak Sarasua Antero y Xabier Saralegi analizan estrategias para desarrollar grandes modelos lingüísticos capaces de entender instrucciones en euskera. Lo tratado en este trabajo es útil no solo para el euskera, sino también para otras lenguas con pocos recursos. Concretamente, se analizan las tres fases necesarias para el desarrollo de este tipo de modelos: el preentrenamiento, el refinamiento en la comprensión de instrucciones y la alineación con prioridades humanas.
Utilizando un conjunto de datos de 600 millones de palabras en euskera de calidad y contenido libre, el modelo base ha mejorado notablemente su nivel de euskera (+12 puntos). Además, el refinamiento de instrucciones y la alineación realizadas con datos traducidos automáticamente del inglés al euskera han supuesto una mejora adicional de 24 puntos. Los modelos resultantes, Llama-eus-8B y Llama-eus-8B-instruct, han obtenido resultados sobresalientes en la categoría de modelos por debajo de 10B parámetros para el euskera.
Los investigadores de Orai continúan explorando nuevas técnicas para mejorar la comprensión y la generación en euskera por parte de los modelos existentes. Estamos desarrollando los primeros prototipos de asistentes en euskera: es el primer paso hacia asistentes de alta calidad. Además, hemos puesto a disposición de la comunidad investigadora nuevos recursos: los modelos Llama-eus-8B y Llama-eus-8B-instruct y los conjuntos de datos utilizados en su desarrollo.