
¿Tienen los LLM neuronas específicas para determinadas lenguas?
El joven investigador de Orai Ixak Sarasua ha dado a conocer su trabajo de investigación en el congreso IkerGazte 2025
En el estudio presentado por Sarasua, se están estudiando las neuronas específicas para determinadas lenguas de los grandes modelos de lenguaje (LLM, es decir, redes neuronales de miles de millones de parámetros que han revolucionado la inteligencia artificial), poniendo el foco en el euskera. Utilizando la métrica de la Entropía de Probabilidad de Activación Lingüística (LAPE, language activation probability entropy), se identifican las neuronas especializadas en euskera, francés, castellano e inglés en el modelo Llama-3.1-8 y en la variante adaptada al euskera (Llama-eus-8B). En los experimentos se observa que las neuronas específicas se concentran principalmente en las capas más externas del modelo y que es el euskera la lengua que presenta un mayor número neuronas específicas. El análisis realizado con Perplexity muestra que la desactivación de dichas neuronas tiene un impacto mayor en la lengua de destino en aquellos casos en los que dicha lengua no es el idioma principal del modelo, lo que vendría a confirmar la especificidad de las neuronas. Estos hallazgos muestran que existe una relación entre la adaptación de este tipo de modelos a otras lenguas y las neuronas especializadas, y proporcionan información sobre las vías que permitirían una adaptación óptima de los LLM a las lenguas minoritarias.
IkerGazte es un congreso interdisciplinar bienal organizado por UEU, cuyo objetivo es fomentar las relaciones dentro del colectivo joven, mostrar la investigación de alto nivel realizada en euskera y difundir los resultados de dichas investigaciones.