
Instrukzioak ulertzeko gai diren hizkuntza-eredu handien ikerketa
“Pipeline Analysis for Developing Instruct LLMs in Low-Resource Languages: A Case Study on Basque” artikulua aurkeztu zuen Ander Corralek maiatza hasieran, NAACL konferentzian (North American Chapter of the Association for Computational Linguistics). Hizkuntza naturalaren prozesamenduaren (NLP) alorreko hiru konferentziarik onenen artean dago.
Ikerlan honetan, euskarazko instrukzioak ulertzeko gai diren hizkuntza-eredu handiak garatzeko estrategiak aztertu dituzte Ander Corralek, Ixak Sarasua Anterok eta Xabier Saralegik. Euskararako ez ezik, baliabide urriko beste hizkuntza batzuentzat ere baliagarria da ikerketa honetan aztertutakoa. Zehazki, horrelako ereduak garatzeko beharrezkoak diren hiru fase nagusiak aztertu dira: aurre-entrenamendua, instrukzioen ulermenaren finketa eta giza lehentasunekin lerrokatzea.
600 milioi hitzeko euskarazko kalitatezko edo eduki libreekin osatutako datu-multzo bat erabilita, oinarrizko ereduaren euskara-maila nabarmen hobetu da (+12 puntu). Gainera, euskarara automatikoki itzulitako ingelesezko datuekin egindako instrukzio-finketak eta lerrokatzeak 24 puntuko hobekuntza ekarri dute. Ikerlan honen emaitza diren Llama-eus-8B eta Llama-eus-8B-instruct ereduek emaitza paregabeak lortu dituzte euskararako, 10B parametroz azpiko kategorian.
Oraiko ikertzaileak etengabe ari dira teknika berriak ikertzen existitzen diren ereduek euskara hobeto ulertzeko eta sortzeko. Euskarazko laguntzaileen lehenengo prototipoak sortzen ari gara; kalitate handiko laguntzaileak sortzeko hasierako urratsak dira hauek. Baliabide berriak jarri ditugu ikertzaileen esku: Llama-eus-8B eta Llama-eus-8B-instruct ereduak eta horiek garatzeko erabili diren datu-multzoak.