Skip to main content
AAri euskal kultura nola irakatsi
2024 | Ekaina 26

Non jaioa da Itxaro Borda? Pauen?

Adimen Artifizialari Euskal Herriari buruzko jakintza irakasteko moduei buruz ikertu du Oihane Canterok

Hizkuntza-eredu handiek erabat aldatu dute hizkuntzaren prozesamendua, eta testua sortzeko eta ulertzeko gaitasun handia dute. Hala ere, erronka handia izaten jarraitzen du baliabide urriko hizkuntzak eta haien kulturak integratzeak; horren adibide dira euskara eta euskal kultura. Euskal Herriari buruzko ezagutza hizkuntza-ereduetan txertatzeko metodologiak aztertu ditu Oihane Cantero Oraiko ikertzaileak UPV/EHUn aurkeztu duen master amaierako lanean.

Canteroren lanaren helburu nagusiak izan dira hizkuntza-ereduei Euskal Herriari buruzko ezagutza ematea eta ebaluatzea. Horretarako, Euskal Herriari buruzko ezagutza faktuala ebaluatzeko erantzun anitzeko galderaz osatutako datu-multzo bat sortu du (EHQA izenekoa), eta horrelako datu-multzoak sortzeko metodologia erdiautomatiko bat proposatu. Euskal Herriko ezagutza txertatzeko, hainbat teknika erabili dira, hala nola aurrentrenamendu jarraitua (continual pretraining), ezagutzaren edizio-teknikak (knowledge editing) eta datu-baseak erabiliz hizkuntza-ereduen gaitasunak handitzea kanpoko jakintzarekin (RAG, Retrieval Augmented Generation).

Emaitzek hobekuntza nabarmena erakutsi dute ereduaren gaitasunean euskarazko ezagutza sortu eta ulertzeko: Harness frameworka erabiliz zehaztasuna % 33tik % 88ra igo da edizio teknikekin, eta % 71ra RAGekin. Lan honetan, Euskal Herriari buruzko ezagutza faktuala hizkuntza-ereduei ematea lortu du Canterok, baina muga batzuekin: “Edizio-teknikekin ezin dira nahi bezainbeste aldaketa egin ereduaren gaitasunak okertu gabe; eta RAGekin, bestalde, ezagutza ez da ereduan bertan txertatzen, eta galderak erantzuteko bakarrik erabil daiteke”, adierazi du Oraiko ikertzaileak.

Canteroren master amaierako lanean lortutako dataset-a argitaratu du Oraik. Euskal Herriari buruzko ezagutza testeatzeko datu-multzoa da, eta erabilgarri izango da komunitate zientifikoarentzat, hizkuntza-eredu handietan baliabide urriko hizkuntzen integrazioan aurrera egiteko:

https://huggingface.co/datasets/orai-nlp/EHQA

Oihane Cantero Zuhaitz Beloki eta Xabier Saralegirekin lankidetzan aritu da lan honetan, eta puntuazio gorena lortu du. UPV/EHUko Gorka Azkune izan du tutore.

 

Hizkuntza-eredu neuronalak