Zerbitzari propioetan instalatzeko moduko euskarazko txatbot berria: Kimu
- Euskaraz ondo dabilen eredu arina sortu du Oraik, enpresen eta erakundeen beharretara erraz egokitu daitekeena.
- Ataza ugaritarako erabil daiteke: agirien gaineko galderei erantzuteko, edukiak sortzeko, laburpenak eta itzulpenak egiteko, testuak zuzentzeko, etab.
- Pribatutasuna ahalbidetzen du eta eredu handiak baino jasangarriagoa da. Kimuk, gainera, emaitza onak ematen ditu gaztelaniaz eta ingelesez ere.
- Txatbot arina probatzeko webgunerako sarbidea gonbidapen bidez eskura daiteke.
Enpresa eta erakundeen eguneroko lanetan lagungarri izango den euskarazko txatbot bat garatu du Oraik: Kimu. Eredua arina denez, enpresa eta erakundeen zerbitzarietan eta ordenagailuetan instala daiteke, eta horrek datuen pribatutasuna eta konfidentzialtasuna zaintzeko aukera ematen du. Hizkuntza arrunta baliatuz erabiltzaileak euskaraz eskatutako hainbat ataza ulertu eta gauzatzeko gai da eredua: “Lanerako hainbat atazatan erabil daiteke, besteak beste, itzulpenak eta laburpenak egiteko, dokumentuen gaineko galderei erantzuteko, informazioa erauzteko, testuak zuzentzeko, egokitzeko…”, azaldu du Xabier Saralegi Oraiko NLP Teknologietako arduradunak. Hala ere, enpresen eta erakundeen beharren arabera, eredua eginkizun zehatzetarako espezializatzeko aukera ere badago, emaitzen kalitatea are gehiago hobetzeko. Bestalde, euskararako sortu arren, Kimuk emaitza onak ematen ditu beste hainbat hizkuntzatan ere: gaztelania, ingelesa, italiera…
Kimu ereduaren abantaila nagusietako bat bere tamaina txikia da: 9.000 milioi parametro ditu, eta hizkuntza-eredu txikien (SLM, Small Language Models) kategorian kokatzen da LLMen artean. Hizkuntza-eredu txiki libreek (SLM libreek) emaitza lehiakorrak ematen dituzte hizkuntza handietan (gaztelania, ingelesa eta abar); ez, ordea, baliabide urriko hizkuntzen kasuan, hala nola euskaraz erabiltzean. Eta hizkuntza txikiek ez dute baliabide nahikorik horrelako ereduak zerotik sortzeko. Hain zuzen ere, hizkuntzen arteko transferentzia baliatuz euskarazko gaitasunak hizkuntza-eredu txikietan txertatzeko ikertzen ari dira Oraiko ikertzaileak, besteak beste.
ChatGPT, DeepSeek, Claude eta bestelako LLMen aldean, SLM ereduek, nahiz eta txikiagoak izan, kalitate lehiakorra eskaintzen dute batez ere behar berezietarako egokitzen direnean, eta hainbat abantaila nabarmen dituzte orohar: arinagoak eta azkarragoak dira, baliabide gutxiago eta energia gutxiago behar dute. “Eredua zerbitzatzeko hardwarearen kostua nabarmen murrizten da. Alegia, makina merkeagoa behar da eredu hau instalatzeko. Eredu libre handiagoek askoz makina garestiagoak behar dituzte, eta emaitzen kalitatean eskaintzen duten hobekuntza ez da hain handia hainbat atazatan. Beraz, emaitzen kalitatearen eta kontsumoaren arteko orekari erreparatuta, euskarazko eredu hau paregabea da”, azaldu du Saralegik. Gainera, halako eredu arinak errazago pertsonaliza daitezke domeinu jakinetara egokitzeko, eta jasangarriagoak dira ingurumenaren ikuspegitik.
Kimu ereduaren gaitasun eta potentziala erakusteko asmoz, Beta webgune bat sortu du Oraik: https://kimu.orai.eus. Bertan, Kimu ereduarekin probak egiteko aukera izango dute erabiltzaileek, eta sarbidea gonbidapen bidez eskuratu ahal izango da oraingoz.
Oinarri-eredu bati euskara irakatsi eta atazak egiteko gai den eredu batekin konbinatzea
Hizkuntza-eredu handiak lortzeko funtsezkoa da datu- edo testu-kantitate itzelak erabiltzea. Baliabide gutxiko hizkuntzetan, ordea, oso zaila da halakoez baliatzea. Oraiko ikertzaileak hainbat estrategia ari dira ikertzen, berez beste hizkuntza batzuetan emaitza onak ematen dituzten eredu libreak oinarri hartuta euskararako soluzio egokiak bilatzeko.
Horren adibide da Kimu: “Euskarara egokitu dugun oinarri-eredu bat eta euskarara egokitu gabe dagoen eredu instruitu bat bateratu ditugu”, adierazi du Ander Corral Oraiko ikertzaileak. Oinarri-ereduak adimen artifizial sortzailearen oinarri gisa erabiltzen den eredu-mota dira, eta eredu instruituak, bestalde, atazak ulertu eta gauzatzeko gai dira. Hala, euskarazko instrukzioak jarraitzeko gai den eredu instruitua sortzeko gai izan dira.
Erabilitako metodoak testu-bilduma bat baino ez du behar hizkuntza-egokitzapena egiteko. Euskaraz ondo ez dakien eredu fundazionalari euskara irakasten zaio corpus bat baliatuta. “Esperimentazioan Oraik sortutako Zelai Haundi corpusa erabili dugu, 500 milioi hitzeko corpusa, lizentzia libreko edukiak soilik dituena”, azaldu dute Oraiko ikertzaileek. Esperimentuak Googleren Gemma eta Metaren Llama ereduekin egin dira. Halako ereduak hizkuntza handietarako daude diseinatuta eta baliabide urriko hizkuntzekin emaitza eskasak ematen dituzte.
Oraiko ikertzaileek, euskararekin ez ezik, swahiliarekin eta galesarekin ere egin dituzte esperimentuak “egiaztatzeko gure metodoa aplikagarria dela beste baliabide urriko hizkuntza batzuetan. Hizkuntza guztietan, oinarri-lerroko sistemen emaitzak nabarmen hobetzea lortu da gure metodoa erabiliz”, erantsi dute.
LLMa enpresa teknologikoen eta ikerketa-zentroen esku
Adimen artifizialeko eredu eta baliabide irekiak partekatzeko eta erabiltzeko erreferentziazko HuggingFace plataforman eskuragarri jarri dira euskararako eta beste hizkuntzetarako sortutako eredu guztiak, enpresa teknologikoek eta ikerketa-zentroek beren garapen eta proiektuetan erabil ditzaten euskara ulertzeko eta sortzeko adimen artifizialeko sistemak garatzeko (RAGak, elkarrizketa-agenteak…). Ikerketari buruzko artikulu zientifikoa EMNLP - Empirical Methods in Natural Language Processing nazioarteko konferentzian onartu da —NLP alorreko konferentzia prestigiotsuenetako bat—, eta lana azaroan aurkeztuko dute.