Skip to main content
turin orai
2024 | Maiatza 29

ORAI LREC-COLING 2024 konferentzian

Orai-ren lantaldeko Gorka Urbizu eta Iñigo Morcillo ikertzaileak Turinen (Italia) izan dira, LREC COLING 2024 konferentzian, bi ikerketaren berri ematen

Hizkuntzalaritza konputazionalaren arloko nazioarteko bi erakunde garrantzitsuk, ELRA Hizkuntza Baliabideen Elkarteak (ELRA) eta Hizkuntzalaritza Konputazionalaren Nazioarteko Batzordeak (ICCL), Turinen antolatutako Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) konferentzian izan dira Oraiko bi ikertzaile.

Gorka Urbizu eta Iñigo Morcillo ikertzaileek lan bana aurkeztu dute mundu mailako ikerlariak bildu dituen konferentzian.

Euskararen morfologia konplexuaren eta hitzen ordena malguaren zailtasunez

Muitze Zulaika, Xabier Saralegi eta Ander Corral ikertzaileekin batera egin duenHow Well Can BERT Learn the Grammar of an Agglutinative and Flexible-Order Language? The Case of Basque” lana aurkeztera joan da Urbizu Turinera. “Hizkuntza-eredu neuronalak gai dira hizkuntzaren gramatika ikasteko. Euskarak morfologia konplexua eta hitzen ordena malgua ditu bereizgarri, eta lan honetan aztertu dugu ea ezaugarri horiek zaildu egiten ote dioten hizkuntza-eredu bati euskararen gramatika ikastea”, azaldu du Urbizuk.

Analisian, euskararako hainbat BERT eredu entrenatu dituzte, eta ereduen ezagutza gramatikala ebaluatu euskaraz, hainbat faktore kontuan hartuz: entrenamendurako testu-kopurua, ereduaren tamaina, entrenamendu denbora, eta lematizatzea edo ez-lematizatzea, etab. Urbizuren hitzetan, “bi dira lan honen ekarpen esanguratsuenak. Alde batetik, BL2MP datu-bilduma sortu da. Hizkuntza-ereduek euskarazko gramatikan duten ezagutza ebaluatzeko balio du. Beste aldetik,  euskararako hizkuntza-eredu berriak entrenatzeko garaian erabaki hobeak hartzen lagunduko dute ereduak entrenatzeko hainbat faktoreren inguruan ateratako ondorioek, eta antzeko ezaugarriak dituzten hizkuntzetarako ere baliagarriak izan daitezke”.
 

Okzitanieraren bi dialektotarako hizketa-ezagutzailea

Morcillok Turinen aurkeztu duen lanean, Igor Leturia, Ander Corral eta Xabier Sarasola Oraiko ikertzaileek hartu dute parte. “Automatic Speech Recognition for Gascon and Languedocian Variants of Occitan” ikerketa Lo Congrés Permanent de la Lenga Occitana-rekin lankidetzan egin da.

“Baliabide urriko hizkuntzen testuinguruan egindako lana izan da hau, eta okzitanieraren bi aldaerentzat (gaskoiera eta langedoziera) hizketa-ezagutzaileak (ASR) sortu ditugu lehen aldiz, teknika ezberdinak baliatuz”, adierazi du Morcillok. ASR sistema horiek eraikitzeko sortutako baliabideak deskribatu dituzte, esaterako, ahalik eta ahots- eta testu-corpus handienak eskuratzeko egin diren lanak: “Sistema erdiklasiko bat (sare neuronala eredu estatistikoekin nahasten dituen sistema) eta E2E sistema bat (sistema guztiz neuronala) entrenatu ditugu, aldaera bakoitzarentzat. Sistema bakoitza ebaluatu dugu, eta etorkizunerako hobekuntza batzuk planteatu”. ASR sistema Lo Congrès-ek gizarteratuko du aurrerago, “edonork erabiltzeko moduan, guk hemen euskarazko Aditu plataforma dugun moduan”, dio Morcillok.