Skip to main content

Ikerketa

test 1

Ikerlerro nagusiak

Hizkuntza-eredu neuronalen sorrerak hizkuntza naturalaren prozesamendurako paradigma aldatzea ekarri du. Hizkuntza-eredu neuronalak testu-bilduma erraldoiekin entrenatzen dira, eta hizkuntzen ezagutza generikoa ikasten dute. Ezagutza generiko hori arrakastaz berrerabil daiteke hizkuntza-eredu neuronalek hizkuntzaren prozesamenduko ariketa zehatzak ikasteko. Hori dela eta, ariketa zehatzak ikasteko, ez dituzte behar entrenamendu-datu asko, eta oso emaitza onak ematen dituzte. Horrez gain, hizkuntza-eredu neuronal eleaniztunak hizkuntza bateko adibideekin entrena daitezke, eta modu horretan lortutako eredua hizkuntza gehiago prozesatzeko gai izango da.

Martxan ditugun ikerlerro nagusiak: 

  • Hizkuntza-eredu neuronalak ebaluatzea.
  • Hizkuntza-eredu neuronalek ataza zehatzak ikasteko transfer learninga.
  • Hizkuntzen arteko transfer learninga.
  • Baliabide urriko hizkuntzetarako hizkuntza-eredu neuronalak.

Soluzioak:

Digitalizazioaren aroan, gizakion hizkuntza kodetuta dagoen iturrietatik informazio egituratua erauzteko gai izateak berebiziko garrantzia du. Egungo informazio-bolumen erraldoietatik (big data) ezagutza hori erauzteak bide berriak irekitzen dizkigu, makroanalisiak egiteko, informazioa kontsumitzeko era berritzaileak eskaintzeko edo erabakiak hartzeko prozesuak errazteko. Testuen sailkapena, entitateen erauzketa, iritzien erauzketa edo galderen erantzunak bilatzeko moduko NLU (Natural Language Understanding) atazak ikertzen ditugu. Azken urteotan, hurbilpen neuronalak arrakasta handiz ari dira aplikatzen NLU atazetan, eta horiek dira, hain zuzen, egunerokoan darabiltzagun teknikak.

Martxan ditugun ikerlerro nagusiak: 

  • Bilaketa-sistema eleaniztunak.
  • Galdera-erantzun sistemak.
  • Sentimen uaren analisia.
  • Metadatu semantikoen erauzketa.
  • Big data zaintza-sistemak.

Soluzioak:

Testuinguru global eta eleaniztun honetan, gero eta indar handiagoa hartzen ari dira itzulpen automatikoko sistemak. Sare neuronalen azken urteotako hazkundeak aurrekaririk gabeko jauzi kualitatiboa ekarri du itzulpenen kalitatean, eta, beraz, hizkuntzen ñabardurak atzemateko gai diren sistema adimendunagoak garatzeko aukerak ireki ditu. 

Hori dela eta, itzulpen automatikoaren arloan, gure ikerketek puntako sistemak garatzea dute helburu. Horretarako, azken paradigma neuronalak erabiltzen ditugu sistema elebakar zein eleaniztunak sortzeko. Paradigma neuronal horiek datu-kantitate handiak behar dituzte entrenamendu garaian. Ondorioz, datuak erauztea, iragaztea eta garbitzea ezinbestekoa da kalitatezko datuak ustiatzeko. Jakitun gara sistemak pertsonalizatzea garrantzitsua dela erabiltzaileen beharretara egokitzeko; horregatik, gure lehentasunetako bat domeinuaren espezializazioa eta terminologia espezializatua dira. Gaur egungo sistema gehienek esaldi bakoitza bere aldetik itzultzen dute, esaldia agertzen den testuinguru orokorra kontuan hartu gabe. Dokumentu mailako itzulpenetan ere badihardugu.

Martxan ditugun ikerlerro nagusiak:

  • Genero-alborapenaren azterketa
  • Dokumentu mailako itzulpena
  • Terminologia espezializatuaren integrazioa
  • Datuen iragazketa eta garbiketa
  • Domeinu-espezializazioa
  • Itzulpen eleaniztuna
     

Soluzioak:

Elkarrizketa-sistemak bi motatakoak izan daitezke: elkarrizketa ahalik eta naturalena eskaintzea helburu dutenak eta aginduak edo eragiketak betetzea helburu dutenak. Lehenengo motakoak aisialdian erabili ohi dira. Bigarren motakoak, aldiz, pertsonei ataza zehatzak egiten laguntzeko erabiltzen dira; adibidez, tramite administratiboak, erosketak ala galderei erantzutea. Enpresak eta administrazioa gero eta gehiago eskaintzen ari dira bigarren motako elkarrizketa-sistema horiek beren bezeroei edota herritarrei orokorrean arreta hobea eskaintzeko.

Elkarrizketa-sistemek zenbait alderdiri erreparatzen diote: erabiltzaileen asmoa, elkarrizketaren testuingurua, hizkuntza ulertzea edo hizkuntza sortzea, eta gaur egun arkitektura neuronalak arrakastaz erabiltzen ari dira osagai horiek inplementatzeko.

Martxan ditugun ikerlerro nagusiak: 

  • Erabiltzaileen asmoa detektatzea.
  • Entrenamendu-datu gutxitan oinarritutako estrategiak.
  • Hizkuntza arteko transfer learninga.

Soluzioak:

Ordenagailuak hizketa tratatzeko gai izatean datza hizketaren prozesamendua, eta horietako bat da hizketaren ezagutza (ASR edo Automatic Speech Recognition).

Hizketaren ezagutzan, transkripzio eta azpititulazio automatikoko sistemetan ikertzen dugu, baldintza onetan emaitza onak lortzen dituzten sistemetatik harago. Hala, ele bitan, tokiko-hizkeretan edota erregistro ez-formaletan dauden audioak transkribatzeko ASR sistemak garatzeko metodoak lantzen ditugu, bai eta ingurune zaratatsuetan funtzionatuko duten sistemetan ere (4.0 industriako makinekin hizketaren bidez elkarreragiteko, adibidez). 

Pertsonalizazioan ere ari gara lanean, transkribatzaileari tokian tokiko hitzak, toponimia edota izen bereziak emanda horiek ongi transkriba ditzan. Zuzeneko transkripzioa eta azpititulazioa ere lantzen ditugu, zeinak oso baliagarriak baitira askotariko saioetan, bideo-deietan edota ikastaroetan. Ezgaitasun motorrak dituztenek ASRa diktaketa-tresna gisa baliatu ahal izatea da beste helburu bat; bereziki, hezkuntza-mundura eta haurretara bideratuta. Azkenik, hizlarien identifikazioan ere ari gara, azpitituluetan edo transkripzioan zati bakoitza nork esan duen automatikoki etiketatzeko.

Martxan ditugun ikerlerro nagusiak:

  • Hizketaren ezagutza pertsonalizatzea
  • Hizketaren ezagutza tokiko hizkeretan
  • Hizketaren ezagutza erregistro ez-formaletan
  • Hizketaren ezagutza ingurune zaratatsu eta industrialetan
  • Haurren ahotsen ezagutza
  • Diktaketara bideratutako sistemak (irisgarritasunerako)
  • Zuzeneko transkripzioa eta azpititulazioa
  • Hizlariak identifikatzea
     

Soluzioak:

Ordenagailuak hizketa tratatzeko gai izatean datza hizketaren prozesamendua. Tratamendu horietako bat hizketaren sintesia edo sorkuntza da (TTS edo Text-to-Speech)

Hizketaren sintesian hainbat ikerlerro ditugu martxan. Multispeaker sare neuronalen sistemak erabiliz, ahotsen klonazioa gero eta material gutxiagorekin lortzea dugu helburuetako bat. Hizlari baten esaldi bakarrarekin hizlari horren kalitate handiko hizketa-sintesia lortzea da gaur egungo erronka nagusietako bat. Cross-lingual teknikak ere aztertzen ari gara, eta, teknika horien bidez, hizkuntzaz alda dezakegu edozein ahots. Ahots baten hizkuntza bateko esaldi gutxirekin, ahots hori beste hizkuntza batean hitz egiten sintetizatzea lortu nahi dugu. Laguntzaile birtualen genero-alborapenari aurre egiteko, berriz, genero anbiguoko ahots-prototipo bat sortu dugu. Ahots horren kalitatea hobetzea gure erronketako bat da. Azkenik, sintesi-sistemetan emozioa sartzea ere helburu dugu. Gaur egungo sintesi-sistema gehienek estilo neutroa lantzen dute, eta horrek mugak ezartzen ditu bikoizketan erabiltzeko. Emozioak eta adierazkortasuna transmitituz bikoizketan estiloa galtzera ekidin nahi dugu.

Martxan ditugun ikerlerro nagusiak:

  • Hizketaren sintesi pertsonalizatua
  • Hizketaren sintesi neutroa
  • Hizketaren sintesi emozioduna
  • Ahotsaren imitazioa lagin txikiekin

Soluzioak:

Testuak ekoizteko prozesua nabarmen aldatzen ari da azkeneko urteotan, eta gero eta erabiliagoak dira testuak idazten laguntzeko tresna informatikoak. Tresna horien artean zuzentzaile automatikoak ditugu. Zuzentzaile horiek testuetako akatsak detektatu eta zuzenketak proposatzen dizkiote erabiltzaileari. Zuzenketak zenbait mailatan egin daitezke: ortografia, lexikoa, gramatika edo estiloa. Oso tresna eraginkorrak dira testuen sorkuntza-prozesuan; batez ere, testuen kalitate gorena bermatzeko.

Martxan ditugun ikerlerro nagusiak: 

  • Datu sintetikoetan oinarrituko zuzenketa gramatikal neuronala.

Soluzioak:

Baliabideak

Baliabideak

Baliabideak

Itzulpen automatikoa

Lexiko- eta terminologia-erauzketa

Proiektu estrategikoak

Informazioaren erauzketa eta berreskurapena (IR-IE)

Iritzien erauzketa - Sentimenduen analisia

Corpusak

Semantika eta ontologiak

Corpus-baliabideak

Hizketa-teknologiak

Ez da etorkizuna

Ez da etorkizuna. Orai da