Hizkuntza-teknologia

Hizkuntza-teknologia, sarritan giza hizkuntzaren teknologia deiturikoa, hizkuntza naturalaren prozesamenduak eta hizkuntzalaritza konputazionalak osatzen dute alde batetik, eta hizketa-teknologiak bestetik. Era berean, hauen aplikazioan oinarritutako hainbat alderdi biltzen ditu. Hizkuntza-teknologia estuki lotuta dago informatikarekin eta, oro har, hizkuntzalaritzarekin.

2013an, Globalizazio eta Lokalizazioaren Elkarteak (GALA) LT Advisor plataforma independentea atera zuen erabiltzaileek hizkuntza-teknologia bilatu eta itzulpen-tresnak berrikusi ahal izateko. Plataforma hau Alemaniako Adimen Artifizialaren Ikerketa Zentroarekin (DFKI) lankidetzan garatu zen.^[1]

Hizkuntza eta informazio-teknologien lengoaiak elkartzen direnean, beharrezkoa da horiek antolatzea konputazio aldetik kudeatu eta prozesatu ahal izateko. Beraz, linguistikaz gain, informatika eta horri lotutako gaiei buruz ere ezagutzak izatea garrantzitsua izaten da askotan.

Hizkuntza-teknologiak funtsezkoak dira Informazio eta Komunikazioaren Gizartean. Epe ertainean pertsona eta makinen arteko komunikazioa geure hizkuntzan egin ahal izango dugu, ez makinaren hizkuntzan. Tresna mugatuak izango dira, eta beti errore-maila batekin, baina laguntza ederra ematen digute.

Gaur egun badira zenbait hizkuntza-aplikazio eskuragarri:

Testu-ediziorako laguntzak

Ortografia-zuzentzaileak eta estilo-zuzentzaileak

Zuzentzaile-ortografiakoak, idatzitako testuak zuzentzen laguntzen duen aplikazio informatikoa da. Hau da, testu batean gaizki idatzitako hitzak identifikatu eta zuzentzen ditu. Ortografia zuzenketa bat aurrera eramateko bi metodo bereizten ditugu. Alde batetik, betiko zuzenketa metodoa, testu-zuzentzaile baten bidez. Eta beste alde batetik, zuzentzaile profesionalak, literatura-eremuan batez ere erabiltzen direnak, eta ordainpekoak direnak.^[2]

Euskararako zuzentzaile nabarmen batzuk aurkitzen ditugu, Hobelex eta Xuxen modukoak.

Baita ere estilo-zuzentzaileak ditugu. Hauek testu bat ulergarria izatea lortzen duten zuzentzaileak dira. Hau da, aplikazio hauek ez dute testuak ortografikoki edo gramatikalki zuzentzen, baizik eta testuaren itxura edo ordena aldatzen du guretzat ulergarriagoa izan dadin.

Hiztegi-kontsultak on-line

Sakontzeko, irakurri: «Euskarazko hiztegigintza»

Elhuyar Hiztegiaren webguneko kontsulta-aplikazioaren emaitza euskarazko "*aurkitu*" hitzerako.^[3]

Betidanik hiztegiak erabili ditugu, era askotakoak gainera: elebakarrak, elebidunak, sinonimoak eta antonimoak, teknikoak, etimologikoak… Gaur egun, hiztegi hauek guztiak sarean aurkitu ditzakegu. Gainera, online hiztegi hauek geroz eta indar handiagoa hartzen ari dira. Esaterako, gaztelaniako RAEren hiztegi elebakarra (DRAE), edo WordReference hiztegi elebiduna, non hizkuntza asko aurkitzen ditugu, gaztelania, ingelesa, frantsesa edo alemana.

Euskarazko hiztegiak ez dira gutxi, 50 baino gehiago. Adibidez, Euskaltzaindiaren Hiztegi elebakarra, Orotariko Euskal Hiztegia, Elhuyar-en hiztegi elebiduna, Egungo Euskararen Hiztegia edo Euskalterm datu-base terminologikoa.

Aipatzekoa da Euskalbar erreminta ere. Erreminta honekin erabiltzaileak hitzak kontsultatu ditzake euskaraz, gaztelaniaz edo ingelesez, euskal hiztegi batzuetan batera.^[4]

Itzulpen-laguntzak

Itzulpenerako zirriborroak sortzen

Hizkuntza-teknologiekin, hitzak itzultzeaz gain, aurreko atalean azaldutako moduan, testu zatiak itzuli ditzakegu. Nahiz eta teknologia hauek asko hobetu diren azken urteetan, hanka sartze nabarmenak egiten dituzte itzultzaileak. Ez dira perfektuak, baina erabilgarriak dira itzultzaile trebeak ez diren pertsonentzat. Itzultzaile erabiliena Google Translate da, ia edozein hizkuntza itzuli dezake, bere itzultzaile neuronala erabiliz, itzulpenaren kalitatea asko handitzen duena. Baina egia esan, euskararako itzultzaile hobeagoak daude, adibidez, elia.eus (Elhuyar), Itzuli+ (Eusko Jaurlaritza), batua.eus Matxin, Neuro-Matxin, Modela edo Elhuyar.

Jaurlaritzaren itzutzaile neuronala
Batua.eus
elia.eus (Elhuyar)

Web orri baten azaleko ideia ulertu

Kasu honetan, baita ere, Google handiaz hitz egin behar dugu. Google Translate erreminta web-orri baten nondik norakoa jakin dezakegu. Hau da, web-orri bat ez dugun ezagutzen hizkuntza batean badago, erreminta honek gutxi gorabeherako itzulpena egiten digu. Honekin ez dugu itzulpena perfektua lortzen, baina bai ideia nagusi bat.

Itzulpen-memoriak

Itzulpen-memoriak testu-biltegi batzuk dira, hizkuntza beteko jatorrizko testuak eta testu horien beste hizkuntza beteko itzulpenak lerrokatuta gordetzen dituztenak. Itzulpen-memoriaren definizio hau bat dator corpus paraleloaren definizio onartuetako batekin. Horregatik, itzulpen-memoriak corpus paraleloak izan daiteke. Horrela, itzulpen-memoriak eta corpus paraleloak jatorrizko testuez eta helburu hizkuntzara itzulitako testuez osatuta daude. Euskarako itzulpen-memoriak, besteak beste: EHUskaratuak, Elhuyar Web Corpusa eta GFAren itzulpen-memoriak.

Testu-masa handiak kudeatzeko sistemak (dokumentu-bilatzaileak, datu-bilatzaileak...)

Informazioaren berreskurapena

Informazioaren berreskurapena (ingelesez, Information Retriveral) dokumentuetan informazioa bilatzea, dokumentuak bilatzea, dokumentuak deskribatzen dituzten metadatuak bilatzea edo datu-baseetan bilatzea burutzen duen teknologia da. Ohiko arlo bat izan da informatikan bere hasieratik. Bi urrats nagusitan burutu ohi da informazioaren berreskurapena: hasieran dokumentuen indexazioa eta gero bilaketa. Informazioaren berreskurapenak jakintzagai asko hartzen ditu barne, besteak beste: informazioaren arkitektura, informazioaren diseinua, gizakien jokaera informazioaren aurrean, psikologia kognitiboa, hizkuntzalaritza konputazionala, semiotika, informatika eta bibliotekonomia.

Google, Yahoo eta Elebila moduko bilatzaileak dira informazioa eskuratzen duten tresna ezagunenetako batzuk. Ezagunenak Internet erabiltzen dute bilatzeko eremu gisa, baina intranet moduan ere erabil daitezke dokumentazio-gunetan edo liburutegi digitaletan.

Tresna orokor moduan (plug-in/gehigarriak) hauek dira ezagunenak:

Jabedunak: Autonomy, Google Search Appliance…
Libreak: Lucene, Fedora Commons…

Question Answering

Galdera-erantzun sistemak informazioaren berreskurapenaren arloan sartzen dira. Adituen esanetan, sistema hauek informazioa husteko erabiltzen diren beste sistemak baino teknika konplexuagoak erabiltzen dituzte, hizkuntza naturalaren prozesamenduarekin loturik. Horrela, askotan bilaketa-motorrak baino haratago dagoen pausutzat dira aurkeztuak.

Informazio-erauzketa

Informazio erauzketa (ingelesez, Information Extraction) informatikaren arlo bat da, ordenagailu batek irakur ditzakeen dokumentuetatik informazio zehatz batzuk formatu egituratu edo erdi-egituratuan ateratzea helburu duena. Bilatutako informazioa edukiko duten esaldi mota batzuk detektatzeko patroiak eta tresna sintaktiko-semantikoak erabiltzen dira entitate, erlazio edota gertaerei buruzko informazioa lortzeko, domeinu mugatu baten dokumentuen artean. Hauek dira domeinu horien adibide batzuk: enpresa-erabakiak, administrazioa, medikuntza, salerosketak… Gehienetan intranet mailan erabiltzen dira, dokumentu multzo mugatu baten gainean, bilaketa eremua ez da izaten Internet osoa.

Laburpen automatikoak

Laburpen automatikoa ordenagailu programa baten bitartez testu baten bertsio laburtua sortzean datza. Prozesu honetan eskuratutako emaitzak jatorrizko testuaren informazio garrantzitsuena mantendu behar du. Gaur egun dugun informazio kopuru handiak ezinbesteko bihurtu ditu laburpeak. Hori dela eta, garrantzi handiko ikerketa-arlo bilakatu da laburpen automatikoa. Laburpengintza baliatzen duen adibide bezala Googleren bilatzailea dugu. Laburpenaren koherentzia mantendu eta oinarrizko informazioa ez galtzeko hainbat aldagai izan behar dira kontuan; hala nola testuaren luzera, idazketa eta sintaxia.

Hizketaren tratamendua

Hizketa testua bihurtzen duten sistemak

Hizketaren sintesia giza hizketaren emaitza artifiziala da. Xede honetarako erabiltzen den sistemari hizketaren sintetizatzaile deritzo, eta egikaritu egin daiteke, bai softwarean, bai hardwarean. Hizketaren sintesi hauek, sarritan, TTS text-to-speech edo testu-ahots-bihurtzaile izena hartzen dute testua hizketa bihurtzeko gaitasunagatik. Hala ere, transkipzio fonetikoak bezalako irudikapen linguistiko sinboloak hizketa soilik itzuli ditzaketen sistemak ere badute.

Text-to-speech bat (testutik hizketara) bi atalez osatuta dago: nagusia eta menpekoa. Orokorrean, atal nagusiak testu formako lana hartu eta irudikapen linguistiko sinboliko bihurtzen du. Menpekoak, aldiz, irudikapen linguistiko sinbolikoa jaso eta uhin formako hizketa sintetizatua sortzen du.

Euskaraz ere badago TSS sistemarik: AhoTSS eta Euskararen Zerbitzu Plataformaren TSS tresna.

Testuak irakurtzen dutenak

Testu-ahots bihurtzaileak ahots artifizialez idatziriko testu irakurtzen duten programa informatikoak dira. Sistematik sinpleena hiztegian oinarritutakoa da: programak hiztegi batek dituen hitz guztiak bihurtzen ditu, gizaki baten ahotsetik jasotako laginak erabiliz esaterako. Oso sistema azkarra da, baina ez du balio bere hiztegitik kanpo dagoen hitz bat ematen denean eta hizkuntza bat garatuz doanez bere oroimena handitu behar zaio. Bigarren sistema arauetan oinarritutakoa dago. Kasu honetan hitz, fonema eta letren ahoskatze arau teorikoak aplikatzen dira, ondoren testu osoa arau horietan oinarrituta bihurtzeko.

Gaur egun oso ohikoak dira Siri, Alexa edo antzeko sistemak.

Bestelakoak

Ikertaldeen artean, Ixa taldea aipa dezakegu. Ixa Euskal Herriko Unibertsitateko ikerketa-talde bat da, eta hizkuntzaren tratamendu automatikoan egiten du lan. Hainbat aplikazio garatu dituzte, esaterako, Matxin, euskaratik/euskarara itzultzaile automatikoa, edota Xuxen, euskarazko zuzentzaile ortografikoa. Baita ere, hizkuntza prozesatzaile askotan ere lan egin dute, adibidez Morfeus, analisi morfologikoa egiten duen erreminta bat, edota IXA pipes.^[5]

IXA pipes lengoaia naturala prozesatzeko tresnen multzo modularra da. Hizkuntza askotarako, hizkuntza naturalaren prozesamenduaren teknologiara sarbide erraza ematen duena. Bost erremintaz osatzen da, tok (tokenizatu eta segmentatu), pos (kategoria gramatikala eta lema esleitu), nerc (izen entitateak desberdindu), chunk (izen eta aditz sintagmak banatzen ditu) eta parse (perpausa osagaietan banatzen ditu).^[6]

Erreferentziak

↑ .
↑ (Gaztelaniaz) «¿Qué es la corrección ortográfica?» Correctores.es | Servicios baratos de corrección de textos 2017-03-08 (Noiz kontsultatua: 2020-05-23).
↑ Elhuyar Fundazioa. (2024). «Elhuyar Hiztegiaren webguneko kontsulta-aplikazioaren emaitza euskarazko "aurkitu" hitzerako.» Elhuyar Hiztegia (Noiz kontsultatua: 2024-01-17).
↑ (Gaztelaniaz) «Euskalbar 3.0 --ayuda para traducir entre euskera, castellano e inglés-- puede descargarse desde su web» Euskal kultura (Noiz kontsultatua: 2020-05-23).
↑ «IXA pipes: Hizkuntzaren Prozesamendurako tresnak | Ixa taldea» ixa.si.ehu.es (Noiz kontsultatua: 2020-05-23).
↑ ixa2.si.ehu.es (Noiz kontsultatua: 2020-05-23).

Kanpo estekak

Datuak: Q1976109

[1] .

[2] (Gaztelaniaz) «¿Qué es la corrección ortográfica?» Correctores.es | Servicios baratos de corrección de textos 2017-03-08 (Noiz kontsultatua: 2020-05-23).

[3] Elhuyar Fundazioa. (2024). «Elhuyar Hiztegiaren webguneko kontsulta-aplikazioaren emaitza euskarazko "aurkitu" hitzerako.» Elhuyar Hiztegia (Noiz kontsultatua: 2024-01-17).

[4] (Gaztelaniaz) «Euskalbar 3.0 --ayuda para traducir entre euskera, castellano e inglés-- puede descargarse desde su web» Euskal kultura (Noiz kontsultatua: 2020-05-23).

[5] «IXA pipes: Hizkuntzaren Prozesamendurako tresnak | Ixa taldea» ixa.si.ehu.es (Noiz kontsultatua: 2020-05-23).

[6] ixa2.si.ehu.es (Noiz kontsultatua: 2020-05-23).

[1]

[2]

[3]

[4]

[5]

[6]