Kas AI-ajastu “sööb” väikese kõnelejaskonnaga keeled ära? Baltikumi ettevõte tagab, et see nii ei läheks
Ajal, mil globaalne tehisintellekti areng keskendub peamiselt suurtele keeltele, tegutseb Baltikumis ettevõte, kelle fookus on vastupidine – tagada, et ka väikese kõnelejaskonnaga keeled oleksid digiajastul nähtavad, kvaliteetselt kasutatavad ning konkurentsivõimelised.
Tilde alustas tõlkebüroona juba 26 aastat tagasi, kuid Läti emaettevõttel on ajalugu üle 30 aasta. Kui alguses keskenduti Microsoft Windowsi ja Wordi professionaalsele tõlkimisele eesti, läti ja leedu keeltesse, siis tänaseks on liigutud sügavamale tehnoloogiasse. Fotol Tilde juht Kalle Kuusik.
Foto: Raul Mee
Keeletehnoloogiaettevõte Tilde on veendunud, et Euroopa keelte elujõulisus ei tohi AI-ajastul sõltuda peamiselt inglise keelel põhinevast tehnoloogiast ega USA ja Hiina ettevõtetest. “Meie fookus on eesti, läti, leedu ja teised Euroopas kõneldavad keeled. Kui varem oli meie eesmärk pakkuda paremat tõlkekvaliteeti kui Google Translate, siis täna suudame edestada ChatGPT-d ja teisi suuri keelemudeleid,” ütleb ettevõtte juht Kalle Kuusik.
TildeOpen LLM on spetsiaalselt Euroopa keeltele loodud baasmudel
Mõistagi pole kõrvale jäädud ka suurte keelemudelite arengust. Nii on Tilde loonud oma baasmudeli TildeOpen LLM, mis on aluseks konkreetsetele rakendustele nagu näiteks masintõlge ja tekstist kokkuvõtete tegemine ning mis võimaldab täna tõlkida koguni 34 Euroopa keelde.
Enamlevinud USA mudelite puhul on ligikaudu 90% treeningandmetest ingliskeelsed, mistõttu on nende põhjal loodud lahendused tugevalt inglise keele poole kaldu. Eesti keele puhul võib see väljenduda nii võõrapärases lauseehituses kui ka mudeli poolt väljamõeldud sõnades. TildeOpen on loodud põhimõttel, et kõik 34 keelt on võrdselt esindatud.
Tilde tugevuseks on ka teaduslik kompetents – ettevõttes töötab üle kümne doktorikraadiga keeleteadlase. “Oleme ainus Baltikumi ettevõte, kes on täiesti nullist välja arendanud uue suure keelemudeli,” ütleb Kuusik.
Mudeli arendamist toetas Euroopa Komisjon, mis võimaldas kasutada Soomes asuvat LUMI superarvutit ning ligi kahte miljonit GPU-tundi. Mudel loodi pärast Euroopa Komisjoni konkursi Large AI Grand Challenge võitmist.
Masintõlge, mis päriselt ka töötab
“Tavakasutajale piisab sageli ka üldmudelitest nagu ChatGPT, kuid ärikeskkonnas jääb nende kvaliteet tihti ebapiisavaks. Meie tugevuseks on kohandatud mudelid, mis arvestavad ettevõtte terminoloogiat, spetsiifikat ning stiili. Ettevõtted saavad luua oma terminoloogia sõnastiku või treenida mudelit varasemate tõlgete põhjal. See kõik on midagi, mida on globaalsete suurlahendustega väga keeruline saavutada,” lisab Kuusik.
Lisaks keelelisele täpsusele on oluline ka pakutav tehniline kvaliteet. Tilde lahenduse puhul saab olla kindel, et tõlge säilitab Wordi ja PDF-dokumentide puhul algse vormingu, fondid ja kujunduse. Just need detailid kipuvad üldmudelite kasutamisel sageli kaotsi või sassi minema.
Sama loogika kehtib ka veebis. “Kodulehtede automaattõlge on Eestis veel vähe levinud, kuid võimaldab hoida sisu ühes keeles ja pakkuda külastajale automaatselt tema emakeelset versiooni,” ütleb Kuusik. Sellel on otsene mõju ka ärile, sest inimesed usaldavad emakeelset sisu rohkem ning teevad ka ostu suurema tõenäosusega.
“Isegi küberkurjategijad ja petturid saavad aru, et adresseerides inimesi nende oma emakeeles, on pettus edukam. Nende puhul ei saa neid samme mõistagi heaks kiita.”
Meie tugevuseks on kohandatud mudelid, mis arvestavad ettevõtte terminoloogiat, spetsiifikat ning stiili. Ettevõtted saavad luua oma terminoloogia sõnastiku või treenida mudelit varasemate tõlgete põhjal.
Kalle Kuusik
Teenusepakkuja usaldusväärsus ja kontroll andmete üle
Kiiresti muutuvas maailmas muutub üha olulisemaks ka andmete turvalisus. “USA või Hiina teenusepakkujate puhul puudub ettevõtetel tegelik kontroll oma andmete üle, kuid meie oleme siinsamas – kohalik ettevõte, kes võtab info haldamise osas selge vastutuse,” räägib Kuusik.
Teadmine, et info ei liigu Euroopast välja, on eriti oluline avaliku sektori ja tundliku infoga töötavate organisatsioonide jaoks. “Lahendus on arendatud kooskõlas Euroopa Liidu tehisintellekti määrusega ning on osa laiemast eesmärgist hoida kriitilised tehnoloogiad Euroopa kontrolli all,” ütleb Tilde juht.
Kliendil on võimalik paigaldada masintõlke platvorm ka oma IT-taristule, kus kõik andmed on täielikult nende enda kontrolli all. Sellist võimalust pakuvad vähesed teenusepakkujad. Kui siiani on olnud lähenemine, et kõik teenused viiakse pilve, siis mitmete klientide jaoks on ainus vastuvõetav lahendus oma IT-taristu.
Euroopa enda lahendus
“Meie eesmärk on pakkuda lahendusi, mis päriselt professionaalses keskkonnas töötavad ja mille tulemust saab usaldada. Ja nagu ütlesin – eriti väikese kõnelejaskonnaga keelte puhul on see kriitilise tähtsusega,” rõhutab Kuusik.
Nii on Euroopa ettevõtetel ja asutustel olemas reaalselt toimiv alternatiiv globaalsetele tehisintellektilahendustele – turvaline, kohandatav ning kohalike keelte eripärasid arvestav.
Keeletehnoloogiaga on Tilde tegelenud süvitsi üle kümne aasta. Täna on ettevõtte fookuses masintõlge, kõnetehnoloogiad (transkriptsioon ja kõnesüntees) ning tehisintellekti assistendid ja juturobotid.
Kas olete huvitatud AI rakendamisest oma organisatsioonis?
Võtke Tildega ühendust ja vaatame koos, kuidas erinevad lahendused saavad teie töövoogu parandada.