Vertalen op maat met Artificiële Intelligentie

De Gentse kmo CrossLang is specialist in geautomatiseerde vertalingen. Wat in 2002 startte als een Europese vertegenwoordiger van onder meer Amerikaanse vertaalprogramma’s, is nu een uniek IT-bedrijf dat zich toespitst op vertaalmachines op maat.
Judic.io van Crosslang
Een vertaalmachine voor juridisch vakjargon.

Vertaalmachines: van grammaticale regels naar AI

CEO Luc Meertens legt graag uit wat CrossLang precies doet: “Wij automatiseren het vertaalproces op verschillende manieren: via consultancy, de ontwikkeling van tools en de implementatie van software. CrossLang is geen vertaalbureau, wij hebben geen professionele vertalers in dienst. Meer dan de helft van onze medewerkers zijn IT-ers. We bouwen digitale machines, computer engines, die vertalingen op maat van onze klanten maken.”

CrossLang bestaat sinds 2002. Toen was vertaalautomatisering vooral in handen van enkele grote Amerikaanse en Franse bedrijven. Als verdeler implementeerde CrossLang die vertaalprogramma’s binnen Europese bedrijven. “Dankzij enkele grote digitale evoluties konden we zelf starten met het ontwikkelen van vertaalsystemen,” vertelt Luc enthousiast. “Hiervoor ga ik even terug in de geschiedenis. De eerste computervertalingen baseerden zich op linguïstische concepten. Heel eenvoudig: een taaltechnoloog codeerde regels in de brontaal en doeltaal. De computer vertaalde dan volgens die regels, en was ook gelinkt aan een woordenboek. Deze manier van werken was erg arbeidsintensief.”

In de jaren ’90 stapte de sector over op statistical machine translation. Luc: “We haalden ons materiaal uit parallelle corpora. Een voorbeeld daarvan zijn vertaalgeheugens: teksten met dezelfde inhoud, maar in verschillende talen. Daarmee bouwde je dan een vertaalengine op basis van een statistisch model. In dit vertaalsysteem deed de computer een beredeneerde gok naar een redelijke vertaling.  Wat dat concreet betekende? Stel dat je in dat vertaalgeheugen twee zinnen had die beginnen met I am en die vertaald worden naar het Nederlands als ik ben. Dan was de kans groot dat je ook in een derde zin die I am kon vertalen door ik ben. Dit was een enorme evolutie. De tijd die een computer nodig had om een vertaalengine te bouwen, was veel korter dan de tijd die taaltechnologen bezig hadden om regels te coderen.

Luc Meertens
Dankzij de recente technologische evolutie zien steeds meer bedrijven de toegevoegde waarde van automatische (computergestuurde) vertalingen.
Luc Meertens
Ceo CrossLang

Het grootste nadeel aan statistical machine translation is dat de computer alleen reproduceert. Het systeem kan geen woorden produceren die het niet eerst leerde kennen. Een ander minpunt van die statistische vertalingen is dat je maximaal vier à vijf opeenvolgende woorden kan laten vertalen. Dat is lastig, zeker voor het Nederlands en het Duits. Ik geef een voorbeeld van een typisch Nederlandse zin: ‘Ik heb het meisje op de rode fiets ’s morgens gezien’. Heb en gezien, de werkwoorden die de betekenis van de zin bepalen, staan ver uit mekaar. Als de computer vertaalt in blokken van vier of vijf opeenvolgende woorden, gaat er vaak een deel van de context verloren.”

Sinds eind 2016 gebeuren automatische vertalingen voornamelijk met neurale vertaalengines. Daarbij leert het systeem zichzelf nieuwe woorden, betekenissen en regels aan.

Het IT-team van CrossLang.
Het IT-team van CrossLang.

“Neurale vertaalengines gebruiken een vorm van artificiële intelligente, AI,” legt Luc verder uit. “Eigenlijk bootst het systeem de neurale netwerken in de menselijke hersenen na. Het systeem leert zelf en dat is een groot verschil met de statistical translation. Vooral op het vlak van betekenis is dit een enorme stap. Neurale systemen zijn in staat om hele zinnen in hun geheel te vertalen. Hierdoor leest de output van neural machine translation erg vloeiend en natuurlijk. Door de hoge kwaliteit van deze vertalingen kiezen steeds meer bedrijven voor vertaalautomatisatie.”

Een eigen plek op de markt van de automatische vertalingen

Luc: “Onze concurrenten vandaag zijn Google, Microsoft en Facebook. Zij hebben voor zowat alle bestaande talen een goede generische basisvertaalengine. Daarmee is het moeilijk concurreren. Alhoewel.  Wij hebben ons bij CrossLang toegelegd op vertalingen voor niches, heel specifieke sectoren.  We bouwden bijvoorbeeld een engine die vertalingen maakt van juridische teksten: Judicio.  Advocatenkantoren, notarissen of juridische diensten van grote bedrijven vertalen daarmee snel juridische teksten van en naar het Nederlands, Frans, Duits en Engels.”

“Natuurlijk heb je daarvoor veel data nodig,” legt Luc uit. “Gelukkig bestaat er voor het juridisch domein veel kwaliteitsvol materiaal. Zo hebben we twaalf jaar aan Belgisch Staatsblad gedownload in het Nederlands en in het Frans. Dat is een heel groot parallel corpus. Ook op Europees niveau heb je heel goede parallelle corpora, wetteksten en contracten. Door die grote input produceren onze vertaalengines goede vertalingen, die erg specifiek zijn. En op dat domein kunnen we Google wél kloppen. Ook voor andere klanten in de telecom- of automobielsector bieden we een gepersonaliseerde aanpak. Door een klant-specifieke vertaalengine te bouwen, bewijzen we onze toegevoegde waarde.”   

“Een ander groot verschil met Google is dat machinevertalingen onze core business zijn. Google wil vooral advertentieruimte verkopen en door vertalingen kunnen ze hun adverteerders een groter bereik garanderen. Trouwens: als je teksten oplaadt om via Google Translate te vertalen, mag Google die ook voor andere doelen gebruiken. Wij garanderen onze klanten volstrekte gegevensveiligheid en bewaren ook geen vertalingen.”

Een nieuwe strategie

De bouw van neurale vertaalsystemen zoals Judicio, is zeer arbeidsintensief. In het verleden bouwde CrossLang zo’n engine daarom alleen in opdracht van een specifieke klant. Maar voor Judicio veranderde CrossLang zijn strategie. Het bedrijf moest zelf op zoek naar grote hoeveelheden data als basis voor de vertaalengine. En om alles vlot in productie te brengen, moesten ze de ook infrastructuur daarvoor uitbouwen. Luc: “Dat kost natuurlijk handenvol geld. Dankzij de begeleiding en de steun van VLAIO kon CrossLang deze stap zetten. In 2016 dienden we bij VLAIO een projectaanvraag in voor een innovatieproject, nu heet dat een ontwikkelingsproject. De projectaanvraag schreven we zelf. Peter Rutten, bedrijfsadviseur van VLAIO begeleidde ons. We haalden de subsidie binnen en startten met de bouw van Judicio.”
 

Juridic.io voorbeeld van een niche vertaalengine.
Juridic.io voorbeeld van een niche vertaalengine.

Een veelbelovende toekomst 

CrossLang heeft de expertise en ervaring om neurale vertaalsystemen te bouwen in huis. Na de succesvolle lancering van Judicio ontwikkelde het bedrijf een engine voor de automobielindustrie. Ook voor de gezondheidszorg, consumentenproducten of IT-diensten wil CrossLang domeinspecifieke engines creëren. 

Luc: “Uitbreiden kunnen we ook nog in de talen. Op dit moment kan je van en naar vier talen vertalen via Judicio, maar heel binnenkort komen daar nog Spaans, Italiaans en Pools bij. Ook met andere talen zoals Hongaars, Russisch of Chinees hebben we ervaring. Omdat we die talenkennis niet zelf in huis hebben, werken we dan met freelancers, native speakers die fouten kunnen aanwijzen in de vertalingen. Zij leggen op die manier de basis voor verdere verbeteringen aan onze vertaalengines. Het is net door die sterke kwaliteitscontrole dat we onze klanten een goede service kunnen garanderen. Je ziet het, de toekomst biedt veel mogelijkheden.”

Kan jij ook begeleiding op maat gebruiken voor jouw plannen?

De VLAIO bedrijfsadviseurs ondersteunen en adviseren ondernemers om hun innovatieve plannen, groeiambities of bedrijfstransformatie waar te maken. Neem contact met hen op via deze website of mail naar info@vlaio.be.