Dansk forskning skal forbedre Google translate
Thread poster: lisevs
lisevs
lisevs
Local time: 09:58
Jul 5, 2010

via omveje stødte jeg lige på denne artikel fra Politiken:

http://politiken.dk/kultur/tvogradio/article1001938.ece

---

Dansk forskning vil fjerne Googles oversætter-fejl

AF Lotte Thorsen

Hvis man beder Google om at oversætte det danske udtryk ’slå til nu’ til engelsk, får man at vide, at det hedder ’strike
... See more
via omveje stødte jeg lige på denne artikel fra Politiken:

http://politiken.dk/kultur/tvogradio/article1001938.ece

---

Dansk forskning vil fjerne Googles oversætter-fejl

AF Lotte Thorsen

Hvis man beder Google om at oversætte det danske udtryk ’slå til nu’ til engelsk, får man at vide, at det hedder ’strike now’.

Men bytter man om på de to sidste ord i sætningen, så der står ’slå nu til’, skifter systemet mening og fortæller, at det på engelsk hedder ’turn now to’.

Googles oversættelsesprogram kan nemlig godt oversætte faste ordbilleder eller talemåder, men hvis man bytter om på ordene eller lægger et ’nu’ ind i mellem ’slå’ og ’til’, bliver systemet forvirret.

Uoversættelige mønstre
Tekster, der bliver oversat i Google Translate, er derfor ofte fulde af ord og vendinger, der overhovedet ikke giver mening, og som indimellem gør oversættelsen ufrivilligt komisk.

Men ny dansk forskning betyder, at Stanford University i Californien i sidste uge kunne præsentere et nyt maskinoversættelsessystem, der har løst et af hovedproblemerne. Systemet betegnes i forskningsverdenen som en lille sproglig revolution.

Det er den 28-årige danske forsker Anders Søgaard, der har stået i spidsen for den forskning, der for nylig har dokumenteret og identificeret de mest fundamentale oversættelsesmønstre, som de nuværende systemer ikke kan klare.

Og på den baggrund har det været muligt for Stanford University at udvikle oversættelsessystemet Phrasal, som godt kan håndtere, at ordbillederne bliver brudt op.

»Vi har fundet ud af, at op mod to tredjedele af oversatte sætninger indeholder mønstre, der ikke kan oversættes af de systemer, der findes i dag. Det er selvfølgelig et kæmpestort problem. Mange af de fejl, man støder på i Google Translate, og som folk gør sig morsomme over, handler om de her diskontinuerte fraser – altså afbrudte enheder, som forvirrer systemet. Den type fejl vil man kunne fange i det nye system. Og oversættelseskvaliteten vil blive meget bedre for eksempelvis dansk, tysk og spansk – altså sprog, der har mange afbrudte enheder«, siger Anders Søgaard, der er adjunkt i sprogteknologi på Københavns Universitet.

Han forventer, at Google vil implementere systemet inden årets udgang, og at mange af de virksomheder, der benytter sig af maskinoversættelse, vil skifte til Phrasal, så snart de har ressourcer til det.

Simpel oversættelsesmodel
Google Translate er et såkaldt frasebaseret oversættelsessystem. Det betyder, at systemet ser meget store mængder af oversat tekst.

Og ved at registrere, hvilke danske udtryk der konsekvent optræder sammen med et tilsvarende engelsk udtryk, udleder systemet, at de to fraser nok er oversættelser af hinanden. Eksempelvis optræder det danske udtryk ’at slå til lyd for’ ofte sammen med det engelske ’advocate’.

Og så gætter systemet på, at de to udtryk har samme betydning.

»Systemet oversætter simpelt hen ved at kigge på alle mulige oversættelser af en sætning og finde den, der er mest sandsynlig. Det vil sige, at der ikke er nogen form for analyse, syntaks eller semantik i sådan et system. Historisk er det inspireret af arbejdet med at afkode kodeskrift under Anden Verdenskrig. Det er en meget simpel oversættelsesmodel, som fungerer rigtig godt, hvis to sprog ligner hinanden meget«, siger Anders Søgaard.

Landvending i forskningen
Systemet har altså ingen problemer med en vending som ’slå til lyd for’. Men hvis man skiller det ad og beder den oversætte sætningen ’Poul slår nu til lyd for’, hvor ’nu’ bryder sammenhængen, så kan systemet ikke længere betragte det som en enhed, men bliver nødt til at dele det op.

»Og det er lige præcis det nye ved Phrasal, at det kan arbejde med enheder, som er brudt op«, siger Anders Søgaard.

Københavns Universitet lancerer resultaterne af hans forskning som »en it-revolution«. Selv er Anders Søgaard en anelse mere beskeden.

»Der sker meget få revolutioner inden for forskningen. Men der er i hvert fald tale om en rigtig stor landvinding, når der nu findes et system, som tager højde for de brudte enheder. Og det bliver taget meget seriøst i forskningsverdenen«.

Men der vil stadig opstå fejl i maskinoversættelserne, for det andet hovedproblem er ikke løst endnu. Nemlig at mange oversættelsessystemer ikke har nok data til at lave brugbare oversættelser.

»Det mest berømte eksempel er forsvarets Google-oversættelse af ’Jægerbogen’ fra dansk til arabisk. Det blev opdaget meget hurtigt, fordi den arabiske tekst stadig var fuld af danske ord, som maskinen ikke havde oversat, fordi den ikke kendte dem. Og et maskinoversættelsesprogram kan ikke gætte sig til oversættelsen af et ord, det aldrig har set før«, siger Anders Søgaard.

Ligesom en hacker
Det problem er ikke løst med det nye system. For den manglende datamængde er et problem, man ifølge Anders Søgaard altid har.

»Løsningen er at give systemet rigtig, rigtig meget data. Eller hvis man som virksomhed eksempelvis gerne vil oversætte brugsvejledningen til en boremaskine, så kan man træne systemet med tekster af lige præcis den type, så man får et vokabularium, som systemet kan benytte sig af«.

Men uanset hvor mange problemer, man får elimineret, vil maskinoversættelsessystemerne altid gå anderledes til en tekst, end et menneske vil. Som Anders Søgaard siger:

»Mennesker vil forsøge at skabe en mening i en sætning og så ud fra den mening genskabe den på et andet sprog. Men de frasebaserede oversættelsessystemer går til oversættelsen som et dekrypteringsproblem – fuldstændig som hvis en hacker skulle gætte et password, eller hvis en fremmed magt skulle opsnappe en militær kode. Men i mange tilfælde kan man faktisk lave rigtig gode maskinoversættelser, og der er mange virksomheder, der benytter sig af dem«.
Collapse


 
Johnny Speiermann
Johnny Speiermann
Denmark
Local time: 09:58
English to Danish
+ ...
Bestemt interessant Jul 20, 2010

Det er bestemt en interessant udvikling.

Maskinoversættelse er "endelig" kommet for at blive. Der har været gjort mange forsøg, men jeg synes, at der de sidste 5-6 år er sket en stor udvikling mod bedre kvalitet. Nej, gratis tjenester til maskinoversættelse er stadig ikke gode, men til professionel brug findes der en del gode systemer.

Googles system har dog selv med de nye ændringer en grundlæggende fejl, som de fleste systemer lider under. De er baseret på, at
... See more
Det er bestemt en interessant udvikling.

Maskinoversættelse er "endelig" kommet for at blive. Der har været gjort mange forsøg, men jeg synes, at der de sidste 5-6 år er sket en stor udvikling mod bedre kvalitet. Nej, gratis tjenester til maskinoversættelse er stadig ikke gode, men til professionel brug findes der en del gode systemer.

Googles system har dog selv med de nye ændringer en grundlæggende fejl, som de fleste systemer lider under. De er baseret på, at systemet fodres med millionvis af ord for at lære sproget. Problemet er bare, at hvis du har fyldt dårlige oversættelser i systemet, så kan du ikke rette det uden at skulle fylde endnu flere korrekte oversættelser i systemet.

Asia Online har dog lavet et ret interessant system, som ikke kræver helt så mange ord. Systemet kan lære ord baseret på så lidt som 10-20 sætninger, og det medfører, at når systemet oversætter forkert, så skal der kun fyldes 10-20 korrekte sætninger i systemet, før det lærer at forbedre oversættelserne.

Det vil efter min mening gøre systemet interessant for freelancere - vi ville rent faktisk have mulighed for at bruge maskinoversættelse baseret kun på vores egne oversættelser. Desværre ser det ud til, at de foretrækker samarbejde med store oversættelsesbureauer, hvor de får en større mængde data igennem, hvilket selvfølgelig er godt til testformål, men jeg er bange for, at de så får testet med store mængder dårlig oversættelse i virksomheder, der alligevel ikke har interne medarbejdere, der kan rette op på kvaliteten. Og så er de vist da lige vidt.

Organisationen TAUS har også et interessant koncept, hvor man kan få adgang til maskinoversættelsen efter 10:1-princippet, dvs. man kan downloade 10 gange så mange ord, som man fylder i systemet. Jeg kan dog ikke se, hvilke muligheder de har for overhovedet at se på sproglig kvalitet, og deres helt store problem er nok, at de medvirkende virksomheder har hver deres måde at skrive kildeteksterne på. Første skridt for dem burde være at uddanne deres technical writers til at skrive ensartet – så ville de formentlig komme meget længere med TM-teknologien og kunne spare penge på udviklingen af maskinoversættelse.
Collapse


 


There is no moderator assigned specifically to this forum.
To report site rules violations or get help, please contact site staff »


Dansk forskning skal forbedre Google translate






CafeTran Espresso
You've never met a CAT tool this clever!

Translate faster & easier, using a sophisticated CAT tool built by a translator / developer. Accept jobs from clients who use Trados, MemoQ, Wordfast & major CAT tools. Download and start using CafeTran Espresso -- for free

Buy now! »
Protemos translation business management system
Create your account in minutes, and start working! 3-month trial for agencies, and free for freelancers!

The system lets you keep client/vendor database, with contacts and rates, manage projects and assign jobs to vendors, issue invoices, track payments, store and manage project files, generate business reports on turnover profit per client/manager etc.

More info »