Loading…
Tilbage

Ugerapport 3


06-08-2012 10:03:29

Jeg har arbejdet videre på disambiguatoren og rettet en masse regler til for falske positiver. Derudover er ordgentagelsesreglen blevet redigeret til kun at pårvirke ordgentagelser af samme ordtype. Derved kan sætninger som "Han havde taget taget af huset" automatisk undtages, i stedet for at skulle tilføjes en liste med undtagelser. Det kræver dog at disambiguatoren virker korrekt, og at ord er tagget korrekt. Det er svært at teste regler godt igennem, samt lave udvidede regler, da det er relativt få ord, som er tagget i de forskellige ordklasser, og desuden er der flere tags, der er forkerte eller mangler bøjninger. Jeg har udvidet med en regel om, at man skriver 'besøgelsestid' i vendingen "at kende sin besøgelsestid" og ikke 'besøgstid'. Denne regel fanger også en del tilfælde med anderledes ordstilling. Jeg har lavet de første dansk-svenske oversættelser af ord, der ligner hinaden (kaldet falske venner). De ligger i false-friends.xml, der er en liste med ord for alle sprog, der ligner et ord på ens lokale sprog, men som har forskellige betydninger. Mellem svensk-dansk (og norsk for den sags skyld, de har bare ikke en LanguageTool endnu) er der f.eks. ordet 'gratis', der oversat til svensk betyder fri, mens ordet 'grattis' på svensk betyder tillykke på dansk. 'Gratis' og 'grattis' ligner altså hinanden og kaldes falske venner. Jeg har udvidet disambiguator med nye tilfælde (i.e. at retagge ord). Leif har brugt LanguageTool, med de nye regler jeg har lavet, til at rette omkring 10 småfejl på den danske wikipedia.