Loading…
Tilbage

Ugerapport 2


27-07-2012 14:34:18

Når f.eks. "nedeni", "udenpå" eller "ovenover" henviser til hvad det henholdsvis er i forhold til, skrives det i to ord: "neden i", "uden på" eller "oven over". Dog bliver reglen kun aktiveret, hvis navneordet står lige efter; sætninger som "Zombierne var både inden for og uden for huset." bliver altså ikke fanget (endnu i hvert fald).
'Extra' er engelsk og staves på dansk 'ekstra' (se http://sproget.dk/lookup?SearchableText=ekstra). Dette fanges nu og 'ekstra' bliver foreslået i stedet for 'kun', at ordet ikke er genkendt. Jeg har også tilføjet "ja ja" som undtagelse ved ordgentagelsesreglen (det bliver nu accepteret). Appostroffer skal sættes, når tal forbindes med en endelse (som "1970'erne") og dette er der nu en regel for.

Taggeren er nu blevet fikset (af en anden udvikler på projektet), så navneords tags i hvert fald er funktionelle (om end der mangler en del tags). Der er dog meget få ord i taggeren, så det er svært at teste reglerne, der bruger tags, eftersom der er få situationer den fanger (fordi de enkelte ord skal være tagget). Derudover er det som regel kun 4 ud af 8 af bøjningerne, som er tagget på ord.
Simple opremsningskommaregler er lavet, som fanger f.eks. "Slidbanens slidbane, slidbanens slidbanes slidbane(,) slidbanens slidbane og slidbanen". Den fanger dog ikke egenavne, i og med det er umuligt at vurdere, hvor et evt. komma skal stå (da fulde navne kan bestå af et varierende antal navne). Et problem med denne regel er, at der ikke er en funktionel disambiguator (finder dobbeltbetydninger af ord og tagger 'korrekt' ud fra kontekst). Den re-tagger et ord, hvis den kan være flere typer, (som med 'jeg' eller 'spørger', der er henholdsvis navneord og pronomen eller verbum) ud fra konteksten ("Det er dit jeg, der bestemmer"→jeg=navneord, "Jeg bestemmer"→jeg=pronomen). Derfor er reglen for opremsningskomma inaktiveret, men kan aktiveres igen, når en fornuftig disambiguator forefindes. Jeg har nu lavet de første funktionelle regler i disambiguatoren, med bl.a. et par regler omkring konvertering af ord med typepar (navneord, verbum) og (navneord, pronomen). Det betyder at grammatikregler baseret på tags kan blive meget mere brugbare, og jeg skal have set på bl.a. opremsningskomma-reglen, jeg lavede tidligere, så den bliver fuld funktionel.

Vi (en anden udvikler og jeg) har fået defineret tags for artikler og pronomener.

Der er tilføjet mulighed for at egenavne kan have tegn i sig, som f.eks. Jeopardy! (indtil videre er kun Jeopardy! tilføjet listen - kom gerne med forslag).

Jeg har ændret ellipsis (tredobbeltpunktum) [...] og dobbeltpunktum [..] fra at betyde sætningsafslutning, med mindre bruger selv efterfølgende skriver med stort begyndelsesbogstav. Argumentation: http://sproget.dk/raad-og-regler/retskrivningsregler/retskrivningsregler/a7-40-60/a7-41-43-punktum/a7-43-prikker . Dette er nu testet, og bør virke som det skal...

Der har været nogle fejltags på ord som f.eks. "kan", som gerne skulle være fjernet.

Jeg har også opdateret wikien med tekster om de nye regler (https://wiki.documentfoundation.org/DA/LanguageTool/Regler), samt markeret de regler på wikien, som ikke er aktive mere. Jeg har fjernet/redigeret en del af de regler, jeg lavede tidligere, fordi jeg senere har fundet en fejl i dem (der kan f.eks. være en undtagelse jeg har overset, og så kan reglen ikke bruges).

Jeg har fjernet de regler jeg lavede for forkortelserne AD og BC, eftersom de ikke er danske forkortelser. Jeg har tilgengæld fundet ud af, at man nemt kan negere punktum; jeg havde blot lavet en anden logisk/syntaktisk fejl i samme regel, som gjorde det ikke compilede. Nu virker alle forkortelsesregler, der er lavet, mod at teste, om der mangler punktum. Disse kan der nu nemt laves mange flere af ved at bruge de regler jeg har lavet som skabeloner. Følgende forkortelser har en del regler til at fange stavefejl: ca., inkl., ekskl., f.eks./fx, bl.a. og f.kr.

Er begyndt at notere udviklingsguides/noter til eventuelle nye/fremtidige udviklere, så de kan starte hurtigere og nemmere med at tilføje regler og få overblik over de forskellige dele, LanguageTool består af. Vil forsøge at få alle vigtige links med, da de ikke alle lige nemme at finde.

Jeg har måtte fjerne dele af "indenfor←→inden for"-reglen, samt midlertidig inaktiveret den, idet der dels var en fejl i en del af den, dels fordi disambiguatoren skal virke, før resten af reglen fungere korrekt (fordi denne regel bruger tagget for navneord).
En artikel jeg havde læst om, at ord som "indenfor" altid skal stå i ét ord sidst i en sætning, tog desværre grueligt fejl. Det er en tommelfingerregel, men ikke en garanti. F.eks. holder den ikke her: "Det var medicin han var ekspert inden for".

Vi har diskuteret om hvorvidt en regel for, at forkortelser med slutpunktum, når de skrives sidst i en sætning eller i forbindelse med punktummer, kun skal skrives med et punktum. Dette er i forbindelse med, at man må skrive udeladelses- og tøveprikker (to og tre punktummer) i midten og slutningen af sætninger, hvorfor en sætning som "Det sagde han f.eks.." egentlig er korrekt. Det kan derfor diskuteres om det er bedst at:
 - fange fejlen med ekstra punktum ved forkortelser og derved sætte falske positiver ved sætninger lignende eksemplet.
 - undlade at fange fejlen og derved ikke fange de gange et punktum sættes for meget.
Hvad synes du?