Loading…
Tilbage

Debatoplæg: Overblik eller mangel på samme på Digitalisér.dk


11-10-2009 11:57:05

Motivation

Jeg er næppe den eneste, der har mere end almindelig svært ved at danne mig et overblik over indholdet på Digitalisér.dk. Dette oplæg argumenterer for, at det princip man har valgt for (selv)organisering af ressourcer ikke fungerer i praksis, og hvad man burde gøre i stedet.

Overblik?

Visning af alle ressourcer og deres tags i gruppen "Offentlige data i spil - initiativet"

Ovenstående viser alle ressourcers tags i gruppen "Offentlige data i spil - initiativet". Dette er den eneste måde at vise en form for overblik over de mere end 900 ressourcer, der findes i gruppen.

I profilen på en tilsvarende gruppe (måske en forløber) skriver Finn Jordal blandt andet:

"Gruppen er oprettet, så vi ved fælles hjælp kan få et større overblik over de offentlige data, der er til rådighed til vores mashups, datavalidering, analyser osv."

Det er påstanden i dette debatoplæg at den valgte organisering af indholdet på Digitalisér.dk (DDK) er helt utilstrækkelig i forhold til at give brugerne det ønskede overblik.

Indhold og dets organisering på DDK

DDK er blandt andet en database med en masse forskelligt indhold. I flæng kan nævnes en række indholdstyper:

  • Nyheder
  • Grupper
  • Begivenheder
  • Ressourcer (datakilder, generisk, m.fl.)
  • Debat
  • Osv.

Indholdet er organiseret i nogle overordnede kategorier, som enten svarer direkte til en bestemt indholdstype (ressource, gruppe, netværk, bruger) eller som grupperer en række underordnede indholdstyper (ressourcetyper, datakilder, evt. flere).

Der er flere måder, hvorpå man kan kategorisere indhold på DDK:

  • Tags
  • ITST-Klassifikationer (på særlige indholdstyper)
  • FORM (Forretningsreferencemodellen)

Umiddelbart er tags den mest tilgængelige form for kategorisering. ITST-klassifikationerne gælder kun helt særlige indholdstyper, og FORM-klassifikationen er der næppe pt. særlig mange brugere, der forstår at bruge korrekt. Derudover er det spørgsmålet om FORM-kategorierne nødvendigvis meningsfuldt kan bruges på samtlige ressourcer på DDK, og om FORM i det hele taget giver en brugbar segmentering af ressourcerne.

Tags som organiserende princip (folksonomy)

Tags er en form for stikord, som brugerne har mulighed for at tilknytte indholdet på DDK. Idéen med tags, er at man regner med, at brugerne af sig selv med tiden vil anvende de samme stikord til at beskrive relateret indhold, og at indholdet dermed langsomt bliver kategoriseret af brugerne selv uden behov for hverken en på forhånd defineret taksonomi eller sæt af kategorier og uden behov for, at der afsættes seperate ressourcer fra DDK's side til at holde orden på indholdet.

Dette selvorganiserende princip har fået kælenavnet "Folksonomy", og er blandt andet drivende for det populære sociale bogmærkenetværk Delicious.com.

Problemer med tags

Som organiserende princip er der mange problemer med tags:

  • Sproget er flertydigt, hvilket eksempelvis betyder, at det samme stikord anvendt af to forskellige brugere, kan betyde to vidt forskellige ting

Tag for eksempel  tagget "fisk", der er anvendt på en række dokumenter i gruppen ODIS, herunder "Resultater af kontrollen med læggekartofler" samt "Miljøgodkendelser/tilladelser". Der menes næppe det samme med ordet "fisk" i disse to sammenhænge, og man kan i det hele taget undre sig over anvendelsen af tagget på førstnævnte (og flere andre) ressource.

Når et tag på den måde er flertydigt (og måske direkte misvisende anvendt i forhold til gennemsnitsbrugerens forventninger om dets betydning), er det åbenlyst ubrugeligt i forhold til at give brugeren noget som helst overblik, fordi vedkommende alligevel er nødt til at se hver enkelt ressource igennem for at finde ud af, hvad den faktisk handler om.

  • Tags er ikke hierarkiske, hvilket mindsker muligheden for at skabe overblik med over/underordningsrelationer

En helt oplagt måde at skabe overblik over de 900+ ressourcer ville have været én eller form for hierarkisk emneinddeling, der ville have givet brugerne et langt bedre overblik over indholdet end den mere eller mindre tilfældige liste af stikord, der vises pt. Sådan en inddeling er ikke mulig med tags.

  • Tags er prædikatløse, dvs. det er ALENE muligt at udtrykke, at et givent stikord er relevant i forhold til noget indhold, men det er ikke muligt at udtrykke, HVORDAN det er relevant.

Her kan vi tage fat i fiskeeksemplet igen. Det kunne have været meget relevant for brugeren at få at vide på hvilken måde ordet "fisk" karakteriserede ressourcen "Metodeliste - gødning Kalk". Denne oplysninger er ikke tilgængelig (og ikke mulig at tilføje) og brugeren er derfor tvunget til at se samtlige ressourcer tagget "fisk" igennem for at se om det svarer til vedkommendes egen brug af ordet.

Hvad kan tags?

Tags kan i hvert fald IKKE bruges til at give brugerne overblik, som illustreret allerede.

En begrænset nytte har tags for den enkelte bruger, fordi man selvfølgelig selv må formodes at vide, hvad man mener med et tag, og på den måde er man i stand til at konstruere sin egen tag-systematik, som er til at finde rundt i, problemet er bare, at så er der ingen netværkseffekt, og man kan ikke drage nytte af andres kategoriseringsarbejde, men som en simpel bogmærkefunktion er det da brugbart.

Tilbage er der tags funktion i forhold til søgning.

Tags primære funktion på DDK synes at være, at de gør det muligt for brugerne at "booste" deres indhold i forhold til den overordnede søgning, for på den måde at gøre reklame for ens indhold i forhold til en given søgning. Dvs. at hvis man ønsker, at brugerne skal se ens indhold, hvis de skriver et givent ord, så anvender man dette ord som tag for sit indhold. Dette forudsætter naturligvis, at søgemaskinen prioriterer match på tags højere end match på indhold.

Taksonomier og klassifikationssystemer på DDK

Ud over tagging er der som nævnt på DDK også mulighed for at anvende kategorier fra på forhånd definerede taksonomier og klassifikationssystemer.

Førstnævnte gælder de særlige ressourcetyper "datastandard", der kan klassificeres i forhold til OIOXML-godkendelsesniveauer, m.m., samt  "teknisk standard", der kan klassificeres i forhold til en særlig teknisk standard-taksonomi.

Sidstnævnte gælder generelt for alle ressourcetyper, som kan klassificeres i forhold til FORM, der IKKE er en taksonomi, men snarere et emneinddelt katalog over opgaver og  tjenester indenfor det offentlige.

Det pudsige er, at selv om man således har mulighed for at klassificere efter på forhånd givne kategorisystemer, så er det ikke muligt at se indholdet af DDK inddelt på klassisk manér efter disse. I stedet har man valgt at udvide den klassiske tagvisningsfunktionalitet med en særlig form for tags, som dublerer/spejler kategoriseringen og som opfører sig lidt anderledes end andre tags:

De grå tags på figuren er ikke rigtige tags, men afspejler en taksonomisk baseret klassifikation af ressourcen.

Jeg tvivler på, at særlig mange brugere har gennemskuet denne skjulte funktionalitet, som i øvrigt stadigvæk er mangelfuld i forhold til en almindelig taksonomisk inddelt visning, der rent faktisk ville vise hierarkiet som et hierarki og ikke en éndimensionel liste af (kunstige) tags.

I parantes bemærket så spejles FORM-kategoriseringen vist ikke som tags i øjeblikket, hvilket vel egentlig fjerner den allersidste motivationsfaktor i forhold til, at få brugerne til at FORM-opmarkere, men det er forhåbentlig bare et spørgsmål om, at funktionen endnu mangler at blive udviklet.

Nye indholdstyper som løsning?

Det er sjovt at se, hvordan DDK, der til at begynde med havde en ambition om, at man bare skulle have én generisk indholdstype (ressourcen), og så skulle taggingen tage sig af resten, nu alligevel knopskyder nye mere specifikke indholdstyper (f.eks. begivenhed og datakilde). Det virker som en lappeløsning på et mere grundlæggende designproblem.

Problemet for DDK er, at hvor man har anvendt de nyeste principper i selve udviklingsprocessen, så har man til gengæld anvendt en meget gammeldags måde at implementere systemet som et lukket silosystem, hvor enhver ændring og konfiguration er systemleverandørafhængig og derfor unødigt omkostningstung, og hvor ingen gensidig databerigelse i forhold til omverden er mulig.

Som eksempel kan nævnes, at hver gang man vil have en ny indholdstype, skal leverandøren på banen, og det koster penge. Det samme gælder, når man vil give de specielle indholdstyper specielle attributter, så man også på den måde mere systematisk kan styre og få overblik over indholdet i DDK-databasen. Også her koster det penge hver gang, hvilket i den grad hæmmer en nødvendig og brugbar specialisering på ressourceniveau, ud over at brugerne selv sagt ingen mulighed har for at deltage i denne proces.

What to do?

ODIS er en glimrende case. Man har alle de rigtige ambitioner, men DDK-systemet tilbyder ikke de rette værktøjer til at sikre det overblik, som det ellers burde være muligt at opnå ved at slippe en stor gruppe mennesker løs på opgaven med at indsamle og ordne datakilder.

  • Først og fremmest er det hverken med metadata (tags) eller attributter (på indholdstypen) muligt at specificere i et maskinlæsbart format, hvilke data en given ressource stiller til rådighed og hvordan.
  • Sekunddært lægges der ikke op til nogen systematisk kategorisering, som ville muliggøre overblikket over de mange datakilder, der allerede er lagt ind.

Det, som der er brug for, er et sprog, der er tilpas generelt til at kunne håndtere opmærkning af en give datakilde i forhold til hvilke klasser og attributter, som datakilden stiller til rådighed, og her findes der kun ét fornuftigt valg, og det er RDF/OWL.

RDF/OWL er med sit mere generelle dataformat, med mulighed for at definere maskinlæsbar semantik, opmærke html (via RDFa), m.v., det oplagte valg (i modsætning til f.eks. XML-skema, som ikke kan nogen af delene) til at opmærke sådan noget som datakilder i ODIS. Det kunne enten ske eksternt i forhold til de nævnte datakilder, og så skulle sproget være understøttet på DDK, eller internt om muligt på de enkelte datakilder.

DDK kunne understøtte brugen af RDF/OWL ved at gøre det muligt at tilknytte RDF/OWL til de enkelte ressourcer OG definere et særligt DDK-vokabular, som gjorde det muligt for DDK at inddrage data fra RDF/OWL-vedhæftninger direkte i indekseringen til søgemaskinen, i tags, i taksonomiske oversigter (som man selvfølgelig bør indføre), m.v. Ligeledes burde DDK udstille sine data i RDF-format, således at det var muligt for eksterne parter at berige data udefra, så DDK på den måde ikke længere var en silo men en del af det større web-økosystem af data.