Loading…
Tilbage

ODIS: Automatisk indsamling af og søgning i semistrukturerede offentlige datakilder


15-11-2009 12:46:20

Denne idé drejer sig om at skabe en fælles offentlig database af sammenhængende og strukturerede data lidt i stil med ODIS-initiativet, men baseret på større fleksibilitet, præcision og automatik.

Forudsætningen for en fælles database er dels, at det i det hele taget er muligt at publicere strukturet information til databasen, dels at det kan ske på en måde, så man kan genbruge og pege på information, der allerede er publiceret, og endeligt at det er nemt at foretage publiceringen.

1. Hvad er produktet?
Det primære produkt er en semantisk database indeholdende strukturerede offentlige data høstet direkte fra offentlige hjemmesider og lignende indholdstjenester. Det sekundære produkt er en hjemmeside, som udstiller de indsamlede data struktureret og semantisk søgbart. Evt. kan databasen integreres i eksisterende offentlige portaler.

2. Hvordan fungerer produktet?
Databasen får sit indhold fra en semantisk crawler, der indsamler semantisk opmarkeret indhold fra tilmeldte web sites og evt. andre datakilder. Fordelen med en semantisk crawler-baseret tilgang til dataindsamlingen er, at indholdsleverandørene ikke behøver at skulle omforme deres data i forhold til en bestemt på forhånd defineret skabelon. De kan bruge deres egne standarder eller opbygge metastandarder i fællesskab med andre. I praksis vil man formentlig se en række standarder blive opbygget organisk og iterativt både bottom-up og top-down, men fremfor alt uden behov for central styring og 100% deltagerstyret og dermed motiveret.

3. Hvad består produktet af?
Produktet består af en semantisk database (tripple store), en semantisk crawler og evt. en hjemmeside, som udstiller data i intuitive navigationsstrukturer, på kort og via andre relevante visualiseringsmetoder.

4. Hvilke datakilder skal bruges?
Idéen sigter primært på at høste struktureret information fra offentlige hjemmesider, der ikke i sig selv er maskinlæsbare. Idéen med produktet er, at det gør det muligt for en offentlig myndighed samtidig med, at man publicerer information til mennesker på sin hjemmeside også kan publicere den samme information i maskinlæsbart format. Dette vil i mange sammenhænge både gøre det muligt at udstille information som den pågældende medarbejder ellers ikke kan udstille i maskinlæsbart format overhovedet, samt være med til at spare tid og penge i forhold til, at der ellers skulle teknikere på banen for at udvikle webservices, m.m.

5. Hvem vil bruge produktet?
Servicen henvender sig både til borgere og til medarbejdere i det offentlige idet, det vil give et enestående indblik i information fra det offentlige på tværs af de mange forskellige myndighedstyper. Alle parter vil både kunne bidrage som indholdsleverandører og aftagere af information, men den helt store fordel er, at man i fælleskab kommer til at opbygge et fælles maskinlæsbart sprog til at tale om og formidle disse data. Endelig kommer denne tilgang til publicering af maskinlæsbare data til at spare myndighederne for ganske betydelige udviklingsomkostninger i forhold til alternativet, der vil involvere i forvejen hårdt belastede udviklingsfolk, programmører og andet teknisk personale.