Mens vi venter på en opdatering af REST API'et til Digitaliser.dk,
har jeg lavet denne lille simple scraper, som indsamler info for alle
datakilder vist under "Datakilder"-fanen.
Scraperen er implementeret i C# i Visual Studio 2008. Hele projektet
er vedlagt zippet og kræver . .NET Framework 2.0 er påkrævet.
Selve scraper-funktionaliteten ligger i Scraper.cs. Kald den statiske
metode LoadDataSources med parameter-angivelse om man ønsker
form-noder med eller ej. Resultatet returneres i en XML-fil, som
overholder strukturen i det vedlagte XML-skema. Bemærk at strukturen i
XML-skemaet er hurtigt hjemmestrikket til formålet og afspejler ikke
nogen fremtidig struktur på Digitaliser.dk.
Der er lavet en simpel UI, som viser hvordan scraperen kan anvendes.
Tryk på "Scrape"-knappen og vent til "Save
Result"-knappen bliver aktiveret. Et tryk på denne knap giver
mulighed for at gemme resultatet i en XML-fil.
Checkboksen "Include Form Nodes" sættes, hvis man ønsker at
få hver datakildes FORM-klassifikation med i XML-filen. Det tager så
længere tid at scape.
God fornøjelse.
Filer og referencer