Loading…
Tilbage

Data Source Scraper til Digitaliser.dk


31-08-2010 14:25:11

Mens vi venter på en opdatering af REST API'et til Digitaliser.dk, har jeg lavet denne lille simple scraper, som indsamler info for alle datakilder vist under "Datakilder"-fanen.

Scraperen er implementeret i C# i Visual Studio 2008. Hele projektet er vedlagt zippet og kræver . .NET Framework 2.0 er påkrævet.

Selve scraper-funktionaliteten ligger i Scraper.cs. Kald den statiske metode LoadDataSources med parameter-angivelse om man ønsker form-noder med eller ej. Resultatet returneres i en XML-fil, som overholder strukturen i det vedlagte XML-skema. Bemærk at strukturen i XML-skemaet er hurtigt hjemmestrikket til formålet og afspejler ikke nogen fremtidig struktur på Digitaliser.dk.

Der er lavet en simpel UI, som viser hvordan scraperen kan anvendes. Tryk på "Scrape"-knappen og vent til "Save Result"-knappen bliver aktiveret. Et tryk på denne knap giver mulighed for at gemme resultatet i en XML-fil.

Checkboksen "Include Form Nodes" sættes, hvis man ønsker at få hver datakildes FORM-klassifikation med i XML-filen. Det tager så længere tid at scape.

God fornøjelse.

Filer og referencer

Titel Type
ScraperVS2008.zip application/octet-stream
DigDkDataSources.xsd text/xml