Loading…
Tilbage

DAWA driftnedbrud - vigtig information til anvendere af replikerings API'et


DAWA har haft et driftsnedbrud startende kl. 9 i dag.

Kl. 9.20 var DAWA kørende på en tidligere version af DAWA, som ikke rummede de nye faciliteter: adgangspunkternes højder og vejstykkernes geometri.  Replikerings API'et var endvidere disablet.

Kl. 10.50 er DAWA kørende på seneste version med adgangspunkternes højder og vejstykkernes geometri. adgangspunkternes højder og vejstykkernes geometri. 

Kl. 11 blev replikerings API'et enablet.

Fejlen er desværre af sådan en karakter, at vi har været nødt til at genindlæse vores database fra en backup, som er ca. 1 time gammel. 

Dette har konsekvenser for anvendere af replikerings-API'et. Efter indlæsning af databasebackupen dannes nye hændelser, men de nye ændringer sker ikke i samme rækkefølge som de tidligere, allerede udsendte hændelser. Det giver anledning til, at sekvensen af hændelser ændrer sig.  

Dermed er der risiko for at der kan opstå fejl:

  • Klienten modtager en hændelse, som klienten allerede har modtaget, men med et andet sekvensnummer
  • Klienten modtager ikke en given hændelse, fordi hændelsen har fået et andet sekvensnummer, som klienten allerede har proces'eret. 

Det er derfor nødvendigt, at anvendere af replikerings-API'et håndterer dette problem. Den sikreste løsning er at indlæse et nyt udtræk og starte replikeringen efter dette udtræk. 

Vi beklager de gener som driftsnedbruddet medfører for vores anvendere, og vi vil lave tiltag, der minimerer risikoen for en gentagelse.

Mvh.
Finn 

Profilbillede

Årsag til DAWA's driftsnedbrud

Finn Jordal

DAWA's driftssetup består af to identiske driftsmiljøer, som vi via DNS-ændring skifter mellem, når vi frigiver en ny version af DAWA. På denne måde undgår vi at at have servicevinduer, og undgår derved at vi ulejliger DAWA's anvenderne med nedetid. 

I tirsdag frigav vi en ny version af DAWA. Det inaktive driftsmiljø skulle så efterfølgende opdateres til gældende version. Under dette arbejde med opdatering af det inaktive miljø blev det ved en fejl udført på det aktive miljø (produktionssystemet). Det medførte, at produktionssystemet blev tømt for data og måtte reetableres fra en backup.

Vi gennemgå nu vores procedurer og scripts, så de bliver bedre til at forebygge sådanne fejl  i fremtiden.

Mvh.
Finn 

Det var da kedeligt at høre.

Er det sådan at I har et sikkert undertal for sekvensnumre der er påvirket?

Altså således at man kan 'skælle af' i sit eget system til fx 2050000 (2016-06-01), og så køre fremad derfra?

Det gør jo ikke så meget hvis det er lidt for langt tilbege, men der er jo omvendt ingen grund til at belaste jeres server(e) ved at køre alt for langt tilbage...

Mvh
Eske Rahn

Hej Eske,

Det er tilstrækkeligt at gå tilbage til sekvensnummer 2056574, som er det sekvensnummer backup'en blev indlæst med.

Mvh.

Anders

Hej Anders.

Tak for hurtigt svar.

:)