Pijl terug Terug naar het overzicht
Opgelost
Probleem
Storing

Op deze pagina staat een overzicht van alle updates van de door jou gekozen melding. Indien de status van de melding is veranderd, kun je dit melden via support@antagonist.nl.

Algemene storing opslagplatform

Updates voor deze melding via RSS Aangemaakt: 16-09-2013, 03:35

Datum / tijd

Omschrijving

20-09-2013
10:11

Antagonist hecht waarde aan transparantie. We ervaren dat onze klanten zorgvuldige informatievoorziening erg op prijs stellen. In dat kader willen we graag het volgende met je delen. In samenwerking met de leverancier van ons opslagsysteem hebben we geanalyseerd wat de toedracht was van de storing op 16 september. Hieronder volgt een uitgebreide rapportage.

Wat is de exacte oorzaak van de storing van afgelopen maandag?
Analyse wijst uit dat het opslagsysteem door onjuist functioneren op onevenredige wijze data heeft weggeschreven naar de onderliggende harde schijven. Het onevenredig wegschrijven van data heeft een onbalans gecreëerd, met als gevolg dat ongeveer de helft van de harde schijven een stuk voller raakten dan de andere helft. Hoe voller een harde schijf, hoe meer tijd het kost om data weg te schrijven. De harde schijf moet namelijk op zoek naar lege "gaatjes" waar hij de data kwijt kan. Deze vertragingen nemen exponentieel toe naarmate een harde schijf voller raakt. Op maandag 16 september kwam dit in een stroomversnelling waardoor de performance van het opslagsysteem niet meer toereikend was.

De logica van het wegschrijven van data is een proces dat "onder water" plaatsvindt. Door een fout in deze logica is er een onbalans ontstaan. Op het niveau van de beheersoftware geeft het systeem aan hoeveel procent van de gehele opslagcapaciteit beschikbaar is, maar het systeem geeft dat niet aan op individueel niveau per harde schijf. Daardoor kwam de fout in de logica van het wegschrijven van data pas aan het licht op het moment dat de effecten daarvan duidelijk werden.

Normaliter mag je (en moet je) als beheerder vertrouwen op de informatie die het opslagsysteem verschaft. De combinatie van het onevenredig wegschrijven van data en een informatievoorziening die een vertekend beeld gaf van de werkelijkheid, heeft geleid tot de storing van afgelopen maandag.

Hoe voorkomen we deze storing in de toekomst?
Het Antagonist-team heeft onmiddellijk ingegrepen op het moment dat de performance van het opslagsysteem niet meer toereikend was. Het opslagsysteem opereert sindsdien binnen de normale parameters en met optimale performance. Om herhaling in de toekomst te voorkomen wordt de bestaande data opnieuw en evenredig verdeeld over alle schijven. We zijn in overleg met de leverancier van het opslagsysteem over hoe we dit op korte termijn kunnen uitvoeren. Uiteraard hoor je van ons zodra we hier meer informatie over kunnen delen.

Daarnaast hebben we de situatie omtrent informatievoorziening bij de leverancier aangekaart. Dankzij snel schakelen van de leverancier hebben we inmiddels wel inzage in de beschikbare capaciteit per individuele harde schijf.

16-09-2013
18:39

Het spoedonderhoud op s21 t/m s67 is inmiddels voltooid. De situatie is de rest van de middag stabiel gebleven. We houden het scherp in de gaten. Mochten we nog verdere actie ondernemen, dan zullen we dat middels dit communicatiekanaal blijven communiceren.

In de loop van de week komen we met een uitgebreidere analyse van hetgeen vandaag plaatsgevonden heeft.

Nogmaals excuses voor de overlast en bedankt voor uw vertrouwen en begrip.

16-09-2013
18:02

Het onderhoud op s42, s43, s49 en s48 is nu afgerond. Op dit moment voeren we het spoedonderhoud uit op s44, s45, s47 en s46.

16-09-2013
17:42

Het onderhoud op s40, s41, s51 en s50 is nu afgerond. Op dit moment voeren we het spoedonderhoud uit op s42, s43, s49 en s48.

16-09-2013
17:25

Het onderhoud op s38, s39, s53 en s52 is nu afgerond. Op dit moment voeren we het spoedonderhoud uit op s40, s41, s51 en s50.

16-09-2013
17:06

Het onderhoud op s36, s37, s55 en s54 is nu afgerond. Op dit moment voeren we het spoedonderhoud uit op s38, s39, s53 en s52.

16-09-2013
16:54

Het onderhoud op s31, s33, s57 en s56 is nu afgerond. Op dit moment voeren we het spoedonderhoud uit op s36, s37, s55 en s54.

16-09-2013
16:42

Het onderhoud op s29, s30, s59 en s58 is nu afgerond. Op dit moment voeren we het spoedonderhoud uit op s31, s33, s57 en s56.

16-09-2013
16:30

Het onderhoud op s27, s28, s61 en s60 is nu afgerond. Op dit moment voeren we het spoedonderhoud uit op s29, s30, s59 en s58.

16-09-2013
16:19

Het onderhoud op s24, s25, s62 en s63 is nu afgerond. Op dit moment voeren we het spoedonderhoud uit op s27, s28, s61 en s60.

16-09-2013
15:43

Het onderhoud op s23, s65 en s64 is nu afgerond. Op dit moment voeren we het spoedonderhoud uit op s24, s25, s62 en s63.

16-09-2013
15:32

Het onderhoud op s22 en s66 is nu afgerond. Op dit moment voeren we het spoedonderhoud uit op s23, s65 en s64

16-09-2013
15:07

Het onderhoud op s21 is nu afgerond. Op dit moment voeren we het spoedonderhoud uit op s22 en s66.

16-09-2013
14:58

Op dit moment voeren we het spoedonderhoud uit op s21.

16-09-2013
14:47

Tijdens de problemen van vanmorgen op ons storage platform zijn we op een bug in MySQL gestuit op server s21 t/m s67. Deze bug zorgt ervoor dat bij een geforceerde reboot van een server, de datafiles van MySQL ‘gelocked’ blijven. MySQL kan hierdoor er niet van lezen en naar schrijven.

Om dit probleem op te lossen, zodat het niet meer terug kan komen, gaan we spoedonderhoud uitvoeren. Dit onderhoud houdt in dat de data van MySQL op een andere locatie opgeslagen gaat worden (een locale disk, i.p.v. een NFS share). Hiervoor zal MySQL op de servers s21 t/m s67 naar verwachting 10 tot 15 minuten uitgeschakeld moeten worden. Dit is nodig om datacorruptie te voorkomen. Met dit onderhoud moeten we nu gelijk beginnen, om te voorkomen dat bij een eventuele volgende klap van het storageplatform we niet het risico willen lopen dat we opnieuw veel tijd kwijt zijn aan het herstellen van MySQL.

Via dit communicatiekanaal zullen we je op de hoogte houden welke servers er op dat moment aan de beurt zijn. Onze excuses voor deze overlast, mocht je vragen hebben, stel ze dan gerust via support@antagonist.nl.

16-09-2013
14:45

De status omtrent MySQL is momenteel als volgt:

MySQL functioneert momenteel op de volgende servers zeker goed:
s21 t/m s45
s68+

MySQL functioneert momenteel op de volgende servers grotendeels goed:
s46 t/m s67

16-09-2013
14:04

De status omtrent MySQL is momenteel als volgt:

MySQL functioneert momenteel op de volgende servers zeker goed:
s21 t/m s38
s68+

MySQL functioneert momenteel op de volgende servers grotendeels goed:
s39 t/m s67
s135

16-09-2013
13:36

De status omtrent MySQL is momenteel als volgt:

MySQL functioneert momenteel op de volgende servers zeker goed:
s21 t/m s36
s68 t/m s130

MySQL functioneert momenteel op de volgende servers grotendeels goed:
s37 t/m s59
s131+

MySQL functioneert momenteel op de volgende servers niet goed:
s60 t/m s67

16-09-2013
12:58

De status omtrent MySQL is momenteel als volgt:

MySQL functioneert momenteel op de volgende servers zeker goed:
s21 t/m s24
s68 t/m s125
s127
s129

MySQL functioneert momenteel op de volgende servers grotendeels goed:
s25 t/m s48
s125+

MySQL functioneert momenteel op de volgende servers niet goed:
s49 t/m s67

16-09-2013
12:39

Op dit moment is de performance van het storageplatform op een acceptabel niveau gekomen. Ondertussen zijn we bezig om alle dienstverlening weer te herstellen. Met name de MySQL databases zijn op een aantal servers nog niet volledig operationeel.

MySQL functioneert momenteel op de volgende servers zeker goed:
s21 t/m s22
s68 t/m s123

MySQL functioneert momenteel op de volgende servers grotendeels goed:
s23 t/m s39
s124+

MySQL functioneert momenteel op de volgende servers niet goed:
s40 t/m s67

E-mail en websites (buiten SQL-functionaliteit) zijn over het algemeen op dit moment weer goed bereikbaar.

Middels dit communicatiekanaal houden we u op de hoogte over de voortgang van de oplossing van deze storing.

16-09-2013
10:59

Op dit moment is onze leverancier van het storageplatform nog bezig met een analyse om te achterhalen wat de exacte oorzaak is van de performance degradatie.

Tegelijkertijd ondernemen we actie op een aantal mogelijke oorzaken waarvan nog niet met 100% zekerheid vastgesteld is dat het daadwerkelijk de oorzaak is. Desalniettemin grijpen we alles aan dat we aan kunnen grijpen om de performance degradatie zo spoedig mogelijk te verhelpen.

U als klant ervaart de performance degradatie op dit moment als slecht of geheel niet bereikbaar zijn van uw website, het slecht of geheel niet bereikbaar zijn van uw e-mail en/of het slecht of geheel niet bereikbaar zijn van uw MySQL-databases. Met andere woorden, een storing aan het storageplatform heeft effect op alle facetten van onze dienstverlening. U zult ook merken dat met vlagen alles naar behoren functioneert. De storing is echter pas opgelost op het moment dat we de storing via dit communicatiekanaal afmelden. Over de aflevering van uw e-mail hoeft u zich geen zorgen te maken, deze zal uiteindelijk allemaal alsnog afgeleverd worden.

We zijn ons terdege bewust van de impact die deze storing heeft op onze dienstverlening. We werken er met 200% aan om het probleem zo spoedig mogelijk te helpen. Middels dit communicatiekanaal houden we u zo frequent mogelijk op de hoogte van ontwikkelingen in het oplossen van deze storing.

Bedankt voor uw vertrouwen en geduld. Onze excuses voor de overlast die u op dit moment ervaart.

16-09-2013
09:27

Dit probleem lijkt zich er diep in het storage platform te bevinden. We zijn samen met de leverancier hiervan aan het onderzoeken waar dit probleem vandaan komt.

16-09-2013
08:28

Het lijkt erop dat de storing zich momenteel herhaalt. We houden dit nauwlettend in de gaten.

16-09-2013
06:43

Een gevolg van de storing is dat MySQL momenteel op vele servers niet bereikbaar is. We werken er aan dit geleidelijk weer op alle servers te repareren.

16-09-2013
05:59

Na een tijd van onderhoud en monitoring draait nu vrijwel elk onderdeel van ons platform weer. Een deel van onze tijd besteden we nu nog steeds aan het analyseren van het probleem om zekerheid te krijgen dat we inderdaad de juiste oorzaak aanwijzen en herhaling kunnen voorkomen.

16-09-2013
04:18

Nadat er delen uitgeschakeld zijn, wordt er inmiddels weer gericht gewerkt aan het opnieuw inschakelen van alle onderdelen. Het verschilt per server hoe lang deze onbereikbaar zal blijven.

Onze excuses voor het aanhoudende ongemak.

16-09-2013
03:51

Er wordt gewerkt aan het selectief uitschakelen en opnieuw inschakelen van delen van ons platform in een poging de belasting terug te brengen.

16-09-2013
03:36

We ondervinden op dit moment snelheidsproblemen op ons storageplatform. We zijn druk bezig met onderzoeken en oplossen hiervan. Excuses voor het ongemak.