Atlassian: Schlechte Team-Absprache und falsches Skript schuld an Cloud-Ausfall

Fehler in der internen Kommunikation und ein falsches Skript waren die Auslöser des Ausfalls, sagt Atlassian – und erklärt, warum die Recovery noch andauert.

175

(Bild: Min C. Chiu/Shutterstock.com)

13.04.2022, 13:23 Uhr

Lesezeit: 3 Min.

iX Magazin

Von

Jonas Volkert

Atlassian: Schlechte Team-Absprache und falsches Skript schuld an Cloud-Ausfall

Atlassian hat einen Blog-Post veröffentlicht, in dem CTO Sri Viswanath die Ursachen für den Ausfall der Cloud-Tools des Anbieters bei einem Teil der Kundschaft ausführlich erklärt. Neben der bereits bekannten Probleme beim Ausführen des Skripts sollen auch interne Kommunikationsprobleme Schuld gewesen sein. Auch der offenbar komplexe Wiederherstellungsprozess wird beschrieben – und liefert eine erste Erklärung dafür, warum der Prozess wie angekündigt noch zwei Wochen dauern könnte.

Fehler beim Löschen alter Standalone-Instanzen

Der Fehler sei infolge der inzwischen nativen Integration des Jira-Dienstes "Insight - Asset Management" in die Produkte des Herstellers entstanden. Im Rahmen des Umstellungsprozesses habe man die noch installierten Legacy-Standalone-Varianten von "Insight" deaktivieren wollen, erklärt Atlassian im Blogpost.

Dafür nutzte das Team ein vorgefertigtes Skript. Im Vorfeld sei es dabei aber zu einem internen Absprachefehler gekommen: Das Team, das die Deaktivierung durchführen sollte, habe falsche Angaben von dem Team erhalten, das den Prozess geplant habe. Statt nur die IDs für die betroffenen Insight-Instanzen habe man die IDs für die gesamten Cloud-Instanzen weitergegeben, auf denen die Standalone-App installiert war.

Zudem sei das verwendete Skript nicht für den Einsatz geeignet gewesen: Neben einer "mark for deletion"-Funktion ("Zum-löschen-markiert"), die das Wiederherstellen entfernter Daten erlaubt, habe es auch über einen "permanently delete"-Funktion ("Dauerhaft löschen") verfügt, die man eigentlich nur für das Erfüllen von Compliance-Regeln benötigt. Beim Ausspielen des Skriptes habe man dann aber letzteren Modus ausgeführt und damit die Daten von 400 Kunden permanent gelöscht.

Aufwendiger Wiederherstellungsprozess

Zwar pflege man Datenmanagement-Backups in mehreren AWS-Availability-Zonen. Auf diese Backups habe man in der Vergangenheit aber nur für die Wiederherstellung einzelner Datenpunkte zurückgreifen müssen, wenn etwa Kunden aus Versehen selbst ihre Daten gelöscht hatten. Für das Wiederherstellen mehrerer Datensätze auf einmal sei der Prozess bislang nicht ausgelegt gewesen.

Der Recovery-Prozess sei zudem komplex und erfordere unter anderem die 1-zu-1-Kommunikation mit den Betroffenen – damit dauere die Wiederherstellung für Einzelaccounts bis zu fünf Tage. Inzwischen will das Unternehmen den aufwendigen manuellen Prozess aber stärker automatisiert haben und so in der Lage sein, bis zu 60 Fälle parallel zu bearbeiten.

Vorfall hat "Vertrauen untergraben"

Der Vorfall und auch die Reaktionszeit des Unternehmens entsprächen dennoch nicht den eigenen Ansprüchen, so CTO Sri Viswanath im Blopost weiter: "Wir wissen, dass Vorfälle wie dieser das Vertrauen untergraben können". Deshalb wolle man sowohl einen weiteren, ausführlicheren Post-Incident-Report erstellen als auch an der Kommunikation nach außen arbeiten und künftig tägliche Statusupdates bereitstellen.

Bereits seit letztem Dienstag haben Teile der Atlassian-Kundschaft keinen Zugriff mehr auf beliebte Cloud-Tools des Anbieters wie Jira und Confluence. Am gestrigen Dienstag hatte das Unternehmen erklärt, dass die Ausfälle für einzelne Teams wohl noch bis zu zwei Wochen andauern könnten. Stand 13. April sei das Problem erst für 45 Prozent Betroffenen gelöst worden.