AdobeStock, Valentino Sani

Lernen aus einem Beinahe-Desaster mit Ceph

Wieder eingereiht

Michael Prokop

Gut, wenn man größere Ausfälle ohne Datenverlust und Geschäftsunterbrechung übersteht. Doch die Erkenntnis daraus ist immer dieselbe: Je besser die Vorbereitung, desto kleiner das Desaster.

An einem Freitagabend, im Wartungsfenster für die IT-Infrastruktur eines Kunden, stand das Upgrade eines Ceph-Clusters nach vorliegender Checkliste auf dem Plan. Das Test-Upgrade ebenso wie vergleichbare Upgrades bei anderen Kunden waren bereits mehrfach erfolgreich durchgelaufen. Aber an diesem Abend, auf diesem System lief nichts nach Plan: Von 36 Platten im Ceph-Cluster fielen 33 aus.

Das betroffene System ist ein hyperkonvergenter Cluster mit Proxmox Virtual Environment und Ceph, es kombiniert also Hypervisor und Software-defined Storage auf einem Cluster. Er besteht aus drei Debian-Servern, genannt server1, server2 und server3, die auf Proxmox VE v5 mit Debian 9 und Ceph Luminous v12.2.13 laufen. Jeder Knoten verfügt über 12 Festplatten für den Einsatz als Ceph-OSDs mit insgesamt 65 TByte (siehe Abbildung 1).