iX 5/2020
S. 72
Review
Storage

HPEs Primera im Test

Miss 100 Prozent

Hubert Sieverding

HPE garantiert 100 Prozent Verfügbarkeitfür seine Enterprise-Storage-Systeme der neuen Primera-Serie. Bei solch vollmundigen Versprechen führt kein Weg am iX-Labor vorbei.

Die letzten 100 Prozent Verfügbarkeit, die durch die Presse gingen, hatten nicht lange Bestand. Wenn es nach HPE geht, stünden zumindest die auf einem Primera Storage abgelegten Nachrichten zu 100 Prozent zur Verfügung (siehe Kasten ?Das 100-Prozent-Versprechen“). Die Modelle der neuen Storage-Array-Familie Primera starten in der K?nigsklasse des Tier-0-Speichers für Fibre--Channel-SANs. Dort positioniert HPE sie gegen traditionellen High-End-Speicher und schraubt den Ma?stab für Ausfall-sicherheit und Leistung gleich ein wenig h?her. Deshalb hat sich iX das handliche System Primera 630 ins Labor geholt und die gro?e Primera 670 remote getestet. Aber auch ohne HPEs kernige Werbeaussagen haben die Systeme einige pfiffige Techniken parat.

Steht die Zuverl?ssigkeit im Fokus, zieht der Tester als Erstes den Stecker, im Fall der von HPE gelieferten Primera 630 sogar beide. Verdutzt stellt er fest, dass dies dem System nichts auszumachen scheint. Das Zauberwort hei?t Redundanz und gilt bei der Primera für alle Ressourcen und Komponenten bis auf die Backplane. Diese enth?lt allerdings keine aktiven Bauteile, die Wahrscheinlichkeit eines Ausfalls ist extrem gering.

Um die Ressourcen redundant auszulegen, hat HPE zu zwei Tricks gegriffen. Der erste Trick wiegt schwer in der Hand, wenn man eines der beiden 800-Watt-Netzteile der 630 herauszieht. Statt der von Servern gewohnten drei Pfund sind es beim HPE satte 10 bis 12?kg. Ohne es zerlegen zu müssen, wei? der Tester, dass der Hersteller Akkus integriert hat. Dies ist ideal für KMU. Um einen Datenverlust zu vermeiden, ist nicht unbedingt eine Notstromversorgung notwendig. Das System hat binnen der überbrückten Minute reichlich Zeit, alle Cache-Inhalte auf SSDs oder Festplatten zu schreiben.

Der zweite Trick, n?mlich die Ressource Speicher m?glichst optimal redundant zu halten, geht tiefer, als einzelne Laufwerke zu einem RAID-Set zusammenzufassen. Jedes Laufwerk ist in 1?GByte gro?e Bl?cke, Chunklets genannt, aufgeteilt. Aus 6?+?2 oder 10?+?2 Chunklets wird ein eigenes RAID-6-Set mit zwei Parit?ts--Chunklets, genannt Logical Disk (LD). Beim Ausfall eines Laufwerks ist die -Wiederherstellung bei Weitem nicht so kr?fte-zehrend wie bei der klassischen Ausführung eines RAID-6-Sets mit ganzen Festplatten. Angenehmer Nebeneffekt: Der Steckplatz eines Laufwerks spielt keine Rolle. Im Test wurden die SSDs aus unterschiedlichen Slots durchgetauscht, ohne dass es Auswirkungen auf die Verfügbarkeit oder Performance hatte.

Mustergültiger F?deralismus

Die Vorderseite der 2U hohen Primera 630 fasst drei Gruppen à acht senkrechte Hot-Swap--Einschübe für 2,5"-Drives. Die rechte Gruppe ist bereits für NVMe-Laufwerke ausgelegt, obwohl HPE noch keine NVMe-Medien für die Primera anbietet.

Mit maximal fünf Erweiterungseinheiten vom Typ Primera 600 2U24 Drive Enclosure kann man die Zahl der SSDs auf 144 erh?hen. Wer es langsamer und günstiger angehen m?chte, kann neun dieser JBODs anschlie?en und insgesamt 240 HDDs einbinden. Da kommt eine Menge Speicher zusammen, die die zwei Con-trollerknoten verwalten müssen. Diese zieren die Mitte der Rückseite der Primera 630, jeweils links und rechts begleitet von den Netzteil-Akku-Kombinationen, von denen bereits die Rede war. Einen Controllerknoten kann man im laufenden Betrieb ohne Beeintr?chtigung herausziehen. Dabei trennt man einen Niedervolt-Stromversorgungsstecker und fünf vielpolige Signalverbinder von der Backplane. Nach dem Anheben des Metall-deckels der Controllereinheit erkennt man eine CPU vom Typ Intel Skylake mit 10 Kernen samt acht DDR4-RDIMM-Riegeln mit insgesamt 128 GByte. Das Betriebssystem haust auf einem NVMe-Boot-Laufwerk mit M.2-Anschluss.

Hilfe bekommt die CPU durch HPE--eigene Primera-ASICs. Sie überneh-men?– on the fly – die RAID-Parit?tsberechnung, erkennen Bl?cke mit Nullen, berechnen die Prüfsumme eines Datenstroms und vergleichen zwei Datenbl?cke auf Identit?t. Die Primera-ASICs sind dort auf der Controllerplatine stationiert, wo Daten seriell ausgetauscht werden, also zwischen den Host-Ports und der CPU sowie auf dem Kommunikationspfad zum Nachbarknoten.

Die ASICs kontrollieren und organisieren den Datenfluss und bilden damit gewisserma?en die Zollstationen jedes Controllers – ohne die CPU zus?tzlich zu belasten. Die gr??eren Primera-Modelle 650 und 670 verfügen über vier Controllerknoten und setzen daher zwei zus?tzliche ASICs ein, zumal alle vier Knoten direkt miteinander vernetzt sind. Zudem meistern deren Controller die Mehrbelastung durch eine doppelte CPU-Ausstattung und mehr RAM – bis zu einem TByte. Dafür steuern sie aber auch jeder bis zu 12 FC-Ports und vier oder acht externe SAS-Ports für bis zu 38 JBODs insgesamt (siehe Tabelle ?Modelle der Primera-Familie“).

Modelle der Primera-Familie
Modelle Primera 630 Primera 650 Primera 670 600 2U24 Drive Enclosure
Einbauh?he in Rack-Einheiten 2 4 4 2
Netzteile 2 × 800 Watt 2 oder 4 × 1700 Watt 2 oder 4 × 1700 Watt 2 × 500 Watt
Anzahl Controllerknoten 2 2 oder 4 2 oder 4 2 (SAS-Expander)
CPUs pro Controllerknoten 1 2 2
Cache 128 GByte 256 GByte 512 GByte oder 1?TByte
Service-Ports 2 2 oder 4 2 oder 4 2
FC-Hosts-Ports pro Knoten 4 oder 8 4, 8 oder 12 4, 8 oder 12
10 GE-Ports pro Knoten für die Replikation 2 2 2
12-GBit/s-SAS-Ports pro Knoten für Erweiterungen 2 4 (+ optional 4) 4 (+ optional 4) 2 + 1
Laufwerkssch?chte 24 48 48 24
davon NMVe-f?hig 8 16 16
max. zus?tzliche Drive Enclosures bei SSD-Ausbau 5 14 22
max. zus?tzliche Drive Enclosures bei HDD-Ausbau 8 22 38

In den Erweiterungseinheiten befinden sich SAS-Expander. Hier gilt: Je mehr Leitungen zwischen Controller und Enclosures geschaltet sind, desto h?her die Performance – die beiden gr??eren Primera-Modelle k?nnen bis zu 32-SAS-Ports bedienen. Beim maximalen Speicherausbau mit 38 JBODs ist eine Daisy Chain von Drive Enclosure zu Drive Enclosure und damit Durchsatzreduzierung unumg?nglich.

Die Controllerknoten sind dual-ported über die zentrale Backplane mit in den Einschüben montierten SAS-, SATA- oder NVMe-Laufwerken verbunden. Auf jedem Controllerknoten l?uft ein eigenes Primera OS, eine übergeordnete Steuerung gibt es nicht. Beide Knoten teilen sich ihre Arbeit, solange sie gesund sind. Kr?nkelt einer oder f?llt aus, schr?nkt dies nicht die Zuverl?ssigkeit, h?chstens die Performance ein wenig ein, denn der verbleibende Knoten eines Controllers übernimmt die Arbeit seines Zwillings.

Auf getrennten Wegen zum Ziel

Die Primera-Systeme m?chten über mindestens zwei redundante Datenleitungen angesprochen werden. Dazu verfügt ein Controllerboard des Modells 630 über zwei Quad-Port-FC-Adapterkarten (Fibre Channel), wahlweise für 16 oder 32 GBit/s. üblicherweise bindet man sie über einen FC-Switch ins vorhandene SAN ein. Unsere Testmaschine wurde Punkt zu Punkt mit dem Server gekoppelt.

Unterhalb der acht FC-Buchsen eines jeden Knotens befinden sich auf der linken Rückseite zwei RJ45-Buchsen. Eine davon dient der Administration übers Wartungs-Ethernet. Hinter der zweiten versteckt sich ein serieller Service-Port. über ein mitgeliefertes Kabel l?sst sich ein Laptop anschlie?en, um den Ursprungszustand wiederherzustellen.

In der Mitte einer Controllerrückseite befinden sich zwei 12 GBit/s schnelle SAS-Steckbuchsen für die JBODs oder JBOFs zur Laufwerksaufstockung. Zwei 10GE-SFP+-Anschlüsse dienen der Datenreplikation (siehe Abbildung?1).

Die Rückseite der Primera 630 zieren zwischen zwei Netzteil-Akku-Modulen die beiden baugleichen Controllerknoten, jeweils mit acht FC-Ports. Die beiden 10GE-Ports dienen ausschlie?lich der Replikation. über die SAS-Buchsen in der Mitte finden zus?tzliche JBOFs und JBODs Anschluss. Der linke RJ45-Anschluss dient zur Administration per Ethernet, daneben sitzt ein serieller Wartungsport (Abb. 1).

Auf eine Leseanforderung reagiert der angesprochene Controllerknoten selbst. Für das Abfragen der Verwaltungsdatenbank und das Befüllen einer der 64 Hardware-Queues braucht es ein bis zwei Millisekunden mehr als ein serverinterner JBOD-Betrieb. Ist die Queue erst einmal gefüllt, bremst nur noch der Fibre Channel den Transport.

Beim Schreiben spiegelt der Controllerknoten, der die Anforderung empf?ngt, die Daten in den Cache des anderen Knotens. HPE weist die H?lfte des Hauptspeichers, also 128 GByte bei der 630, als Cache aus. Bei Ausfall eines Knotens gehen somit keine Daten verloren. Diese Arbeit übernimmt das dafür zust?ndige ASIC mit 8?GBit/s. Diese Redundanzabsicherung begrenzt zusammen mit dem Durchsatz der FC-Leitungen die Schreibperformance. Das Zurückschreiben auf die Laufwerke selbst geschieht im Hintergrund. Dadurch ist eine SSD-spezifische S?ttigung des Gesamtsystems nur bei hoher Belastung durch mehrere Hosts zu erwarten. Die gr??eren Maschinen verfügen über zus?tzliche ASICs zum Spiegeln und mehr Cache, sodass ihnen auch beim Befeuern über ein 32 GBit-FC-SAN nicht sofort die Puste ausgeht.

Scheinriesen

Daten durchlaufen auf ihrem Weg von oder zum Laufwerk mehrere Abstraktionsstufen, von denen die erw?hnten 1?GByte gro?en Chunklets nur eine bilden. Das System stellt sicher, dass alle verwendeten Chunklets eines RAID-6-Sets zu unterschiedlichen physischen Laufwerken geh?ren. Jede Logical Disk hat einen Owner und einen Backup-Owner. Zudem existieren zwei Arten von LDs, solche für Nutzer- und solche für Administrationsdaten. Schlie?lich braucht es – wie im richtigen Leben – auch Platz für Bürokratie.

Aus den LDs setzen sich die nach Bedarf konfektionierten Virtual Volumes (VV) zusammen und bilden die n?chste Abstraktionsebene. Die VVs sind aber für einen Host erst sichtbar, wenn das System sie als LUNs (Logical Unit Number) gem?? SCSI-Protokoll exportiert. LUNs k?nnen wahlweise für alle Server sichtbar oder mandantenspezifisch an einen bestimmten Port eines Hosts gebunden sein.

Legt der Admin dabei beispielsweise ein 8?TByte gro?es Volume an, allozieren die Controller nach dem Prinzip des Thin Provisioning erst einmal nur 256 MByte. Dazu verwendet das System Common Provisioning Groups (CPG), also einen Pool aus Logical Disks (LD). Aus ihm ordnet es bei Bedarf, also bei wachsendem Füllstand des Volume, dynamisch zus?tzlichen Speicher in Schritten von 32 oder 128 MiByte zu. Dazu erweitert das Betriebssystem vorhandene LDs oder erstellt zus?tzliche (siehe Abbildung?2).

Durch das Zerlegen des Plattenplatzes in 1?GByte kleine Chunklets emanzipiert sich das System von der Gr??e der Laufwerke und eventuell vorhandener Fehlstellen. Virtuelle Volumes erhalten über die Common Provisioning Group immer nur so viel Speicher zugewiesen, wie sie ben?tigen (Abb. 2).

Grunds?tzlich verwaltet Primera OS die Laufwerke in einer Blockgr??e von 16 KByte. Fallen mehrere kleinere Datens?tze an, fügt es sie durch geschickte Paketierung zusammen. Freigegebene Bl?cke mit 128 MByte zusammenh?ngendem Speicherplatz flie?en in die CPG zur Verwendung durch andere Volumens zurück. Der Nachteil des Thin Provisioning besteht darin, dass mehr Speicher reserviert werden kann, als wirklich vorhanden ist. Deshalb überwacht das System permanent die CGPs und mahnt frühzeitig Nachschub beim Administrator an, sobald der tats?chliche Füllungsgrad aller Virtual Volumes die vorhandene Kapazit?t zu sprengen droht.

Kommentieren

汤姆叔叔影院