SX-10 Aurora Tsubasa: NECs Beschleuniger nutzt sechs HBM2-Stacks
Vektorkarte statt Intels Xeon Phi oder Nvidias Tesla: NEC zeigt mit dem SX-Aurora Tsubasa einen Rechner für Supercomputer, der eine sehr hohe Leistung liefert. Das Topmodell ist wassergekühlt, drei Varianten sollen Anfang 2018 erscheinen.
NEC hat weitere Details zum SX-10 Aurora Tsubasa verraten, einem Beschleuniger für unter anderem Supercomputer. Das berichtet die c't von der Supercomputing 2017, einer HPC-Konferenz (High Performance Computing) in Denver. NEC hatte die SX-10 Aurora Tsubasa im Oktober 2017 vorgestellt und drei Modelle für verschiedene Systeme angekündigt. Tsubasa bedeutet Flügel und ist eine Anspielung auf Captain Tsubasa, ein Manga und Anime, der hierzulande als Die tollen Fußballstars ausgestrahlt wurde.
Die SX-10 Aurora Tsubasa sind PCIe-Karten, die in ein x86-Host-System gesteckt werden. Den drei Modellen gemein ist ein Chip mit acht Vektorkernen, der auf einem sehr großen Package sitzt und gleich sechs HBM2-Speicherstapel nutzt. Die wassergekühlte 10A-Variante schafft 2,46 Teraflops bei doppelter Genauigkeit (FP64) und verfügt über satte 48 GByte Kapazität mit 1,2 TByte die Sekunde an Bandbreite. Die kleineren Ableger schaffen 2,15 Teraflops und weisen langsamer taktenden HBM2 auf, die 10C-Karte hat zudem nur 24 GByte Speicher und eine Luftkühlung. Der längliche Vektorchip wird in einem 16-nm-Verfahren bei der TSMC gefertigt und misst 494 mm², die Beschleuniger benötigen laut Hersteller unter 300 Watt.
Eingesetzt werden sollen die SX-10 Aurora Tsubasa entweder einzeln in einer Workstation oder in Server-Blades mit zwei bis acht Beschleunigern oder in Supercomputer-Schränken mit gleich 64 der Karten. Als Host verwendet NEC einen oder zwei Xeon (Skylake-SP) der Gold- oder Silver-Reihe. Die SX-10 Aurora Tsubasa eignen sich vor allem für Berechnungen, die eine sehr hohe Bandbreite aber vergleichsweise wenig lokalen Speicher benötigen.
Vor einigen Jahren waren die früheren SX-6-Modelle für die enorme Leistung des Earth Simulator verantwortlich, der mit knapp 36 Teraflops (FP64) zweieinhalb Jahre lang die Liste der schnellsten Supercomputer anführte.
Bei 6 HBM2 Stapeln wäre das schon recht wenig. Laut dem Dokument sind es 1,2 TByte/s...
...weil Vektor-Multiplikation ja so ein enormes Problem auf GPUs darstellt... *facepalm*