Multi-Chip-Module: Nvidia arbeitet an MCM-basierter Grafik
Statt immer größere monolithische GPUs zu fertigen, geht Nvidia den Weg multipler Grafikchips auf einem Träger. Bisherige Designs sollen recht gut skalieren, ermöglichen eine extrem hohe Leistung und sind vergleichsweise günstig zu produzieren.
Nvidia hat eine Studie veröffentlicht, die sich mit der Skalierung von Multi-Chip-Module-GPUs beschäftigt (PDF). Hintergrund ist, dass Moore's Law weniger schnell voranschreitet als in den vergangenen Jahren. GPU-Hersteller müssen über längere Zeiträume mit den gleichen Herstellungsverfahren arbeiten, was die Anzahl der Transistoren und die mögliche Die-Fläche begrenzt. Nvidias aktueller GV100-Chip fällt mit 815 mm² so monströs aus, dass der Interposer für die GPUs und die vier HBM2-Speicherstapel in zwei Schritten belichtet werden muss, da er die Dimensionen der Maske sprengt.
Um diesem Dilemma zu entkommen, sind Multi-Chip-Modules (MCMs) längst eine übliche Herangehensweise. AMDs Naples alias Epyc etwa besteht aus vier Chips, die innerhalb eines Packages zu einem Prozessor zusammengeschaltet sind, und Intel hat die Embedded Multi Die Interconnect Bridge (EMIB) entwickelt, um multiple Dies zu verbinden. Vorteil ist, dass sich mehrere kleine Chips günstiger fertigen lassen als große monolithische - einerseits aufgrund der Ausbeute (Yield), anderseits durch das Verwenden älterer Prozesse.
256 SMs sind schneller als 2 x 128
Das von Nvidia entwickelte MCM besteht aus 4 GPUs mit jeweils 64 Shader-Multiprozessoren und 2 DRAM-Speicherstapeln für 3 TByte/s an Bandbreite. Im Rahmen des Papers geht der Hersteller davon aus, dass Chips mit mehr als 128 Shader-Multiprozessoren aufgrund des Maskenlimits nicht herstellbar sind - der aktuelle GV100 weist 84 SMs auf, noch mehr Rechenkerne sind erst mit kommenden Prozessen wie 10 nm oder 7 nm realistisch.
Das MCM mit insgesamt 256 Shader-Multiprozessoren ist dank eines zusätzlichen L1.5-Caches kaum langsamer als eine monolithische GPUs mit gleicher Shader-Anzahl und um rund ein Viertel schneller als eine optimierte SLI-Kombination aus zwei 128-SM-Karten. Problematisch ist hierbei, dass nur ein Teil der Software über solch eine Menge an Rechenwerken skaliert.
Ich spiele ja auch gerne mal alte Spiele und so weiter, bin ja auch schon einer der etwas...