Supercomputer-Beschleuniger: Nvidia verdoppelt Videospeicher des A100

Mit 80 GByte kann Nvidias aktualisierter A100-Supercomputer-Beschleuniger auf die doppelte Menge an Videospeicher zurückgreifen.

Artikel veröffentlicht am ,
HGX-A100-Rack mit acht A100-Beschleunigern
HGX-A100-Rack mit acht A100-Beschleunigern (Bild: Nvidia)

Nvidia hat den A100-Beschleuniger überarbeitet und wenige Monate nach der initialen Vorstellung mit doppelt so viel Videospeicher angekündigt. Statt 40 GByte sind 80 GByte verbaut, überdies steigt die Datentransfer-Rate um gut ein Viertel an. An den restlichen Eckdaten des A100-Beschleuniger ändert sich jedoch nichts.

Den A100 - das Tesla hat Nvidia aus dem Namen gestrichen - gab es bisher in zwei Varianten: Als PCIe-Steckkarte und als SXM4-Mezzanine-Modul, wobei Letzteres mit 400 Watt statt 250 Watt effektiv deutlich höhere Taktraten fahren kann, was sich in den technischen Spezifikationen nicht direkt widerspiegelt. Die SXM4-Version ist auch jene, welche mit 80 GByte aktualisiert wird.

Konkret verwendet Nvidia statt HMB2-Stapelspeicher den verbesserten HBM2E-Stacked Memory, wie er von Samsungund von SK Hynix produziert wird. Das steht für High Bandwidth Memory 2nd Gen Enhanced und beschreibt verglichen mit HBM2 eine Version des Stapelspeichers mit höherer Geschwindigkeit und doppelter Kapazität. Dabei werden acht DRAM-Chips (8Hi) mit je 16 GBit statt 8 GBit durchkontaktiert, die Datenrate liegt derzeit bei bis zu 3,6 GBit/s statt bis zu 2,4 GBit/s.

  • A100-Beschleuniger als SXM4-Mezzanine-Modul (Bild: Nvidia)
  • HGX-A100-Rack mit acht A100-Beschleunigern (Bild: Nvidia)
A100-Beschleuniger als SXM4-Mezzanine-Modul (Bild: Nvidia)
Tesla V100 (SXM2)Nvidia A100 (SXM4)Nvidia A100 (PCIe)
GPU (µArch)GV100 (Volta), teilaktiviertGA100 (Ampere), teilaktiviertGA100 (Ampere), teilaktiviert
Node12FFN (TSMC)7N (TSMC)7N (TSMC)
Transistoren21,1 Milliarden54,2 Milliarden54,2 Milliarden
ALUs / Tensor5.120 / 6406.912 / 4326.912 / 432
Speicher32 GByte HBM240 GByte HBM2 / 80 GByte HBM2e40 GByte HBM2
Bandbreite900 GByte/s1,555 TByte/s bzw über 2 TByte/s1,555 TByte/s
FP647,45 Teraflops9,7 (19,5*) Teraflops9,7 (19,5*) Teraflops
FP3214,9 Teraflops19,5 Teraflops19,5 Teraflops
FP16125 Teraflops312 (624**) Teraflops312 (624**) Teraflops
INT862 Teraops624 (1.248**) Teraops624 (1.248**) Teraops
TDP300 Watt400 Watt250 Watt
NV-Link300 GByte/s (8x GPUs)600 GByte/s (8x GPUs)600 GByte/s (2x GPUs)
InterfacePCIe Gen3PCIe Gen4PCIe Gen4
Technische Daten von Nvidias Tesla V100 und A100 *viaTensor Cores **mit Sparsity

Wer sich nun das Rendering des SXM4-Mezzanine-Moduls des A100-Beschleunigers anschaut, wird sechs Stacks sehen - was bei 16 GByte pro Speicherstapel für 80 GByte nicht passt. Nvidia nutzt aus Gründen der Chip-Ausbeute (Yield) nur fünf aktive Stacks, der sechste ist ein mechanischer Dummy, der dazugehörige 1.024-Bit-Controller des GA100-Grafikprozessors wurde deaktiviert. Wie hoch die Geschwindigkeit der einzelnen Stapel ausfällt, sagte Nvidia nicht, nannte aber eine Transfer-Rate von über 2 TByte/s. Folgerichtig müssten die HBM2E-Stacks mit über 3 GBit/s statt zuvor 2,43 GBit/s laufen.

Nvidia verkauft den A100-Beschleuniger mit 80 GByte Videospeicher selbst noch im vierten Quartal 2020 als Teil der eigenen DGX-(Station)-A100-Systeme. Die HGX-A100-Racks für Hyperscale-Server, genauer: als Konfiguration mit vier oder acht Mezzanine-Modulen, folgen im ersten Halbjahr 2021. Diese Einschübe werden dann von Partnern wie Atos, Dell, Fujitsu, Gigabyte, HPE, Inspur, Lenovo, Quanta und Supermicro vertrieben.

Parallel zu Nvidias aktualisiertem A100 hat AMD die Radeon Instinct MI100 vorgestellt, den ersten Supercomputer-Beschleuniger mit CDNA-Technik. Die PCIe-Steckkarte weist eine höhere theoretische FP32- und FP64-Rechenleistung auf, zudem unterstützt sie schnelle Matrix-Multiplikationen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Quellcode auf Github
MS-DOS 4.00 ist jetzt Open Source

Nachdem der ehemalige CTO eine alte MS-DOS-Floppy entdeckt hat, veröffentlicht Microsoft ein Stück Betriebssystem-Geschichte.

Quellcode auf Github: MS-DOS 4.00 ist jetzt Open Source
Artikel
  1. Abstürze mit Intel-CPUs: Weitere Mainboards mit Intel-Baseline-Profil
    Abstürze mit Intel-CPUs
    Weitere Mainboards mit Intel-Baseline-Profil

    Während Intel den Fehlerberichten bei Core-i9-Prozessoren nachgeht, veröffentlichen die Mainboardhersteller reihenweise Bios-Updates.

  2. Startrampe Set: Lego bietet Milchstraße und Nasa-Rakete Artemis als Bausatz
    Startrampe Set
    Lego bietet Milchstraße und Nasa-Rakete Artemis als Bausatz

    Lego hat zwei neue Sets vorgestellt, die für Weltraumenthusiasten gedacht sind: das Nasa-Artemis-Startrampen-Set und das Milchstraßen-Galaxie-Set.

  3. The Beekeeper: Ein Mann gegen die Ransomware-Industrie
    The Beekeeper
    Ein Mann gegen die Ransomware-Industrie

    Normalerweise gibt es kaum einen Grund, sich eines Actionfilms mit Jason Statham anzunehmen. The Beekeeper ist aber eine Ausnahme.
    Eine Rezension von Peter Osteried

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Asus OLED-Monitor zum Tiefstpreis • Gigabyte GeForce RTX 4070 Ti im Sale • MediaMarkt: Asus Gaming-Laptop 999€ statt 1.599€ • Gamesplanet Spring Sale [Werbung]
    •  /