HBM-PIM: Stapelspeicher erhält integrierte AI-Engines
Bei Samsungs HBM-PIM werden die Speicherbänke um Recheneinheiten erweitert, was Performance und Effizienz drastisch steigern soll.
Samsung hat den HBM-PIM angekündigt, eine spezielle Variante des bekannten HBM2-Stapelspeichers, die um einen AI-Beschleuniger erweitert wurde. Die Abkürzung steht folgerichtig für High Bandwidth Memory with Processing in Memory, was das Prinzip gut beschreibt.
Basis des HBM-PIM ist der ältere HBM2 alias Aquabolt, den Samsung entsprechend angepasst hat: Ein solcher Stack umfasst eigentlich acht 8-GBit-Dies an DRAM, was 8 GByte ergibt. Samsung aber nutzt vier 8-GBit-Dies und vier 4-GBit-Dies, wobei Letztere pro zwei Speicherbänken eine PCU (Programmable Computing Unit) aufweisen. Die laufen mit 300 MHz für 1,2 Teraflops mit FP16-Präzision.
Diese sollen sich für AI-Workloads wie Computer Vision und Objektklassifizierung eignen, weshalb sich verglichen mit regulären Von-Neumann-Lösungen die Performance verdoppeln (2,1x) und die Energieeffizienz um 71 Prozent steigen soll. Ohne PIM müssten die zu berechnenden Daten erst vom HBM2 zum Host-Chip wie einem ASIC oder einer GPU und wieder zurück transportiert werden, was entsprechend Zeit und Strom benötigt. Für PIM seien überdies keine Software-Anpassungen notwendig.
Als Szenarien für HBM-PIM sieht Samsung unter anderem Datacenter, HPC-Systeme (High Performance Computing) und AI-Anwendungen im Mobile-Segment vor. Bisher lässt sich HBM2 einzig mit Host-Prozessoren verbinden, auch bei HBM-PIM ist ein solcher Chip notwendig.
Denkbar wäre daher beispielsweise ein Beschleuniger für AI-Inferencing, welcher neben der selbstgestellten Rechenleistung zusätzlich HBM-PIM verwendet. Solche Co-Prozessoren könnten für latenzkritische Workloads eingesetzt werden, die vergleichsweise wenig Performance erfordern.
Momentaner Stand bei High Bandwidth Memory ist HBM2E: Samsung und SK Hynix bieten Stacks mit 16 GByte Kapazität an, die Geschwindigkeit liegt bei 3,2 GBit/s respektive 3,6 GBit/s. Nvidia verwendet HBM2E für den A100-Beschleuniger mit 80 GByte Speicher.
Ich tippe auf Morsezeichen ehrlich gesagt!