Knights Mill: Intels Xeon Phi hat 72 Kerne und etwas Netburst
Der nächste Xeon-Phi-Beschleuniger, Knights Mill, erhält überarbeitete Ausführungseinheiten, um mit doppelter Geschwindigkeit und halber Genauigkeit zu rechnen.
Intel hat auf der Hot Chips 29 im kalifornischen Cupertino über Knights Mill gesprochen. So heißt die nächste Generation Xeon Phi, also Rechenkarten für Server, die mittlerweile mit Fokus auf Deep-Learning-Training entwickelt wurden. Verglichen mit Knights Landing alias Xeon Phi 7200 wurden daher die Kerne umgebaut, damit sie auch mit halber Genauigkeit arbeiten können.
Der grundlegende Aufbau bleibt oberflächlich gleich: Knights Mill besteht aus 36 Kacheln, die per Mesh-Struktur kommunizieren. Jede Tile besteht aus zwei Kernen sowie VPUs (Vector Processing Unit) mit ein MByte L2-Cache. Die Vektoreinheiten sind für die AVX-512-Instruktionen verantwortlich, die 72 Cores arbeiten zugunsten der Auslastung mit vierfachem Hyperthreading.
Für Deep Learning beherrschen die VPUs sogenanntes Quad FMA, also vier Multiplikationen zusammen mit einer Addition in einem Schritt mit einfacher Gleitkomma-Genauigkeit (FP32). Dadurch verdoppelt ("pumped" wie einst beim Pentium 4) sich die Geschwindigkeit pro Takt verglichen mit Knights Landing; weil aber einer der Double-Precision-Ports fehlt, halbiert sich die Leistung bei FP64. Stattdessen integrierte Intel vier der neuen VNNI-Einheiten.
Etwas überraschend arbeiten die Virtual Neural Network Instructions nicht mit halber Gleitkomma-Genauigkeit (FP16), sondern mit variablem und weniger flexiblem Festpunkt-Format. Mit INT16-Eingabe und INT32-Ausgabe bei 31 Bit erreicht Intel aber genug Genauigkeit für das Training neuronaler Netze.
Bei angenommenen 1,5 GHz für 72 Cores wie bei Knights würde Knights Mill theoretisch folgende Rechenleistung erreichen: 13,8 statt 6,9 Teraflops bei einfacher Genauigkeit (FP32) und 1,7 statt 3,5 Teraflops bei doppelter Präzision (FP64) sowie 27,6 Terafops bei halber Genauigkeit (INT16).
Von den Kernen abgesehen gibt es bei Knights Mill keine Neuerungen. Der Chip wird mit 16 GByte MCRAM (modifizierte Hybrid Memory Cubes) auf dem Package kombiniert. Als gesockelte Version kann der Xeon Phi über sechs Speicherkanäle auf DDR4 zugreifen und weist 36 PCIe-Gen3-Lanes auf.
Jepp bei Alternate, aber das war auch mal anders, bei Amazon kann man die 7120P noch...
Ahh - gefunden: