Phytium Mars: Chinesischer Riesenchip besteht aus 64 ARM-Kernen
Riesige 640 mm²-Chipfläche: Das chinesische Startup Phytium arbeitet an einem ARM-Serverprozessor mit 64 CPU-Kernen. Sollte das ambitionierte Projekt gelingen, wäre es absolut konkurrenzfähig.
Das chinesische Startup Phytium hat auf der Technologietagung Hot Chips 27 einen ausführlichen Überblick zu einem neuen Serverprozessor namens Mars gegeben. Darin stecken 64 Kerne mit ARMv8-Architektur, weshalb der Chip schnell und vor allem effizient arbeiten soll. Kleine Anekdote: Charles Zhang von Phytium musste per Telefon zugeschaltet werden, da die USA ihm die Einreise verweigerten, und die Audiopräsentation zu groß für den E-Mailserver war.
Phytium wurde 2012 gegründet, Mars ist das erste Projekt der Chinesen und für den HPC-Mark (High Performance Computing). Es ähnelt von der Idee her den X-Gene von Applied Micro und den ThunderX von Cavium: Insgesamt 64 Xiaomi (übersetzt: Reiskorn) genannte CPU-Kerne mit ARMv8-Architektur stecken in einem Mesh-Netzwerk. Das ist in Panels unterteilt, jedes enthält acht Kerne samt Caches. Der L1-Instruktionen- und der L1-Daten-Puffer fassen jeweils 32 KByte, hinzu kommen 32 MByte L2-Cache pro Panel und eine dritte, gemeinsam genutzte Puffer-Stufe mit 128 MByte für alle CPU-Kerne zusammen.
Anders als Intel bei Skylake sprach Phytium über die technischen Besonderheiten der Xiaomi-Kerne: Das Frontend kann vier Befehle pro Takt dekodieren, die über die gleiche Anzahl an Scheduler-Ports an das Backend weitergegeben werden. Dort rechnen vier Integer- und eine Gleitkomma-Einheit, letztere benötigt sechs Takte für eine FMA-Operation. Die Latenz der Mesh-Kommunikation beträgt durchschnittlich neun Takte (3 bis 15), die CPU-Kerne im Mars-Prozessor laufen mit 2 GHz.
Auf dem Papier liefern sie eine DP-Leistung (doppelte Genauigkeit) von 512 Gflops, also vier DP-Flops pro Takt und Kern. Daten erhalten die Panels von je zwei 32 Bit breiten DDR3-1600-Speichercontrollern, was bei aufaddiert 128 Kanälen eine theoretische Datentransferrate von 204 GByte pro Sekunde bedeutet, wenn alle Panels parallel angesprochen werden. Das zeigt der Stream-Triad-Benchmark auf, der erst ab zwei Panels (mehr als acht Kerne) skaliert.
Rein von der Geschwindigkeit steht der Mars-Prozessor für ein Single-Sockel-System sehr gut da: Bei den Multithread-Benchmarks SPECint_2006_rate erreicht der Mars-Chip 585 (Float) und 672 (Integer). Ein einzelner Xeon E5-2695 v3 (Haswell-EP) mit 14 Kernen schafft 410 und 557. Der Mars-Chip soll wie der Xeon 120 Watt benötigen, obgleich er in einem 28-nm-Verfahren (vermutlich bei TSMC) gefertigt wird. Das resultiert in einer Die-Fläche von satten 640 mm². Ähnlich groß sind IBMs Power8 und Intels Xeon Phi Knights Landing und Haswell-EX sowie einige ältere Prozessoren.
Phytium arbeitet auch an einem Earth genannten Chip, der auf einer Folie auftauchte - Zhang wollte darüber aber nicht sprechen. Ebenfalls keinen Kommentar gab es zum Erscheinungstermin des Mars-Prozessor. Ein möglicher Konkurrent wäre Applied Micros X-Gene 3, der mit bis zu 64 Kernen mit 3 GHz antreten soll. Caviums ThunderX setzt derzeit auf 48 Kerne bei 95 Watt.
Doch natürlich. Es sei denn Apple hat Prozessorkerne entsprechend schützen lassen...