Manticore: Ja, ein RISC-V-Prozessor mit 4.096 Kernen
Vier kombinierte Chips ergeben eine extrem effiziente RISC-V-CPU, die mit Nvidias Ampere-Topmodell konkurriert.
Die ETH Zürich ist bekannt für ihre vielfältigen RISC-V-Designs, der Manticore aber sticht dann doch hervor: Benannt nach dem persischen Fabelwesen weist der Prozessor gleich 4.096 Kerne auf, er ist für Gleitkomma-Berechnungen bei besonders hoher Effizienz ausgelegt. Die Forscher präsentierten den Manticore auf der alljährlichen Technologiekonferenz Hot Chips und zeigten erste Leistungswerte basierend auf einem Prototyp.
Manticore soll später einmal aus vier Chiplets bestehen, die miteinander verknüpft sind und wovon jeder Zugriff auf einen eigenen 8 GByte fassenden HBM2-Stapelspeicher hat. Für die Fertigung der Dies will die ETH Zürich das 22FDX-Verfahren von Globalfoundries nutzen, die geplante Fläche pro Chip liegt bei geringen 222 mm². Jedes Die besteht intern aus einem HBM2- und einem PCIe-Gen3-x16-Interface, vier Ariane-RV64G-Kernen für ein Linux-Betriebssystem, satten 27 MByte L2-Cache und vier Quadranten.
Diese Quadranten enthalten die eigentliche Rechenleistung, denn jeder besteht aus 32 Clustern mit je 8 Kernen. Die ETH Zürich verwendet die selbst entworfenen Snitch-Cores (PDF): Das sind winzige RV32G-Kerne mit wenig Kontrolllogik und einer zusätzlichen Gleitkommaeinheit, wobei Stream Semantic Register (SSR) und eine Floating Point Repetition Instruction (FREP) die Effizienz steigern. Jeder Snitch-Core schafft 32 FP- und 16 DP-Flops pro Takt, insgesamt soll der Manticore über 27 Teraflops bei doppelter Genauigkeit (FP64) schaffen.
Für erste Tests hat die ETH Zürich einen 9 mm² kleinen Manticore-Prototyp mit 22FDX-Fertigung bauen lassen. Er enthält 24 Snitch- und zwei Ariane-Cores sowie immerhin 1,25 MByte L2-Cache. Das reicht bereits für gut 54 Gflops bei FP64 mit über 1 GHz und 188 Gflops pro Watt bei rund 500 MHz.
So schafft es der Manticore, bei der Effizienz selbst an Nvidias Tesla A100 leicht vorbeizuziehen. Dabei ist zu bedenken, dass der Manticore ein 22FDX-Design ist und Nvidia den GA100-Chip der Tesla A100 mit TSMCs N7 fertigen lässt. Bei FP32-Berechnungen für Deep-Neural-Network-Training wie Alexnet, Googlenet oder Resnet zieht der Manticore mit der älteren Tesla V100 gleich.
Als nächster Schritt ist eine Platine mit vier Prototyp-Chiplets geplant, zudem soll das Design mit einem modernen und teureren Finfet-Herstellungsverfahren produziert werden. Die ETH Zürich will sich außerdem Partner suchen, die dabei helfen, ein physisches Interface für DDR- oder HBM-Speicher zu integrieren. In der Frage-und-Antwort-Runde merkten die Forscher jedoch an, dass es für die Universität schwierig sei, an SoC-Bestandteile wie Interconnects heranzukommen.
Tiefergehende Informationen zur offenen Befehlssatzarchitektur RISC-V haben wir in einem eigenen Artikel zusammengefasst.
Ist nichtmal ansatzweise für Linux geeignet. Mit 8MB läuft das nämlich schon sehr lange...
22FDX, steht im zweiten Absatz und auf der ersten Slide.
Es is eine partnerschaft also es hat was von der EU auch drinn: ETH Zürich und Universit...
Die kleinen Kerne haben wahrscheinlich nicht mal eine MMU für virtuellen Speicher. Linux...