Adapteva: 4.096 Kerne auf einem Chip
Doppelt so viele Rechenwerke wie auf aktuellen GPUs will das Startup Adapteva auf einem Chip unterbringen. Sie sollen eine FPU bilden, die mit 70 Gigaflops pro Watt effizienter als die Konkurrenz von AMD, Intel Tilera und Nvidia ist.
In Zusammenarbeit mit Globalfoundries entwickelt Adapteva seine Multicore-Architektur Epiphany. Dabei werden in einem Mesh, ähnlich Intels SCC, viele sehr kleine RISC-Kerne verknüpft. Jeder Kern besitzt einen kleinen Cache von 32 KByte SRAM.
Mit immerhin 16 Kernen ist das in 65-Nanometer-Technik bereits geschafft, wie aus einem Whitepaper (PDF) von Adapteva hervorgeht. Das Unternehmen zeigt darin Entwicklungsboards, die es auch Lizenznehmern zur Verfügung stellt. Ähnlich wie ARM will Adapteva die Prozessoren nicht selbst herstellen und verkaufen, sondern seine Technologie zur Umsetzung in Produkte anbieten.
Während der 16-Kerner schon "silcon proven" ist, also lauffähig existiert, basieren die Angaben zum größten Chip mit 4.096 Kernen noch auf Simulationen. Im Rechner soll der Prozessor mit dem Namen E4KG4 schon existieren, die Schaltung (Routing) ist Adapteva zufolge fertig.
Bei den Daten zur Effizienz hat das Unternehmen aber offenbar die Auswirkungen von Moores Law beim Schritt von 65 zu 28 Nanometern hochgerechnet. So soll der E4KG4 bei 600 MHz 70 Gigaflops pro Watt erreichen, was effizienter als bei GPUs und anderen Multicores wie denen von Tilera wäre. Dabei erreicht der Chip aber auch über 524 Quadratmillimeter Größe, was bisher nur selten in Serie produziert wurde. Ein Beispiel ist die GPU GT200 (GTX-280) von Nvidia, die im Jahr 2008 ganze 576 Quadratmillimeter erreichte.
Neuer Clock-Tree
Viel Rechenleistung bei wenig Energiebedarf will Adapteva unter anderem durch eine Baumstruktur für die Taktgeber erreichen. Dabei wird an den Chip nur ein globaler Takt angelegt, auf dem Die sitzen aber weitere Taktgeber, die jeweils die benachbarten Kerne synchronisieren. Verzögerungen werden durch die Caches abgefangen. Das beschreibt das Fachblatt Microprocessor Report in einer Analyse der Architektur (PDF), die bei Adapteva zugänglich ist.
Gedacht sind solche Prozessoren vor allem als Beschleuniger für Supercomputer, wie das heute schon mit GPUs geschieht. Für eine Beurteilung der Leistung in der Praxis sind dann aber Benchmarks mit konkreten Anwendungen wie Linpack nötig, Adapteva gibt bisher nur den auch bei ARM-SoCs verwendeten sehr kleinen Benchmark Coremark als Referenz an. Dabei bleibt aber auch offen, ob sich die Werte auf einfache oder doppelte Genauigkeit beziehen.
Ende der 1980er gabs in München eine Firma die relativ preiswerte superparallele Systeme...
ARM macht das relativ geschickt. Sie entwickeln eine CPU-Technik. Diese kann/darf dann...