Trainium: AWS hat Training-Chip selbst entwickelt
Das Trainium-Design soll Training für maschinelles Lernen besonders preisgünstig in der eigenen AWS-Cloud ermöglichen.
Amazon Web Services (AWS), die Cloud-Computing-Sparte von Amazon, hat den Trainium vorgestellt. Wie es der Name bereits impliziert, handelt es sich um ein für das Training von neuronalen Netzen ausgelegtes Design. So wie schon die Inferentia-ASICs und die Graviton2-CPUs hat AWS auch den Trainium-Chip selbst entwickelt, um damit eigene Instanzen zu bestücken.
Der Trainium soll im zweiten Halbjahr 2021 verfügbar sein, der Fokus liegt auf einer sehr hohen Performance pro Preis. Laut AWS sind die Instanzen noch preiswerter als die mit Intels Habana Gaudi, welche bereits 40 Prozent mehr Geschwindigkeit pro US-Dollar aufweisen sollen als die teure p4d.24xlarge-Konfiguration mit acht Nvidia A100.
Zur Performance und zur Technik des Trainium hat sich AWS nicht geäußert, die damit ausgestatteten Instanzen sollen aber die höchste Teraflops-Leistung aller für maschinelles Lernen gedachten Cloud-Instanzen aufweisen. Der Trainium unterstützt typische Frameworks wie Tensorflow und Pytorch oder MXNet, das Neuron genannte Software Development Kit (SDK) ist das gleiche wie bei den Inferentia-ASICs.
Somit bietet AWS künftig eigene Designs und Instanzen für Training, also das Anlernen von neuronalen Netzen, und für Inferencing, sprich das Ausführen dieser vorab trainierten Algorithmen, an. Trainium soll in den EC2-Instanzen (Elastic Compute Cloud) und im Sagemaker-Dienst verfügbar sein, dort ist die vorgefertigte Auswahl an Lernalgorithmen und Frameworks gegeben, die laut AWS häufig eingesetzt werden.
Der Vorteil eigener Chips ist die dadurch erreichte vertikale Integration, da Hardware und Software aus einer Hand kommen - das vereinfacht gegenseitige Optimierungen, weshalb die Leistung steigt und die Kosten sinken.