www.wikidata.de-de.nina.az
Tensor Processing Units TPUs auch Tensor Prozessoren sind anwendungsspezifische Chips um Anwendungen im Rahmen von maschinellem Lernen zu beschleunigen TPUs werden vor allem genutzt um Daten in kunstlichen neuronalen Netzen vgl Deep Learning zu verarbeiten TPUs der vierten Generation Die farbigen Schlauche fuhren die Kuhlflussigkeit zu den vier ASICsDie von Google entwickelten TPUs wurden speziell fur die Softwaresammlung TensorFlow 1 entworfen TPUs sind die Basis fur alle Google Services welche maschinelles Lernen einsetzen und wurden auch in den AlphaGo Maschine vs Mensch Wettkampfen mit einem der weltbesten Go Spieler Lee Sedol zum Einsatz gebracht 2 Inhaltsverzeichnis 1 Generationen der Tensor Processing Units 1 1 Erste Generation 1 2 Zweite Generation 1 3 Dritte Generation 1 4 Vierte Generation 2 Tabellarische Ubersicht uber einzelne TPU Parameter 3 Siehe auch 4 Literatur 5 Weblinks 6 Patente 7 EinzelnachweiseGenerationen der Tensor Processing Units BearbeitenErste Generation Bearbeiten Die erste Generation von Googles TPU wurde auf der Google I O 2016 vorgestellt und speziell entworfen um die Anwendung eines bereits trainierten kunstlichen neuronalen Netzwerks zu unterstutzen bzw zu beschleunigen 3 Dies wurde u a durch eine geringere Prazision im Vergleich zu normalen CPUs oder GPUs und einer Spezialisierung auf Matrizenoperationen erreicht Die TPU besteht aus einem systolischen Array mit einer 256 256 8 Bit Matrizenmultiplikationseinheit MMU welche von einem Mikroprozessor mit einem CISC Befehlsatz angesteuert wird Der Chip wurde in einem 28 nm Prozess gefertigt und taktet mit 700 MHz bei einer Thermal Design Power von 28 bis 40 W Die TPU besitzt 28 MiB Arbeitsspeicher am Chip Zudem sind 4 MiB 32 Bit Akkumulatoren verbaut welche die Ergebnisse der Matrizenmultiplikationseinheit ubernehmen Die TPU kann Matrizenmultiplikationen Faltungen und Aktivierungsfunktionen sowie Datentransfer zum Hostsystem uber PCIe 3 0 oder zum DDR3 DRAM welcher sich am Board befindet ausfuhren Zweite Generation Bearbeiten Die zweite Generation von Googles TPU TPUv2 wurde auf der Google I O 2017 vorgestellt Diese soll nicht nur die Anwendung von neuronalen Netzwerken Inferenz sondern auch das Training dieser Netzwerke beschleunigen Diese TPUs besitzen zwei Matrizenausfuhrungseinheiten Matrix Execution Unit MXU mit je 8 GiB Arbeitsspeicher 4 Jede MXU weist eine Rechenleistung von 22 5 TFLOPS auf wobei jedoch der bfloat16 Datentyp zum Einsatz kommt welcher nicht IEEE 754 entspricht 4 Ein TPU Board mit vier TPUs kommt somit auf 180 TFLOPS Die TPUs werden zu einem Pod mit 11 5 PFLOPS zusammengeschaltet einem Rechnerverbund Cluster Systemarchitektur von 256 TPUs und 128 Server CPUs Die TPUs sind hierbei in einer spharenformigen 2D Torus Netzwerktopologie von je 8 8 TPUs zusammengeschaltet Zur Verbindung der CPUs mit den TPUs kommt PCI Express 3 0 mit 32 Lanes 8 Lanes je TPU zum Einsatz 4 Die TPUs der zweiten Generation sind in Form der Google Compute Engine einem Cloud Angebot von Google nutzbar Um die Speicherbandbreite der Architektur zu erhohen kommt HBM Speicher zum Einsatz 5 Dritte Generation Bearbeiten nbsp TPUv3 KarteDie dritte Generation von Googles TPU TPU 3 0 wurde auf der Google I O 2018 vorgestellt Die TPUs besitzen 4 MXUs mit je 8 GiB Arbeitsspeicher 32 GiB je TPU 4 Die Netzwerktopologie der TPUs ist ebenfalls in Form eines 2D Torus ausgelegt Die Racks besitzen zudem eine Wasserkuhlung mit der die TPUs gekuhlt werden 4 TPU 3 0 Pods bestehen aus 8 Racks mit insgesamt 1024 TPUs und 256 Server CPUs Die Rechenleistung eines Pod liegt bei knapp uber 100 PFLOPS 4 Vierte Generation Bearbeiten Die vierte Generation von Googles TPU TPU v4 wurde von Google im Dezember 2021 vorgestellt 6 Mit den sogenannten SparseCores und Optical Circuit Switches OCS kann der TPU v4 interne Verbindungen dynamisch rekonfigurieren und skalieren Das optische Netzwerk kann ausserdem an die Struktur des berechneten KI Modells angepasst werden Die Sicherheit soll durch die Trennung der Racks auf Netzwerkebene erhoht werden Der OCS ist verhaltnismassig gunstig da er unter funf Prozent der Gesamtkosten der TPU ausmacht Bei der Leistungsaufnahme schlagt das optische Netzwerk mit unter drei Prozent ebenfalls kaum zu Buche 7 Die TPU v4 hat dank einer Umstellung auf eine 7 nm Fertigung und einer Transistorzahl von 22 Milliarden eine mehr als doppelt so hohe Rechenleistung von 275 TFLOPS bei bfloat16 und int8 Trotzdem ist sie mit einer Grosse von nur 600 mm kleiner und verbraucht maximal 192 Watt was im Vergleich zur TPU v3 eine Einsparung darstellt 8 Tabellarische Ubersicht uber einzelne TPU Parameter BearbeitenTensor Processing Units 9 10 11 TPU v1 TPU v2 TPU v3 TPU v4 Edge v1Einfuhrungsdatum 2016 2017 2018 2021 2018Technologieknoten 28 nm 16 nm 16 nm 7 nmDie Grosse mm2 331 lt 625 lt 700 lt 400On Chip Speicher MiB 28 32 32 144Taktgeschwindigkeit MHz 700 700 940 1050Speicher 8 GiB DDR3 16 GiB HBM 32 GiB HBM 32 GiB HBMSpeicherbandbreite 34 GB s 600 GB s 900 GB s 1200 GB sThermal Design Power W 75 280 220 170 2TFLOPS 23 45 123 275 4TFLOPS W 0 31 0 16 0 56 1 62 2Siehe auch BearbeitenGoogle Tensor SoC von Google mit integrierter TPULiteratur BearbeitenNorman P Jouppi Cliff Young Nishant Patil David Patterson A domain specific architecture for deep neural networks In Communications of the ACM 61 2018 S 50 doi 10 1145 3154484 Norman P Jouppi u a TPU v4 An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings In arxiv org 4 April 2023 abgerufen am 6 April 2023 englisch doi 10 48550 arXiv 2304 01433Weblinks BearbeitenCloud TPUs TensorFlow O Reilly AI Conference San Francisco 18 auf YouTube vom 25 Oktober 2018 A simple classification model using Keras with Cloud TPUs In colab research google com Abgerufen am 10 November 2018 Edge TPU Devices In aiyprojects withgoogle com Abgerufen am 22 Marz 2019 Sebastian Gruner Tensor Processing Unit Google baut eigene Chips fur maschinelles Lernen In golem de 19 Mai 2016 abgerufen am 23 November 2016 Harald Bogeholz Kunstliche Intelligenz Architektur und Performance von Googles KI Chip TPU heise online In heise de 6 April 2017 abgerufen am 7 April 2017 David Patterson Google TPU Team In Data Center Performance Analysis of a Tensor Processing Unit PDF 2 April 2017 abgerufen am 23 Mai 2017 englisch Patente BearbeitenPatent US20160342889 Vector Computation Unit in Neural Network Processor Angemeldet am 3 September 2015 veroffentlicht am 24 November 2016 Anmelder Google Inc Erfinder Gregory Michael Thorson Christopher Aaron Clark Dan Luu Patent WO2016186823 Batch Processing in a Neural Network Processor Angemeldet am 3 Marz 2016 veroffentlicht am 24 November 2016 Anmelder Google Inc Erfinder Reginald Clifford Young Patent WO2016186801 Neural Network Processor Angemeldet am 26 April 2016 veroffentlicht am 24 November 2016 Anmelder Google Inc Erfinder Jonathan Ross Norman Paul Jouppi Andrew Everett Phelps Reginald Clifford Young Thomas Norrie Gregory Michael Thorson Dan Luu Patent WO2014105865 System and method for parallelizing convolutional neural networks Angemeldet am 23 Dezember 2013 veroffentlicht am 3 Juli 2014 Anmelder Google Inc Erfinder Alexander Krizhevsky Ilya Sutskever Geoffrey E Hinton Einzelnachweise Bearbeiten Jeff Dean Rajat Monga TensorFlow Google s latest machine learning system open sourced for everyone In Google Research Blog Google 9 November 2015 abgerufen am 29 Juni 2016 englisch Christof Windeck Google I O 2016 Tensor Prozessoren halfen beim Go Sieg heise online In heise de 19 Mai 2016 abgerufen am 23 November 2016 Norm Jouppi Google supercharges machine learning tasks with TPU custom chip In Google Cloud Platform Blog 18 Mai 2016 abgerufen am 29 Juni 2016 amerikanisches Englisch a b c d e f Timothy Prickett Morgan Tearing apart Google s TPU 3 0 AI Coprocessor In The Next Platform 10 Mai 2018 abgerufen am 24 Mai 2018 englisch Systemarchitektur Cloud TPU Abgerufen am 12 Januar 2020 Google showcases Cloud TPU v4 Pods for large model training Abgerufen am 11 April 2022 golem de Johannes Hiltscher Google erklart TPU v4 KI Supercomputer mit flexiblem optischen Netz 5 April 2023 Norman P Jouppi u a TPU v4 An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings In arxiv org 4 April 2023 abgerufen am 6 April 2023 englisch doi 10 48550 arXiv 2304 01433 System Architecture Cloud TPU In Google Cloud Abgerufen am 11 Dezember 2022 englisch Patrick Kennedy Case Study on the Google TPU and GDDR5 from Hot Chips 29 Serve The Home 22 August 2017 Abgerufen am 23 August 2017 Google wins MLPerf benchmark contest with fastest ML training supercomputer Google Cloud Blog In cloud google com 30 Juli 2020 abgerufen am 6 April 2023 englisch Prozessorarchitekturen nbsp nach Wortbreite 1 Bit Architektur Bit Slice Architektur 4 Bit Architektur 8 Bit Architektur 16 Bit Architektur 32 Bit Architektur 64 Bit Architekturnach Befehlssatzaufbau CISC EPIC NISC RISC VLIW Mikroarchitekturmit Optimierung fur Einsatzzweck Haupt Prozessor Grafikprozessor GPGPU Streamprozessor Soundprozessor Gleitkommaeinheit Netzwerkprozessor Physikbeschleuniger Vektorprozessor TensorFlow Processing Unit Abgerufen von https de wikipedia org w index php title Tensor Processing Unit amp oldid 236658296