www.wikidata.de-de.nina.az
Cell oder auch Cell Broadband Engine ist eine Prozessorserie die von IBM gemeinsam mit Sony und Toshiba entwickelt wurde Die Prozessoren zeichnen sich durch die Nutzung eines 64 Bit PowerPC Kernes einer Pipeline Architektur Unterstutzung fur Simultaneous Multithreading und den Einsatz einer heterogenen Mehrkern Architektur aus wodurch sie fur paralleles Rechnen pradestiniert sind Inhaltsverzeichnis 1 Aufbau 1 1 Synergistic Processing Element SPE 1 1 1 Lokaler Speicher und Speicherverwaltung 1 1 2 Synergistic Processing Unit SPU 1 2 Power Processor Element PPE 2 Geschichte 3 Einsatz 4 Weitere Informationen 5 Siehe auch 6 Weblinks 7 EinzelnachweiseAufbau Bearbeiten nbsp Schema des Cell ProzessorsDas Grundkonzept der Cell Prozessoren sieht acht Synergistic Processing Elements SPE und ein PowerPC Processing Element PPE vor Die einzelnen Prozessorkerne sind uber einen Element Interconnect Bus EIB gekoppelt der Daten mit bis zu 96 Byte pro CPU Takt ubertragen kann Sowohl das PPE als auch die SPEs konnen pro CPU Takt mit 8 Bytes auf den EIB zugreifen Der EIB ist dabei als Ringbus 4 128 Bit realisiert und wird mit halbem CPU Takt getaktet Der Zugriff auf den Hauptspeicher erfolgt uber einen Memory Interface Controller MIC 1 Synergistic Processing Element SPE Bearbeiten Jedes SPE besteht aus einer Recheneinheit ALU mit vierfachem SIMD bezeichnet als Synergistic Processing Unit SPU oder auch SPX Diese verfugt uber 128 Register die jeweils 128 Bit gross sind Zum SPE gehort weiterhin ein Memory Flow Controller MFC der DMA Ubertragungen zum Hauptspeicher oder zu anderen SPEs steuert sowie ein eigener lokaler Speicher von 256 kB Lokaler Speicher und Speicherverwaltung Bearbeiten Der lokale Speicher auch Load Store Unit kurz LS besteht aus vier getrennten 64 KB grossen Speicherblocken mit sechs Takten Latenzzeit 2 Direkt kann eine SPU lediglich mit dem lokalen Speicher kommunizieren Fur Zugriffe oder Kommunikation mit dem Hauptspeicher der PPE oder anderen SPUs zeichnet ein Memory Flow Controller MFC verantwortlich welcher komplett unabhangig agiert Damit lasst sich der Speicher der einzelnen SPEs theoretisch frei aufteilen oder auch mit spezifischen Zugriffsrechten schutzen Insgesamt sind 16 Speicheraktionen mit dem MFC gleichzeitig moglich 3 Mit dem vollstandigen Verzicht auf Cache zugunsten eines direkt adressierbaren und SRAM basierten lokalen Speichers konnen Speicherlatenzen gegenuber einer Cache gestutzten In Order Architektur kontrolliert und entsprechend gering gehalten werden Dank dieser Methode konnen Programmablaufe sowohl durch Compiler als auch durch direkte Programmierung in hohem Masse kontrolliert werden sodass Out of order execution oder ausgefeilte Sprungvorhersagen die unnotig die Komplexitat des Prozessors erhoht hatten fur eine hohe Performance uberflussig wurden 4 nbsp Schema der SPESynergistic Processing Unit SPU Bearbeiten Eine SPU arbeitet mit zwei Pipelines even und odd die insgesamt 23 Stufen lang sind Die even Pipeline beherbergt die Floating Point und Fixed Point Units wahrend sich samtliche andere Funktionseinheiten auf der odd Pipeline befinden Eine SPU kann zwei Instruktionen pro Takt ausfuhren dual issue davon je eine pro Pipeline Dies entspricht maximal acht Gleitkommaoperationen pro Takt bei einfacher Genauigkeit Bei 3 2 GHz Taktrate ergibt sich somit eine theoretische Leistung von 25 6 GFLOPS pro SPU 5 Implementiert ist lediglich eine statische Sprungvorhersage Wichtig ist in diesem Bezug deshalb die Leistung des Compilers da Pipeline Hazards eine Wartezeit von 18 Takten nach sich ziehen Die hohe Anzahl an Registersatzen hilft zusatzlich Latenzen zu uberbrucken indem Schleifen aufgelost Loop unrolling oder Algorithmen mehrfach parallel ausgefuhrt werden konnen 3 Bei den SPUs handelt es sich nicht um Koprozessoren Sie konnen unabhangig voneinander arbeiten und sind zudem kompatibel zu PPE Programmcode sofern dieser rekompiliert und um DMA Calls erweitert wurde Obwohl SPUs fur spezifischere Anwendungsgebiete entworfen wurden handelt es sich um Prozessoren mit General Purpose Instruction Set 6 7 nbsp Schema der PPEPower Processor Element PPE Bearbeiten Der Steuerprozessor PPE basiert auf der 64 Bit PowerPC Architektur von IBM dessen Pipeline aber im Vergleich zu ublichen PowerPC Prozessoren in order das heisst nacheinander abarbeitend arbeitet Jedoch verfugt das PPE uber Delayed Execution Pipelines welche Out Of Order Execution zumindest fur Load Instructions erlauben 8 Da er zwei Threads gleichzeitig abarbeiten kann entstehen bei entsprechend eingerichteten Programmen die ublichen In Order Nachteile durch blockierte Pipelines in geringerem Masse Dem PPE stehen 512 KB L2 Cache zur Verfugung Insgesamt verfugt die CPU also uber 2 5 MB internen Speicher Geschichte BearbeitenDer Cell Prozessor ist eine Gemeinschaftsentwicklung von Sony Toshiba und IBM Die Entwicklung begann im Marz 2001 in einem Entwicklungscenter in Austin unter Beteiligung von Ingenieuren aller drei Firmen Es waren zusammen uber 400 Fachkrafte verteilt uber zehn Standorte weltweit in die Entwicklung des Cell involviert Die Synergistic Processing Units wurden dabei weitgehend am IBM Standort im schwabischen Boblingen entworfen 3 5 Insgesamt veranschlagte die Entwicklung uber 400 Millionen US Dollar 9 weitere Milliarden wurden in die Errichtung von Foundrys investiert darunter am IBM Produktionsstandort in East Fishkill New York 5 Der erste Cell Prozessor wurde in 90 nm Strukturgrosse im SOI Verfahren gefertigt dabei erreichte das Die eine Flache von rund 235 mm Berichte vor April 2005 die sich auf einen fruheren Prototyp DD1 des Prozessors beziehen sprechen von einer geringfugig kleineren Die Flache von 221 mm Die finale Version DD2 verfugt uber ein verbessertes PPE mit hoherer SIMD Leistung welche mehr Platz beansprucht 10 Ab Marz 2007 stellte IBM den Prozessor in 65 nm Verfahren her was zu einer kleineren Die Flache und somit zu geringeren Fertigungskosten fuhrte 11 Mit Einfuhrung der PlayStation 3 Slim im August 2009 folgte ein weiterer Shrink auf 45 nm bei einer Flache von lediglich 115 mm 12 13 2007 wurde eine verbesserte Variante des Cell Prozessors auf den Markt gebracht der PowerXCell 8i Dieser wurde bereits vom Start weg in 65 nm gefertigt und unterstutzt im Vergleich zu seinem Vorganger Berechnungen mit Gleitkommazahlen doppelter Genauigkeit nativ das heisst ohne Hilfsfunktionen und damit wesentlich schneller Einsatz Bearbeiten nbsp CELL BE einer PlayStation 3Der Cell Prozessor wurde mit speziellem Augenmerk auf breitbandige Berechnungsanwendungen entwickelt vor allem Grafikberechnung und Videokodierung dekodierung Die erste kommerzielle Verwendung fand das Design im September 2006 in IBM Bladeservern mit acht SPEs 14 Bekannt wurde der Prozessor aber vor allem durch seinen Einsatz in Sonys Spielkonsole PlayStation 3 wo er mit 3 2 GHz Takt lauft jedoch nur mit sieben SPEs So konnen auch Cell Chips mit nur sieben funktionierenden SPEs noch verwendet werden wodurch die Kosten gesenkt werden konnen Auch mit nur sieben SPEs erreicht der Prozessor aber eine theoretische Spitzenleistung von uber 200 GFlops bei einfach genauen Gleitkommazahlen was den Prozessoren der Konkurrenzkonsolen der siebten Generation Xbox 360 und Wii uberlegen ist Des Weiteren wird der Prozessor auch in Fernsehern mit erweiterten Videofunktionen eingesetzt 15 Cell Derivate mit nur vier SPEs und zusatzlicher Hardware zur Videokodierung und dekodierung finden auch in speziellen Notebooks von Toshiba Verwendung 16 17 sowie in Erweiterungskarten fur PCs 18 Der Nachfolgeprozessor PowerXCell 8i wird seit Marz 2007 in Servern eingesetzt 19 20 Weitere Informationen Bearbeiten nbsp Peter Hofstee einer der leitenden Architekten des ProzessorsIm LINPACK Leistungsvergleich mit anderen Prozessoren schneidet der Cell BE wie folgt ab 8 LINPACK DP Takt frequenz theoretischeLeistung durchschnittlicheLeistung Effizienz MatrixCell BE a 3 2 GHz 100 00 GFlops b b 4k 4kSPU c 3 2 GHz 1 83 GFlops 1 45 GFlops 79 23 1k 1k8 SPUs c 3 2 GHz 14 63 GFlops 9 46 GFlops 64 66 1k 1kPentium 4 3 2 GHz 6 40 GFlops 3 10 GFlops 48 44 1k 1kPentium 4 SSE3 3 6 GHz 14 40 GFlops 7 20 GFlops 50 00 1k 1kItanium 1 6 GHz 6 40 GFlops 5 95 GFlops 92 97 1k 1ka Implementierung unter Jack Dongarra b unbekannt c Implementierung unter IBM Die Werte beziehen sich auf doppelt genaue Gleitkommazahlen 64 Bits fur welche die SPUs des Cell Prozessors nicht ausgelegt sind Mithilfe der fur doppelten Genauigkeit optimierten VMX Einheit im PPE gelingt dem Cell Prozessor unter der Implementierung von IBM bis zu 21 03 GFlops Eine Arbeitsgruppe unter der Leitung von Jack Dongarra optimierte den Code durch die Nutzung eines iterativen Verfahrens Damit lasst sich unter LINPACK bei doppelter Genauigkeit eine Performance entsprechend 100 GFlops auf einer 4K 4K Matrix erreichen Das PPE tragt dabei zwar ebenfalls nicht zur eigentlichen Berechnung bei dient jedoch als Steuereinheit der SPUs 21 LINPACK Berechnungen mit einfach genauen Gleitkommazahlen 32 Bits erreichen auf einem Cell Prozessor mit acht SPUs uber 73 GFlops Mit zunehmender Matrixgrosse steigt die Recheneffizienz so dass 8 SPUs auf einer 4K 4K Matrix unter LINPACK etwa 156 GFlops erreichen Zudem ist es auch interessant den Cell Prozessor mit anderen Multiprozessoren zu vergleichen Multi Array Prozessoren 22 Hersteller Prozessor Kerne SIMD Einheiten Takt GHz FMUL FADD GFLOPS Spitzenleistung GFLOPS BLAS SGEMM GFLOPS Verlustleistung Watt AusfuhrungIBM Cell BE a 8 4 3 200 2 204 8 201 80 ProzessorNvidia 8800Ultra G80 128 1 1 512 2 387 1 b gt 170 KarteNvidia 8800GTX G80 128 1 1 350 2 345 6 105 c 120 170 KarteNvidia GT200b 240 1 1 476 n a 1062 7 b 180 240 KarteATI HD2900 XT R600 320 5 0 742 2 474 9 b 150 200 KarteATI 1900XTX R580 48 4 0 650 2 249 6 120 130 170 d KarteATI RV770 800 5 0 750 n a 1200 b 80 160 KarteClearSpeed CSX700 23 192 1 0 250 2 96 80 10 ProzessorClearSpeed e710 192 1 0 250 2 96 80 25 Kartea ohne Berucksichtigung des PPE b unbekannt c unter DirectX 9 d ctmSiehe auch BearbeitenH Peter Hofstee Hardwareseitiges Multithreading Nebenlaufigkeit Parallelrechner PowerPC Terascale Prozessor TRIPS ProzessorWeblinks Bearbeiten nbsp Commons Cell Prozessor Sammlung von Bildern Videos und Audiodateien ibm com Cell Broadband Engine Memento vom 26 Januar 2013 im Webarchiv archive today englisch Cell Architecture Explained Details zur Cell Broadband Engine englisch Cell Broadband Engine resource center IBM englisch Einzelnachweise Bearbeiten D Pham S Asano M Bolliger M Day H Hofstee C Johns J Kahle A Kameyama J Keaty Y Masubuchi M Riley D Shippy D Stasiak M Suzuoki M Wang J Warnock S Weitzel D Wendel T Yamazakiund K Yazawa The design and implementation of a first generation CELL processor International Solid State Circuits Conference Februar 2005 S 184 185 ISSCC 2005 The CELL Microprocessor Artikel auf Realworldtech vom 10 Februar 2005 a b c Cell Kultur Innenleben und Programmierung des Cell Prozessons In c t S 28 ff Ausgabe c t special 01 07 Playstation 3 Cell s Approach In Order with no Cache abgerufen am 28 Januar 2011 a b c Cell Architecture Explained abgerufen am 20 Januar 2013 Practical SPU Programming in God of War III PDF 4 4 MB abgerufen am 28 Januar 2011 The PlayStation3 s SPUs in the Real World PDF 62 4 MB abgerufen am 24 Januar 2013 a b IBM Cell Broadband Engine Architecture and its first implementation A performance view Holy Chip 30 Januar 2006 englisch abgerufen am 13 Januar 2013 CELL Microprocessor III Realworldtech 24 Juli 2005 xbitlabs com IBM Produces Cell Processor Using New Fabrication Technology Memento vom 15 Marz 2007 im Internet Archive Sony answers our questions about the new PlayStation 3 Arstechnica 18 August 2009 Console Die Sizes Beyond3D 21 November 2012 IBM stellt Blade Server Modul mit Cell Prozessoren vor Heise de 13 September 2006 Toshiba Demonstrates Cell Microprocessor Simultaneously Decoding 48 MPEG 2 Streams Tech On 25 April 2005 Toshiba Qosmio G55 erstes Notebook mit SpursEngine Golem de 18 Juni 2008 Toshiba Qosmio G55 Q802 Laptop Computers Specs amp Customer Reviews Nicht mehr online verfugbar In explore toshiba com Ehemals im Original abgerufen am 30 August 2023 1 2 Vorlage Toter Link explore toshiba com Seite nicht mehr abrufbar Suche in Webarchiven Produktspezifikation zum Notebook mit SpursEngine Prozessor einem Cell Derivat The WinFast PxVC1100 Video Transcoding Card Worth The Price Testbericht auf tomshardware com 28 Januar 2010 beyond3d com IBM announces PowerXCell 8i QS22 blade server Memento vom 16 Juni 2008 im Internet Archive IBM BladeCenter QS22 Nicht mehr online verfugbar In ibm com Ehemals im Original abgerufen am 30 August 2023 1 2 Vorlage Toter Link www ibm com Seite nicht mehr abrufbar Suche in Webarchiven Produktspezifikation zum IBM Bladeserver mit PowerXCell 8i Exploiting the Performance of 32 bit Floating Point Arithmetic in Obtaining 64 bit Accuracy PDF 227 kB 31 Oktober 2006 englisch abgerufen am 5 Januar 2011 Zellulare Strukturen In c t 12 2007 S 196 ff clearspeed com Products CSX700 Memento vom 18 Mai 2009 im Internet Archive Abgerufen von https de wikipedia org w index php title Cell Prozessor amp oldid 236890005