www.wikidata.de-de.nina.az
Apache Hadoop ist ein freies in Java geschriebenes Framework fur skalierbare verteilt arbeitende Software Es basiert auf dem MapReduce Algorithmus von Google Inc sowie auf Vorschlagen des Google Dateisystems und ermoglicht es intensive Rechenprozesse mit grossen Datenmengen Big Data Petabyte Bereich auf Computerclustern durchzufuhren Hadoop wurde vom Lucene Erfinder Doug Cutting initiiert und 2006 erstmals veroffentlicht 2 Am 23 Januar 2008 wurde es zum Top Level Projekt der Apache Software Foundation Nutzer sind unter anderem Facebook a9 com AOL Baidu IBM ImageShack und Yahoo 3 Apache HadoopBasisdatenEntwickler Apache Software FoundationErscheinungsjahr 2005Aktuelle Version 2 10 2 1 31 Mai 2022 Betriebssystem plattformunabhangigProgrammiersprache JavaKategorie Verteiltes DateisystemLizenz Apachedeutschsprachig neinhadoop apache org Inhaltsverzeichnis 1 Bestandteile 1 1 Hadoop Distributed File System HDFS 1 2 Yet Another Resource Negotiator YARN 1 3 MapReduce 1 4 Directed Acyclic Graph DAG 1 5 Transparente Kompression 1 6 Transparente Dateiformatunterstutzung 2 Erweiterungen 2 1 HBase 2 2 Hive 2 3 Pig 2 4 Chukwa 2 5 ZooKeeper 2 6 Spark 2 7 Flink 2 8 Ignite 3 Architektur 3 1 Lambda Architektur 3 2 Kappa Architektur 4 Auszeichnungen 5 Kommerzieller Support und kommerzielle Forks 6 Literatur 7 Weblinks 8 EinzelnachweiseBestandteile BearbeitenHadoop Distributed File System HDFS Bearbeiten HDFS ist ein hochverfugbares Dateisystem zur Speicherung sehr grosser Datenmengen auf den Dateisystemen mehrerer Rechner Knoten Dateien werden in Datenblocke mit fester Lange zerlegt und redundant auf die teilnehmenden Knoten verteilt Dabei gibt es Master und Worker Knoten Ein Masterknoten der sogenannte NameNode bearbeitet eingehende Datenanfragen organisiert die Ablage von Dateien in den Workerknoten und speichert anfallende Metadaten HDFS unterstutzt dabei Dateisysteme mit mehreren 100 Millionen Dateien 4 Sowohl Dateiblocklange als auch Redundanzgrad sind konfigurierbar HDFS eignet sich fur grosse Dateien Viele kleinere Dateien sind nicht sinnvoll und sollten uber Hadoop Archives HAR anwendungstransparent zusammengefasst werden 5 In zukunftigen Releases werden durch den Hadoop Distributed Data Store HDDS auch kleine Dateien ohne Umwege transparent unterstutzt 6 HDFS kann durch andere verteilte Dateisysteme wie CassandraFS MapRFS GPFS S3 und Azure Blockstorage ersetzt werden 7 Mit Einschrankungen werden auch FTP Server als Dateisystem unterstutzt 8 Hadoop Okosystem Anwendungen die fremde Dateisysteme nutzen sollen mussen fur optimale Performance die entsprechende Datenlokalitat unterstutzen was durch Tests sichergestellt werden sollte Yet Another Resource Negotiator YARN Bearbeiten YARN ermoglicht es die Ressourcen eines Clusters fur verschiedene Jobs dynamisch zu verwalten So ermoglicht es YARN durch Queues die Zuteilung der Kapazitaten des Clusters an einzelne Jobs festzulegen Neben CPU und Speicher wird ab Version 3 1 0 auch die Verwaltung von GPU und FPGA Ressourcen unterstutzt die vornehmlich fur maschinelles Lernen relevant sind Dies kann fur Anwendungen und Benutzer konfiguriert werden MapReduce Bearbeiten Hadoop implementiert den MapReduce Algorithmus mit konfigurierbaren Klassen fur Map Reduce und Kombinationsphasen MapReduce gilt zunehmend als veraltet innerhalb des Hadoop Okosystems und wird zunehmend durch Ausfuhrungsverfahren basierend auf einem Directed Acyclic Graph DAG Gerichteter azyklischer Graph ersetzt Directed Acyclic Graph DAG Bearbeiten Ausfuhrungsverfahren basierend auf einem gerichteten azyklischen Graphen werden zum Beispiel durch Apache TEZ Apache Flink oder Apache Spark fur das Hadoop Okosystem zur Verfugung gestellt Sie ermoglichen die schnelle Ausfuhrung von komplexen verteilten Algorithmen Aufgrund der modularen Architektur von Hadoop konnen diese Verfahren problemlos nebeneinander laufen Transparente Kompression Bearbeiten Hadoop unterstutzt die transparente Kompression von Dateien zur optimalen Speicher und Ressourcen Unterstutzung Es wird eine Vielzahl von Formaten unterstutzt darunter Snappy fur schnelle Komprimierung zlib fur hohe Kompressionsraten und Bzip2 fur hochste Komprimierung Es konnen beliebige weitere Formate Hadoop Anwendungen transparent zur Verfugung gestellt werden Kompression kann zur Verbesserung der Performance fuhren da diese die notwendigen IO Operationen signifikant reduziert Jedoch sind nicht alle Kompressionstypen splitable d h parallel dekomprimierbar Dies umgehen moderne Dateiformate wie ORC oder Parquet indem sie die zu komprimierenden Dateien intern in Blocke aufteilen Dadurch ist jedes Kompressionsformat geeignet um die Dateien parallel zu verarbeiten Transparente Dateiformatunterstutzung Bearbeiten Hadoop unterstutzt transparent die Verwendung unterschiedlicher Dateiformate je nach Anwendung Unterstutzt werden sowohl unstrukturierte als auch strukturierte Formate darunter einfache Textformate wie CSV JSON aber auch hochoptimierte Schemabasierende Dateien Apache Avro und hochoptimierte tabulare Formate wie ORC und Parquet Daneben konnen weitere Dateiformate einfach entwickelt werden Weitere Plugins unterstutzen die Analyse von CryptoLedgern XML gilt im Hadoop Okosystem als veraltet da es sich nicht fur hochperformante Big Data Anwendungen eignet Stattdessen wird empfohlen Apache Avro als Austauschformat zu nutzen und ORC oder Parquet als Abfrageformat fur hochstrukturierte Daten Erweiterungen BearbeitenHBase Bearbeiten HBase ist eine skalierbare einfache Datenbank zur Verwaltung sehr grosser Datenmengen innerhalb eines Hadoop Clusters Die HBase Datenbank basiert auf einer freien Implementierung von Bigtable Diese Datenstruktur ist fur Daten geeignet die selten verandert dafur aber sehr haufig erganzt werden Mit HBase lassen sich Milliarden von Zeilen verteilt und effizient verwalten 9 Es eignet sich um kleine Datenmengen aus grossen Datenmengen zu verarbeiten oder haufig geanderte Daten bzw einzelne Daten schnell zu schreiben Das Projekt Apache Phoenix 10 bietet eine SQL99 Schnittstelle fur HBase an Hive Bearbeiten Hive erweitert Hadoop um Data Warehouse Funktionalitaten namentlich die Anfragesprache HiveQL und Indizes HiveQL ist eine auf SQL basierende Abfragesprache und ermoglicht dem Entwickler somit die Verwendung einer SQL99 ahnlichen Syntax 11 Seit Hive 2 0 wird Hybrid Procedural SQL On Hadoop HPL SQL unterstutzt welches Ausfuhrung von PL SQL und vielen weiteren SQL Dialekten unterstutzt Ausserdem werden durch Verwendung des ORC Tabellenformats durch LLAP und viele weitere Optimierungen neben Batch Anwendung zunehmend auch komplexe interaktive Abfragen unterstutzt Diese Optimierungen entstammen der Stinger Initiative 12 welche auch eine Unterstutzung von SQL 2011 Analytics vorsieht Erweiterungen wie HiveMall 13 bieten in database Analytics fur komplexe Machine Learning Anwendungen Transaktionalitat wird ebenfalls durch das ORC Tabellenformat unterstutzt Es gibt die Moglichkeit traditionelle Indexe wie den B Tree Index und den Bitmap Index zu definieren Fur Data Warehouse Szenarien wird allerdings empfohlen nicht diese zu nutzen sondern das ORC Format mit Unterstutzung von Komprimierung Bloom Filtern und Storage Indexen 14 Dies ermoglicht wesentlich performantere Abfragen sofern die Daten sortiert sind Moderne Datenbank Appliances wie Oracle Exadata unterstutzen diese Optimierungsmoglichkeiten und empfehlen ebenfalls auf traditionelle Indexe aus Performance Grunden zu verzichten Hive unterstutzt die Ausfuhrung von Abfragesprachen durch sogenannte Engines MapReduce MR gilt als veraltet und sollte nicht mehr verwendet werden seit 2 0 als deprecated gekennzeichnet Stattdessen wird TEZ empfohlen Alternativ wird Spark als Engine angeboten Beide basieren auf Optimierungsverfahren durch gerichtete azyklische Graphen LLAP bietet einen transparenten in memory cache der auf interaktive Big Data Warehouse Anwendungen ausgerichtet ist 15 Im Sommer 2008 stellte Facebook der ursprungliche Entwickler von Hive das Projekt der Open Source Gemeinde zur Verfugung 16 Der von Facebook verwendete Hadoop Cluster gehort mit etwas mehr als 100 Petabyte Stand August 2012 zu den grossten der Welt 17 Das Datenvolumen wuchs bis 2014 auf 300 PByte an 18 Pig Bearbeiten Mit Pig konnen fur Hadoop MapReduce Programme in der High Level Sprache Pig Latin erstellt werden Pig ist durch folgende Eigenschaften charakterisiert 19 Einfachheit Die parallele Ausfuhrung komplexer Analysen ist einfach nachvollziehbar und durchfuhrbar Optimierung Pig optimiert selbststandig die Ausfuhrung komplexer Operationen nach der Carsten Methode Erweiterbarkeit Pig lasst sich durch eigene Funktionalitaten erweitern und somit auf individuelle Anwendungsbereiche anpassen Chukwa Bearbeiten Chukwa ermoglicht die Echtzeituberwachung sehr grosser verteilter Systeme ZooKeeper Bearbeiten ZooKeeper dient der verteilten Konfiguration von verteilten Systemen Spark Bearbeiten Spark 20 ist eine in memory Batch Processing Engine welche vornehmlich fur Machine Learning Anwendungen entwickelt wurde Es werden Graphanwendungen Streaminganwendungen und Datei basierte Batchjobs unterstutzt Eine Machine Learning Anwendung sowie eine in memory Batch Processing SQL Engine welche Hive unterstutzt stehen zur Verfugung Flink Bearbeiten Flink 21 ist eine in memory Stream Processing Engine und bietet grundsatzlich ahnliche Funktionen wie Spark wobei der Fokus starker auf Machine Learning und Complex Event Processing liegt Sie basiert auf dem europaischen Forschungsprojekt Stratosphere Flink wurde nach Spark veroffentlicht beinhaltete aber wesentlich fruher effiziente Speicherverwaltung von grossen Datenmengen die nicht auf langsamen Serialisierungsverfahren von Java basierten Ignite Bearbeiten Ignite ist ein verteilter Big Data Cache fur interaktive Abfragen zur Beschleunigung von Abfragen auf haufig genutzte Daten Er unterstutzt HDFS und Spark Durch die HDFS Unterstutzung konnen in Hive ausgewahlte Tabellen Partitionen in memory gehalten werden Architektur BearbeitenHadoop sollte als Okosystem verstanden werden in dem Hadoop mit vielen anderen Erweiterungen zusammenspielt Deswegen muss eine geeignete Architektur gewahlt werden Lambda Architektur Bearbeiten Eine populare Architektur ist hier die Lambda Architektur Es wird zwischen den folgenden Ebenen unterschieden Batch Layer Diese Ebene verarbeitet Daten als Teil von langdauernden Batchprozessen Dies wird haufig durch Hadoop MapReduce Spark oder Hive in Kombination mit dem HDFS Dateisystem abgedeckt Speed Layer Diese Ebene verarbeitet Datenstrome Streaming von Live Events Es handelt sich dabei um grosse Datenstrome von haufig mehreren Terabyte Stunde von Geraten aus dem Internet of Things Industrie 4 0 oder sozialen Netzwerken wie z B Twitter Facebook usw Oft kommen hier Online Machine Learning Algorithmen zum Einsatz da diese das Modell auf neueste Ereignisse adaptieren konnen Haufig werden hier Kafka zum Bundeln der Datenstrome und Spark Streaming Flink Streaming oder Storm verwendet Serving Layer Diese Ebene stellt die Ergebnisse aus dem Batch Layer und Speed Layer in einfacher Form den Benutzern moglichst schnell fur interaktive Analysen zur Verfugung Dieser Bereich wird haufig durch traditionelle Datenbanken abgedeckt aber immer ofter auch durch NoSQL Datenbanken da diese geeignetere Datenstrukturen anbieten wie z B Dokumentdatenbanken z B MongoDB Graphdatenbanken z B TitanDB Spalten orientierte Datenbanken z B HBase oder Key Value Stores z B Redis Kappa Architektur Bearbeiten Bei der Kappa Architektur wird vollstandig auf den Batchlayer verzichtet Es werden nur noch Live Events betrachtet und verarbeitet um sie im Serving Layer den Benutzern zur Verfugung zu stellen Dies stellt besondere Herausforderungen bzgl Verfugbarkeit Ausfallsicherheit und Once and Only Once Delivery Auszeichnungen BearbeitenEin auf Apache Hadoop basierendes Clustersystem hat in den Jahren 2008 und 2009 den Preis Terabyte Sort Benchmark gewonnen Es konnte unter den beim EDV Benchmark 22 getesteten Systemen am schnellsten grosse Datenmengen im Jahr 2009 einhundert Terabyte Integer verteilt sortieren jedoch mit einer deutlich grosseren Knotenzahl als die Mitbewerber da dies nicht in den Benchmarkstatuten reglementiert ist 23 24 Es war somit das erste Java und auch das erste Open Source Programm welches diesen Benchmark fur sich entscheiden konnte 25 Der Guardian verlieh Apache Hadoop im Marz 2011 bei den MediaGuardian Innovation Awards die Auszeichnung Innovator of the Year Das Projekt verwies dabei Innovationen wie WikiLeaks und iPad auf die Platze Hervorgehoben wurde dass Hadoop so vielseitige und weitreichende Anwendungen ermoglicht dass es sich als Beginn einer neuen Datenrevolution erweisen konne 26 Kommerzieller Support und kommerzielle Forks BearbeitenDa der Einsatz von Hadoop besonders fur Unternehmen interessant ist gibt es eine Reihe von Firmen die kommerziellen Support oder Forks von Hadoop anbieten Cloudera stellt mit CDH eine enterprise ready Open Source Distribution fur Hadoop bereit aktuelle Version CDH 6 0 0 27 Anfang 2019 wurde der andere grosse BigData Distribution Anbieter Hortonworks integriert 28 Hortonworks stammt ursprunglich aus einer Auskopplung von Yahoo und Benchmark Capital Teradata stellt in einer Partnerschaft mit Hortonworks eine erweiterte Distribution zur Verfugung 29 Teradata Open Distribution fur Hadoop TDH 2 1 verknupft somit Hadoop mit Teradata Produkten Teradata ist der globale Marktfuhrer im Bereich Data Warehousing Microsoft integriert Hadoop derzeit in Microsoft Azure und SQL Server 30 Die Integration wird Teil des SQL Server 2019 sein 31 Die Google App Engine MapReduce unterstutzt Hadoop Programme Das IBM Produkt InfoSphere BigInsights basiert auf Hadoop EMC bietet mit Greenplum HD Hadoop als Teil eines Produktpaketes an SAP SE bietet mit SAP HANA Vora Anbindung von Hadoop an SAP HANA SAS ermoglicht es SAS Skripte verteilt auf einem Hadoop Cluster auszufuhren Matlab von Mathworks unterstutzt die verteilte Ausfuhrung von Matlab Skripten auf einem Hadoop Cluster Daneben existieren weitere Anbieter 32 Literatur BearbeitenRamon Wartala Hadoop Zuverlassige verteilte und skalierbare Big Data Anwendungen Open Source Press Munchen 2012 ISBN 978 3 941841 61 1Weblinks BearbeitenOffizielle Website Hadoop based Services For WindowsEinzelnachweise Bearbeiten Release 2 10 2 available abgerufen am 26 Oktober 2023 http archive apache org dist hadoop core https cwiki apache org confluence display HADOOP2 PoweredBy HDFS Users Guide Apache Software Foundation archiviert vom Original am 21 Mai 2012 abgerufen am 26 Marz 2017 englisch https hadoop apache org docs current hadoop archives HadoopArchives html Archivierte Kopie Memento des Originals vom 27 Mai 2018 im Internet Archive nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot cwiki apache org Archivierte Kopie Memento des Originals vom 27 Januar 2016 im Internet Archive nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot wiki apache org http hadoop apache org docs r2 7 1 api org apache hadoop fs ftp FTPFileSystem html https hbase apache org https phoenix apache org https cwiki apache org confluence display Hive Home Archivierte Kopie Memento des Originals vom 26 Marz 2017 im Internet Archive nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot de hortonworks com https github com myui hivemall Archivierte Kopie Memento des Originals vom 4 Marz 2016 im Internet Archive nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot snippetessay wordpress com https cwiki apache org confluence display Hive LLAP http www dbms2 com 2009 05 11 facebook hadoop and hive Archivierte Kopie Memento des Originals vom 26 Marz 2017 im Internet Archive nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot de scribd com https code facebook com posts 229861827208629 scaling the facebook data warehouse to 300 pb https pig apache org https spark apache org https flink apache org Chris Nyberg und Mehul Shah Sort Benchmark Home Page Abgerufen am 30 November 2010 englisch Diverging views on Big Data density and some gimmes Grzegorz Czajkowski Sorting 1PB with MapReduce google 21 November 2008 abgerufen am 26 Marz 2017 Owen O Malley Yahoo Grid Computing Team Apache Hadoop Wins Terabyte Sort Benchmark Juli 2008 archiviert vom Original am 15 Oktober 2009 abgerufen am 14 Oktober 2009 This is the first time that either a Java or an open source program has won offline guardian co uk Megas 2011 Winners 25 Marz 2011 abgerufen am 25 Marz 2011 Applications of the system are diverse and far reaching and as data manipulation and management play an increasingly large part in all of our lives Hadoop may come to be seen as the beginning of a new data revolution https www cloudera com downloads cdh 6 0 0 html Cloudera Cloudera and Hortonworks Complete Planned Merger 3 Januar 2019 abgerufen am 22 September 2019 Cloudera Inc NYSE CLDR the enterprise data cloud company today announced completion of its merger with Hortonworks Inc Cloudera will deliver the first enterprise data cloud unlocking the power of any data running in any cloud from the Edge to AI on a 100 open source data platform PresseBox Teradata unterstutzt Hadoop 2 mit aktualisiertem Hadoop Portfolio 12 Juni 2014 abgerufen am 26 Marz 2017 Bei der aktualisierten Software Teradata Open Distribution fur Hadoop TDH 2 1 handelt es sich um eine weiterentwickelte Software Plattform die auf der Hortonworks Data Platform 2 1 basiert FSeiwerth Microsoft Big Data und Hadoop was steckt dahinter 31 Oktober 2011 abgerufen am 3 April 2012 In Zusammenarbeit mit dem Partner Hortonworks ist es geplant Hadoop vollstandig auf dem Windows Server zu portieren Zudem ist es geplant Hadoop auch als Dienst in Windows Azure anzubieten SQL Server 2019 preview combines SQL Server and Apache Spark to create a unified data platform microsoft com abgerufen am 25 September 2018 Archivierte Kopie Memento des Originals vom 18 Marz 2017 im Internet Archive nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot wiki apache orgNormdaten Sachbegriff GND 1022420135 lobid OGND AKS Abgerufen von https de wikipedia org w index php title Apache Hadoop amp oldid 235747484