www.wikidata.de-de.nina.az
Apache Spark ist ein Framework fur Cluster Computing das im Rahmen eines Forschungsprojekts am AMPLab der University of California in Berkeley entstand und seit 2010 unter einer Open Source Lizenz offentlich verfugbar ist Seit 2013 wird das Projekt von der Apache Software Foundation weitergefuhrt 3 und ist dort seit 2014 als Top Level Project eingestuft 4 Apache SparkBasisdatenEntwickler Apache Software FoundationErscheinungsjahr 30 Mai 2014 1 Marz 2014 1 Aktuelle Version 3 5 0 2 9 September 2023 Betriebssystem Windows OS X LinuxProgrammiersprache Scala Java PythonKategorie Entwicklungsframework Big Data AnalysenLizenz Apache Lizenz Version 2 0spark apache org Inhaltsverzeichnis 1 Architektur 1 1 Spark Core 1 2 Spark SQL 1 3 Spark Streaming 1 4 MLlib SparkML Machine Learning Library 1 5 GraphX 2 Weblinks 3 EinzelnachweiseArchitektur BearbeitenSpark besteht aus mehreren teilweise voneinander abhangigen Komponenten Spark Core Bearbeiten Der Spark Core bildet die Grundlage des gesamten Spark Systems Er stellt grundlegende Infrastruktur Funktionalitaten bereit Aufgabenverteilung Scheduling I O etc Die grundlegende Datenstruktur fur alle in Spark ausgefuhrten Operationen wird als Resilient Distributed Dataset RDD auf deutsch etwa robuster verteilter Datensatz bezeichnet hierbei handelt es sich um einen nach logischen Kriterien gebildeten Teil Bestand von Daten der uber mehrere Rechner verteilt werden kann RDDs konnen aus externen Quellen z B SQL Datei erzeugt werden oder als Ergebnis aus der Anwendung verschiedener Transformations Funktionen map reduce filter join group Die RDDs und Transformationen konnen als gerichteter azyklischer Graph directed acyclic graph DAG verstanden werden Spark SQL Bearbeiten Spark SQL bietet die Moglichkeit RDDs in einen sogenannten Data Frame zu wandeln auf dem SQL Anfragen durchgefuhrt werden konnen Dazu werden Data Frames als temporare Tabellen mit einem benutzerdefinierten Tabellennamen registriert welcher in der FROM Klausel von SQL Anfragen verwendet werden kann Dies ermoglicht eine einfache Durchfuhrung von Selektionen Projektionen Joins Gruppierungen und mehr Spark Streaming Bearbeiten Spark Streaming ermoglicht die Verarbeitung von Datenstromen indem diese in einzelne Pakete unterteilt werden auf welchen dann wiederum Transformationen ausgefuhrt werden konnen MLlib SparkML Machine Learning Library Bearbeiten MLlib und das seine Nachfolge antretende SparkML 5 sind Funktionsbibliotheken die typische Machine Learning Algorithmen fur verteilte Spark Systeme verfugbar machen GraphX Bearbeiten GraphX ist ein auf Spark basierendes verteiltes Framework fur Berechnungen auf Graphen Weblinks BearbeitenApache Spark Website englisch Apache Spark Ubersicht deutsch Apache Spark Tutorial deutsch Apache Spark Einfuhrung deutsch Einzelnachweise Bearbeiten projects apache org abgerufen am 8 April 2020 Release 3 5 0 9 September 2023 abgerufen am 18 September 2023 History Apache Software Foundation abgerufen am 14 Juni 2015 englisch The Apache Software Foundation Announces Apache Spark as a Top Level Project Apache Software Foundation abgerufen am 14 Juni 2015 englisch Machine learning on HDInsight In Microsoft Azure 19 Januar 2018 abgerufen am 15 November 2018 englisch SparkML is a newer package that provides a higher level API built on top of DataFrames for constructing ML pipelines SparkML does not yet support all of the features of MLlib but is replacing MLlib as Spark s standard machine learning library Abgerufen von https de wikipedia org w index php title Apache Spark amp oldid 232852964