www.wikidata.de-de.nina.az
Unter Data Mining ˈdeɪte ˈmaɪnɪŋ von englisch data mining aus englisch data Daten und englisch mine graben abbauen fordern 1 versteht man die systematische Anwendung statistischer Methoden auf grosse Datenbestande insbesondere Big Data bzw Massendaten mit dem Ziel neue Querverbindungen und Trends zu erkennen Solche Datenbestande werden aufgrund ihrer Grosse mittels computergestutzter Methoden verarbeitet In der Praxis wurde der Unterbegriff Data Mining auf den gesamten Prozess der sogenannten Knowledge Discovery in Databases englisch fur Wissensentdeckung in Datenbanken KDD ubertragen der auch Schritte wie die Vorverarbeitung und Auswertung beinhaltet wahrend Data Mining im engeren Sinne nur den eigentlichen Verarbeitungsschritt des Prozesses bezeichnet 2 Die Bezeichnung Data Mining eigentlich etwa Abbau von Daten ist etwas irrefuhrend denn es geht um die Gewinnung von Wissen aus bereits vorhandenen Daten und nicht um die Generierung von Daten selbst 3 Die pragnante Bezeichnung hat sich dennoch durchgesetzt Die reine Erfassung Speicherung und Verarbeitung von grossen Datenmengen wird gelegentlich ebenfalls mit dem Buzzword Data Mining bezeichnet Im wissenschaftlichen Kontext bezeichnet es primar die Extraktion von Wissen das gultig im statistischen Sinne bisher unbekannt und potentiell nutzlich 4 ist zur Bestimmung bestimmter Regelmassigkeiten Gesetzmassigkeiten und verborgener Zusammenhange 5 Fayyad definiert es als ein en Schritt des KDD Prozesses der darin besteht Datenanalyse und Entdeckungsalgorithmen anzuwenden die unter akzeptablen Effizienzbegrenzungen eine spezielle Auflistung von Mustern oder Modellen der Daten liefern 2 Das Schliessen von Daten auf hypothetische Modelle wird als Statistische Inferenz bezeichnet Inhaltsverzeichnis 1 Abgrenzung von anderen Fachbereichen 2 Deutsche Bezeichnung 3 Data Mining Prozess 4 Aufgabenstellungen des Data Mining 4 1 Ausreisser Erkennung 4 2 Clusteranalyse 4 3 Klassifikation 4 4 Assoziationsanalyse 4 5 Regressionsanalyse 4 6 Zusammenfassung 5 Spezialisierungen 5 1 Textmining 5 2 Webmining 5 3 Zeitreihenanalyse 6 Probleme des Data Mining 6 1 Daten Defekte 6 2 Parametrisierung 6 3 Evaluation 6 4 Interpretation 7 Anwendungsgebiete 7 1 Data Mining in der Industrie 7 2 Educational Data Mining 8 Rechtliche moralische und psychologische Aspekte 8 1 Rechtliche Aspekte 8 2 Moralische Aspekte 8 3 Psychologische Aspekte 9 Softwarepakete fur Data Mining 10 Literatur 11 EinzelnachweiseAbgrenzung von anderen Fachbereichen BearbeitenViele der im Data Mining eingesetzten Verfahren stammen eigentlich aus der Statistik insbesondere der multivariaten Statistik und werden oft nur in ihrer Komplexitat fur die Anwendung im Data Mining angepasst oft dabei zu Ungunsten der Genauigkeit approximiert Der Verlust an Genauigkeit geht oft mit einem Verlust an statistischer Gultigkeit einher so dass die Verfahren aus einer rein statistischen Sicht mitunter sogar falsch sein konnen Fur die Anwendung im Data Mining sind oft jedoch der experimentell verifizierte Nutzen und die akzeptable Laufzeit entscheidender als eine statistisch bewiesene Korrektheit Ebenfalls eng verwandt ist das Thema maschinelles Lernen jedoch ist bei Data Mining der Fokus auf dem Finden neuer Muster wahrend im maschinellen Lernen primar bekannte Muster vom Computer automatisch in neuen Daten wiedererkannt werden sollen Eine einfache Trennung ist hier jedoch nicht immer moglich Werden beispielsweise Assoziationsregeln aus den Daten extrahiert so ist das ein Prozess der den typischen Data Mining Aufgaben entspricht die extrahierten Regeln erfullen aber auch die Ziele des maschinellen Lernens Umgekehrt ist der Teilbereich des unuberwachten Lernens aus dem maschinellen Lernen sehr eng mit Data Mining verwandt Verfahren aus dem maschinellen Lernen finden oft im Data Mining Anwendung und umgekehrt Die Forschung im Bereich der Datenbanksysteme insbesondere von Indexstrukturen spielt fur das Data Mining eine grosse Rolle wenn es darum geht die Komplexitat zu reduzieren Typische Aufgaben wie Nachste Nachbarn Suche konnen mit Hilfe eines geeigneten Datenbankindexes wesentlich beschleunigt werden und die Laufzeit eines Data Mining Algorithmus dadurch verbessert werden Das Information Retrieval IR ist ein weiteres Fachgebiet das von Erkenntnissen des Data Mining profitiert Hier geht es vereinfacht gesprochen um die computergestutzte Suche nach komplexen Inhalten aber auch um die Prasentation fur den Nutzer Data Mining Verfahren wie die Clusteranalyse finden hier Anwendung um die Suchergebnisse und ihre Prasentation fur den Nutzer zu verbessern beispielsweise indem man ahnliche Suchergebnisse gruppiert Text Mining und Web Mining sind zwei Spezialisierungen des Data Mining die eng mit dem Information Retrieval verbunden sind Die Datenerhebung also das Erfassen von Informationen in einer systematischen Art und Weise ist eine wichtige Voraussetzung um mit Hilfe von Data Mining gultige Ergebnisse bekommen zu konnen Wurden die Daten statistisch unsauber erhoben so kann ein systematischer Fehler in den Daten vorliegen der anschliessend im Data Mining Schritt gefunden wird Das Ergebnis ist dann unter Umstanden keine Konsequenz der beobachteten Objekte sondern verursacht durch die Art in welcher die Daten erfasst wurden Deutsche Bezeichnung BearbeitenEine etablierte deutsche Ubersetzung fur den englischen Terminus Data Mining existiert bislang nicht 6 Es gibt verschiedene Versuche eine sachlich in allen Aspekten zutreffende deutsche Bezeichnung fur den ungenauen englischen Ausdruck zu finden Der Duden 5 beschrankt sich auf den eingedeutschten Anglizismus Data Mining engl data mining Vorschlage zur Eindeutschung sind beispielsweise Datenmustererkennung 7 was oft als Wiedererkennung bestehender Muster missinterpretiert wird und Datenschurfung was der Originalbedeutung nicht vollkommen gerecht wird Der Fremdworter Duden verwendet als wortliche Ubersetzung Datenforderung kennzeichnet dies aber als nicht passende Ubersetzung 8 Auch der gezielte Aufruf nach Vorschlagen durch die Zeitschrift fur Kunstliche Intelligenz brachte keine uberzeugenden Vorschlage 6 Keiner dieser Bezeichner konnte nennenswerte Verbreitung erreichen oft da bestimmte Aspekte des Themas wie die Wissensentdeckung verloren gehen und falsche Assoziationen wie zur Mustererkennung im Sinne von Bilderkennung entstehen Gelegentlich wird die deutsche Bezeichnung Wissensentdeckung in Datenbanken fur das englische Knowledge Discovery in Databases verwendet die den gesamten Prozess umfasst der auch den Data Mining Schritt enthalt Des Weiteren betont diese Bezeichnung sowohl die wissenschaftlichen Anspruche als auch dass der Prozess in der Datenbank ablauft und sich eben nicht beispielsweise ein Mensch durch Interpretation eine Meinung aus den Daten bildet Data Mining Prozess Bearbeiten Hauptartikel Knowledge Discovery in Databases Data Mining ist der eigentliche Analyseschritt des Knowledge Discovery in Databases Prozesses Die Schritte des iterativen Prozesses sind grob umrissen 4 Fokussieren die Datenerhebung und Selektion aber auch das Bestimmen bereits vorhandenen Wissens Vorverarbeitung die Datenbereinigung bei der Quellen integriert und Inkonsistenzen beseitigt werden beispielsweise durch Entfernen oder Erganzen von unvollstandigen Datensatzen Transformation in das passende Format fur den Analyseschritt beispielsweise durch Selektion von Attributen oder Diskretisierung der Werte Data Mining der eigentliche Analyseschritt Evaluation der gefundenen Muster durch den Experten und Kontrolle der erreichten ZieleIn weiteren Iterationen kann nun bereits gefundenes Wissen verwendet in den Prozess integriert werden um in einem erneuten Durchlauf zusatzliche oder genauere Ergebnisse zu erhalten Aufgabenstellungen des Data Mining BearbeitenTypische Aufgabenstellungen des Data Mining sind 2 4 Ausreisser Erkennung Identifizierung von ungewohnlichen Datensatzen Ausreissern Fehlern Anderungen Clusteranalyse Gruppierung von Objekten aufgrund von Ahnlichkeiten Klassifikation bisher nicht Klassen zugeordnete Elemente werden den bestehenden Klassen zugeordnet Assoziationsanalyse Identifizierung von Zusammenhangen und Abhangigkeiten in den Daten in Form von Regeln wie Aus A und B folgt normalerweise C Regressionsanalyse Identifizierung von Beziehungen zwischen mehreren abhangigen und unabhangigen Variablen Zusammenfassung Reduktion des Datensatzes auf eine kompaktere Beschreibung ohne wesentlichen InformationsverlustDiese Aufgabenstellungen konnen noch grob gegliedert werden in Beobachtungsprobleme Ausreisser Erkennung Clusteranalyse und Prognoseprobleme Klassifikation Regressionsanalyse Ausreisser Erkennung Bearbeiten Hauptartikel Ausreisser In dieser Aufgabe werden Datenobjekte gesucht die inkonsistent zu dem Rest der Daten sind beispielsweise indem sie ungewohnliche Attributswerte haben oder von einem generellen Trend abweichen Das Verfahren Local Outlier Factor sucht beispielsweise Objekte die eine von ihren Nachbarn deutlich abweichende Dichte aufweisen man spricht hier von dichtebasierter Ausreisser Erkennung Identifizierte Ausreisser werden oft anschliessend manuell verifiziert und aus dem Datensatz ausgeblendet da sie die Ergebnisse anderer Verfahren verschlechtern konnen In manchen Anwendungsfallen wie der Betrugserkennung sind aber gerade die Ausreisser die interessanten Objekte Clusteranalyse Bearbeiten Hauptartikel Clusteranalyse Bei der Clusteranalyse geht es darum Gruppen von Objekten zu identifizieren die sich auf eine gewisse Art ahnlicher sind als andere Gruppen Oft handelt es sich dabei um Haufungen im Datenraum woher der Begriff Cluster kommt Bei einer dichteverbundenen Clusteranalyse wie beispielsweise DBSCAN oder OPTICS konnen die Cluster aber beliebige Formen annehmen Andere Verfahren wie der EM Algorithmus oder k Means Algorithmus bevorzugen spharische Cluster Objekte die keinem Cluster zugeordnet wurden konnen als Ausreisser im Sinne der zuvor genannten Ausreisser Erkennung interpretiert werden Klassifikation Bearbeiten Hauptartikel Klassifikationsverfahren Bei der Klassifikation geht es ahnlich der Clusteranalyse darum Objekte Gruppen hier als Klassen bezeichnet zuzuordnen Im Gegensatz zur Clusteranalyse sind hier aber in der Regel die Klassen vordefiniert Beispielsweise Fahrrader Autos und es werden Verfahren aus dem maschinellen Lernen eingesetzt um bisher nicht zugeordnete Objekte diesen Klassen zuzuordnen Assoziationsanalyse Bearbeiten Hauptartikel Assoziationsanalyse In der Assoziationsanalyse werden haufige Zusammenhange in den Datensatzen gesucht und meist als Schlussregeln formuliert Ein beliebtes wenn auch anscheinend fiktives Beispiel das unter anderem in der Fernsehserie Numbers Die Logik des Verbrechens erwahnt wurde ist folgendes bei der Warenkorbanalyse wurde festgestellt dass die Produktkategorien Windeln und Bier uberdurchschnittlich oft zusammen gekauft werden meist dargestellt in Form einer Schlussregel Kunde kauft Windeln displaystyle Rightarrow nbsp Kunde kauft Bier Die Interpretation dieses Ergebnisses war dass Manner wenn sie von ihren Ehefrauen Windeln kaufen geschickt werden sich gerne noch ein Bier mitnehmen Durch Platzierung des Bierregals auf dem Weg von den Windeln zur Kasse konnte angeblich 9 der Bierverkauf weiter gesteigert werden Regressionsanalyse Bearbeiten Hauptartikel Regressionsanalyse Bei der Regressionsanalyse wird der statistische Zusammenhang zwischen unterschiedlichen Attributen modelliert Dies erlaubt unter anderem die Prognose von fehlenden Attributswerten aber auch die Analyse der Abweichung analog zur Ausreisser Erkennung Verwendet man Erkenntnisse aus der Clusteranalyse und berechnet separate Modelle fur jeden Cluster so konnen typischerweise bessere Prognosen erstellt werden Wird ein starker Zusammenhang festgestellt so kann dieses Wissen auch gut fur die Zusammenfassung genutzt werden Zusammenfassung Bearbeiten Da Data Mining oft auf grosse und komplexe Datenmengen angewendet wird ist eine wichtige Aufgabe auch die Reduktion dieser Daten auf eine fur den Nutzer handhabbare Menge Insbesondere die Ausreisser Erkennung identifiziert hierzu einzelne Objekte die wichtig sein konnen die Clusteranalyse identifiziert Gruppen von Objekten bei denen es oft reicht sie nur anhand einer Stichprobe zu untersuchen was die Anzahl der zu untersuchenden Datenobjekte deutlich reduziert Die Regressionsanalyse erlaubt es redundante Informationen zu entfernen und reduziert so die Komplexitat der Daten Klassifikation Assoziationsanalyse und Regressionsanalyse zum Teil auch die Clusteranalyse liefern zudem abstraktere Modelle der Daten Mit Hilfe dieser Ansatze wird sowohl die Analyse der Daten als auch beispielsweise deren Visualisierung durch Stichproben und geringere Komplexitat vereinfacht Spezialisierungen BearbeitenWahrend die meisten Data Mining Verfahren versuchen mit moglichst allgemeinen Daten umgehen zu konnen gibt es auch Spezialisierungen fur speziellere Datentypen Textmining Bearbeiten Hauptartikel Textmining Im Textmining geht es um die Analyse von grossen textuellen Datenbestanden Dies kann beispielsweise der Plagiats Erkennung dienen oder um den Textbestand zu klassifizieren Webmining Bearbeiten Hauptartikel Web Mining Beim Webmining geht es um die Analyse von verteilten Daten wie es Internetseiten darstellen Fur die Erkennung von Clustern und Ausreissern werden hier aber nicht nur die Seiten selbst sondern insbesondere auch die Beziehungen Hyperlinks der Seiten zueinander betrachtet Durch die sich standig andernden Inhalte und die nicht garantierte Verfugbarkeit der Daten ergeben sich zusatzliche Herausforderungen Dieser Themenbereich ist auch eng mit dem Information Retrieval verbunden Zeitreihenanalyse Bearbeiten Hauptartikel Zeitreihenanalyse In der Zeitreihenanalyse spielen die temporalen Aspekte und Beziehungen eine grosse Rolle Hier konnen mittels spezieller Distanzfunktionen wie der Dynamic Time Warping Distanz bestehende Data Mining Verfahren verwendet werden es werden aber auch spezialisierte Verfahren entwickelt Eine wichtige Herausforderung besteht darin Reihen mit einem ahnlichen Verlauf zu erkennen auch wenn dieser etwas zeitlich versetzt ist aber dennoch ahnliche Charakteristika aufweist Probleme des Data Mining BearbeitenDaten Defekte Bearbeiten Viele der Probleme bei Data Mining stammen aus einer ungenugenden Vorverarbeitung der Daten oder aus systematischen Fehlern und Verzerrung bei deren Erfassung Diese Probleme sind oft statistischer Natur und mussen bereits bei der Erfassung gelost werden aus nicht reprasentativen Daten konnen keine reprasentativen Ergebnisse gewonnen werden Hier sind ahnliche Aspekte zu beachten wie bei der Erstellung einer reprasentativen Stichprobe Parametrisierung Bearbeiten Die im Data Mining verwendeten Algorithmen haben oft mehrere Parameter die geeignet zu wahlen sind Mit allen Parametern liefern sie gultige Ergebnisse und die Parameter so zu wahlen dass die Ergebnisse auch nutzlich sind ist eine Aufgabe des Benutzers Wahlt man beim Clusteranalyse Algorithmus DBSCAN beispielsweise die Parameter m i n P t s displaystyle minPts nbsp und e displaystyle varepsilon nbsp klein so findet der Algorithmus eine fein aufgeloste Struktur neigt aber auch dazu Cluster in kleine Stucke zu zerteilen Wahlt man die Parameter grosser so findet er nur noch die Hauptcluster die jedoch schon bekannt sein konnen und dadurch auch nicht hilfreich Weiterentwickelte Methoden haben oft weniger Parameter oder diese Parameter sind leichter zu wahlen Beispielsweise ist OPTICS eine Weiterentwicklung von DBSCAN die den Parameter e displaystyle varepsilon nbsp weitgehend eliminiert Evaluation Bearbeiten Die Bewertung von Data Mining Ergebnissen stellt den Benutzer vor das Problem dass er einerseits neue Erkenntnisse gewinnen mochte andererseits Verfahren dann nur schwer automatisiert bewerten kann Bei Prognoseproblemen wie der Klassifikation Regressionsanalyse und Assoziationsanalyse lasst sich hier die Prognose auf neuen Daten zur Bewertung verwenden Bei Beschreibungsproblemen wie der Ausreisser Erkennung und der Clusteranalyse ist dies schwieriger Cluster werden meist intern oder extern bewertet also anhand ihrer mathematischen Kompaktheit oder ihrer Ubereinstimmung mit bekannten Klassen 10 Die Ergebnisse von Ausreisser Erkennungs Verfahren werden mit bekannten Ausreissern verglichen Bei beiden stellt sich jedoch die Frage ob diese Bewertung wirklich zur Aufgabenstellung der neuen Erkenntnisse passt und nicht letztlich die Reproduktion alter Erkenntnisse bewertet Interpretation Bearbeiten Als statistische Verfahren analysieren die Algorithmen die Daten ohne Hintergrundwissen uber deren Bedeutung Daher konnen die Verfahren meist nur einfache Modelle wie Gruppen oder Mittelwerte liefern Oftmals sind die Ergebnisse als solche nicht mehr nachvollziehbar Diese maschinell gewonnenen Ergebnisse mussen aber anschliessend noch von dem Benutzer interpretiert werden bevor man sie wirklich als Wissen bezeichnen kann Anwendungsgebiete BearbeitenData Mining in der Industrie Bearbeiten Neben den Anwendungen in den verwandten Bereichen der Informatik findet Data Mining auch zunehmend Einsatz in der Industrie Entscheidungsunterstutzungssystem Im Finanzsektor Rechnungsprufung zur Betrugserkennung Kreditscoring zur Bestimmung von Ausfallswahrscheinlichkeiten kann als klassisches Beispiel von Data Mining gesehen werden Im Marketing Marktsegmentierung beispielsweise Kunden in Bezug auf ahnliches Kaufverhalten bzw Interessen fur gezielte Werbemassnahmen Warenkorbanalyse zur Preisoptimierung und Produktplatzierung im Supermarkt Zielgruppen Auswahl fur Werbekampagnen Kundenprofil Erstellung zum Management von Kundenbeziehungen in Customer Relationship Management Systemen Business Intelligence Im Internet Angriffserkennung Empfehlungsdienste fur Produkte wie beispielsweise Filme und Musik Netzwerkanalyse in sozialen Netzwerken Web Usage Mining um das Nutzerverhalten zu analysieren Text Mining zur Analyse von grossen Textbestanden Pharmakovigilanz Arzneimitteluberwachung nach Marktzulassung im Hinblick auf unbekannte unerwunschte Ereignisse Medizin Pflegewesen Bibliometrie Explorative DatenanalyseProzessanalyse und optimierung Mit Hilfe des Data Mining lassen sich technische Prozesse analysieren und die Zusammenhange der einzelnen Prozessgrossen untereinander ermitteln Dies hilft bei der Steuerung und Optimierung von Prozessen Erste erfolgreiche Ansatze konnten bereits in der chemischen Industrie und Kunststoffverarbeitung erreicht werden 11 Analyse von Produktdaten auch Daten aus dem Produktlebenszyklus konnen mittels Data Mining analysiert werden Diese Daten fallen insbesondere bei Wartung und Service an Sie lassen sich zur Optimierung und Weiterentwicklung des Produktes verwenden und konnen dazu beitragen Innovationen zu generieren 12 Educational Data Mining Bearbeiten Data Mining hat ebenfalls in der Lehre vor allem der Hochschullehre Einzug erlangt Im Bildungsbereich spricht man von Educational Data Mining mit dem in der Padagogik das Ziel verfolgt wird aus einer riesigen Datenmenge uberschaubare Typen Profile Zusammenhange Cluster und darauf bezogen typische Abfolgen Zusammenhange und kritische Werte zu ermitteln Aus den ermittelten Daten werden Handlungsempfehlungen abgeleitet um padagogische Prozesse planen zu konnen 13 Rechtliche moralische und psychologische Aspekte BearbeitenData Mining als wissenschaftliche Disziplin ist zunachst wertneutral Die Verfahren erlauben die Analyse von Daten aus nahezu beliebigen Quellen beispielsweise Messwerte von Bauteilen oder die Analyse von historischen Knochenfunden Beziehen sich die analysierten Daten jedoch auf Personen so entstehen wichtige rechtliche und moralische Probleme typischerweise aber bereits bei der Erfassung und Speicherung dieser Daten nicht erst bei der Analyse und unabhangig von der konkret verwendeten Analysemethode Statistik Datenbankanfragen Data Mining Rechtliche Aspekte Bearbeiten Hauptartikel Datenschutz und Personenbezogene Daten Daten die unzulanglich anonymisiert wurden konnen moglicherweise durch Datenanalyse wieder konkreten Personen zugeordnet deanonymisiert werden Typischerweise wird man hier jedoch nicht Data Mining einsetzen sondern einfachere und spezialisierte Analysemethoden zur Deanonymisierung Eine derartige Anwendung und vor allem die unzulangliche Anonymisierung zuvor sind dann moglicherweise illegal nach dem Datenschutzrecht So gelang es Forschern beispielsweise anhand weniger Fragen Nutzerprofile eindeutig in einem sozialen Netzwerk zu identifizieren 14 Werden beispielsweise Bewegungsdaten nur pseudonymisiert so kann mit einer einfachen Datenbankanfrage technisch gesehen kein Data Mining oft der Nutzer identifiziert werden sobald man seinen Wohnort und Arbeitsplatz kennt die meisten Personen konnen anhand der 2 3 Orte an denen sie am meisten Zeit verbringen eindeutig identifiziert werden Das Datenschutzrecht spricht allgemein von der Erhebung Verarbeitung oder Nutzung personenbezogener Daten da diese Problematik nicht erst bei der Verwendung von Data Mining auftritt sondern auch bei der Verwendung anderer Analysemethoden bspw Statistik Ein zuverlassiger Schutz vor einer missbrauchlichen Analyse ist nur moglich indem die entsprechenden Daten gar nicht erst erfasst und gespeichert werden Moralische Aspekte Bearbeiten Die Anwendung von Data Mining Verfahren auf personenbeziehbare Daten wirft auch moralische Fragen auf Beispielsweise ob ein Computerprogramm Menschen in Klassen einteilen sollte Zudem eignen sich viele der Verfahren zur Uberwachung und fur eine fortgeschrittene Rasterfahndung So stellt beispielsweise der SCHUFA Score eine durch Statistik vielleicht auch Data Mining gewonnene Einteilung der Menschen in die Klassen kreditwurdig und nicht kreditwurdig dar und wird entsprechend kritisiert Psychologische Aspekte Bearbeiten Data Mining Verfahren selbst arbeiten wertneutral und berechnen nur Wahrscheinlichkeiten ohne die Bedeutung dieser Wahrscheinlichkeit zu kennen Werden Menschen jedoch mit dem Ergebnis dieser Berechnungen konfrontiert so kann das uberraschte beleidigte oder befremdete Reaktionen hervorrufen Daher ist es wichtig abzuwagen ob und wie man jemanden mit derartigen Ergebnissen konfrontiert Google gewahrt seinen Nutzern Einblick in die fur sie ermittelten Zielgruppen 15 sofern kein Opt out erfolgt ist und liegt dabei oft falsch Eine amerikanische Kaufhauskette kann aber anhand des Einkaufsverhaltens erkennen ob eine Kundin schwanger ist 16 Mit Hilfe dieser Information konnen gezielt Einkaufsgutscheine verschickt werden Selbst eine Vorhersage des Datums der Geburt ist so moglich Softwarepakete fur Data Mining BearbeitenClustan mit Schwerpunkt statistische Verfahren zur Clusteranalyse Environment for DeveLoping KDD Applications Supported by Index Structures ELKI mit Schwerpunkten auf Clusteranalyse und Ausreisser Erkennung Konstanz Information Miner KNIME Neural Designer mit Schwerpunkt Maschinelles Lernen PSPP Teil des GNU Projekts mit Schwerpunkt auf Statistische Analysen Regressions Clusteranalyse Open Source Alternative zu SPSS GNU R Projekt mit Schwerpunkt Statistik skript programmiersprachen orientiert RapidMiner fruher YALE Yet Another Learning Environment mit Schwerpunkt Maschinelles Lernen alle Phasen des gesamten Data Mining Prozess von der Datenintegration und transformation ETL Prozess uber die Modellierung automatische Optimierung und Evaluierung bis zur operativen Anwendung und Berichterstellung Reporting abdeckend Waikato Environment for Knowledge Analysis WEKA mit Schwerpunkt Maschinelles Lernen Scikit learn mit Schwerpunkt Maschinelles LernenLiteratur BearbeitenFolgende Literatur liefert einen Uberblick uber das Gebiet Data Mining aus Sicht der Informatik Aufgaben und anwendungsspezifische Literatur findet sich in den jeweiligen Artikeln Martin Ester Jorg Sander Knowledge Discovery in Databases Techniken und Anwendungen Springer Berlin 2000 ISBN 3 540 67328 8 Ian H Witten Eibe Frank Mark A Hall Data Mining Practical Machine Learning Tools and Techniques 3 Auflage Morgan Kaufmann Burlington MA 2011 ISBN 978 0 12 374856 0 englisch waikato ac nz Software zum Buch WEKA Sholom M Weiss Nitin Indurkhya Predictive Data Mining A Practical Guide Morgan Kaufmann Burlington MA 1997 ISBN 1 55860 403 0 englisch Jiawei Han Micheline Kamber Jian Pei Data Mining Concepts and Techniques Morgan Kaufmann Burlington MA 2011 ISBN 978 0 12 381479 1 englisch Usama M Fayyad Gregory Piatetsky Shapiro Padhraic Smyth From Data Mining to Knowledge Discovery in Databases In AI Magazine Band 17 Nr 3 1996 S 37 54 englisch kdnuggets com PDF Einzelnachweise Bearbeiten Eintrag Data Mining In duden de Abgerufen am 18 Dezember 2016 a b c Usama M Fayyad Gregory Piatetsky Shapiro Padhraic Smyth From Data Mining to Knowledge Discovery in Databases In AI Magazine Band 17 Nr 3 1996 S 37 54 als PDF auf kdnuggets com Jiawei Han Micheline Kamber Data mining concepts and techniques 1 Auflage Morgan Kaufmann 2001 ISBN 1 55860 489 8 S 5 Thus data mining should habe been more appropriately named knowledge mining from data which is unfortunately somewhat long a b c Martin Ester Jorg Sander Knowledge Discovery in Databases Techniken und Anwendungen Springer Berlin 2000 ISBN 3 540 67328 8 a b Duden online Duden Data Mining Bedeutung Rechtschreibung Grammatik Herkunft Bibliographisches Institut abgerufen am 9 August 2011 a b Von der Zeitschrift Kunstliche Intelligenz wurde ein Wettbewerb durchgefuhrt einen adaquaten deutschen Begriff zu finden Und so leid es mir tut es wurde kein adaquater deutscher Begriff gefunden Hans Peter Kriegel Datenbanktechniken zur Unterstutzung des Wissenserwerbs In Heinz Mandl Gabi Reinmann Rothmeier Hrsg Wissensmanagement Informationszuwachs Wissensschwund Die strategische Bedeutung des Wissensmanagements Oldenbourg Munchen Wien 2000 ISBN 3 486 25386 7 S 47 71 N Bissantz J Hagedorn Data Mining Datenmustererkennung In Wirtschaftsinformatik 35 1993 5 S 481 487 Duden Das Fremdworterbuch engl eigtl Datenforderung Diese Geschichte ist vermutlich eine moderne Sage Das Bier wird je nach Variante neben den Windeln auf dem Weg zur Kasse oder am anderen Ende des Supermarktes damit der Kunde an moglichst vielen weiteren Produkten vorbeigehen muss platziert KDNuggets Beitrag der eine mogliche Quelle des Mythos erwahnt I Farber S Gunnemann H P Kriegel P Kroger E Muller E Schubert T Seidl A Zimek On Using Class Labels in Evaluation of Clusterings In MultiClust 1st International Workshop on Discovering Summarizing and Using Multiple Clusterings Held in Conjunction with KDD 2010 Washington DC 2010 als PDF auf dbs informatik uni muenchen de C Kugler T Hochrein M Bastian T Froese Verborgene Schatze in Datengrabern QZ Qualitat und Zuverlassigkeit 2014 3 S 38 41 Wissen was gefragt ist Data Mining kann Innovationen beschleunigen In IPH Abgerufen am 12 Marz 2018 Martin Schon amp Martin Ebner Das Gesammelte interpretieren Educational Data Mining und Learning Analytics In Martin Ebner amp Sandra Schon Hrsg Lehrbuch fur Lernen und Lehren mit Technologien 2 Auflage 2013 S 1 2 core ac uk PDF Sicherheitslucke IT Forscher enttarnen Internetsurfer In Spiegel Online Abgerufen am 7 Dezember 2011 Google Ad Preferences How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did In Forbes com Abgerufen am 16 Februar 2012 englisch Normdaten Sachbegriff GND 4428654 5 lobid OGND AKS Abgerufen von https de wikipedia org w index php title Data Mining amp oldid 237698852