www.wikidata.de-de.nina.az
Text Mining seltener auch Textmining Text Data Mining oder Textual Data Mining ist ein Bundel von Algorithmus basierten Analyseverfahren zur Entdeckung von Bedeutungsstrukturen aus un oder schwachstrukturierten Textdaten Mit statistischen und linguistischen Mitteln erschliesst Text Mining Software aus Texten Strukturen die die Benutzer in die Lage versetzen sollen Kerninformationen der verarbeiteten Texte schnell zu erkennen Im Optimalfall liefern Text Mining Systeme Informationen von denen die Benutzer zuvor nicht wissen ob und dass sie in den verarbeiteten Texten enthalten sind Bei zielgerichteter Anwendung sind Werkzeuge des Text Mining ausserdem in der Lage Hypothesen zu generieren diese zu uberprufen und schrittweise zu verfeinern Inhaltsverzeichnis 1 Konzept 1 1 Typologien 1 2 Verwandte Verfahren 1 3 Anwendungsgebiete 1 3 1 Web Mining 1 3 2 Beispiel 2 Methodik 2 1 Datenmaterial 2 2 Datenaufbereitung 2 2 1 Worterbucher 2 3 Analyseverfahren 2 3 1 Clusterverfahren 2 3 1 1 k means Clusteranalyse 2 3 1 2 Hierarchische Clusteranalyse 2 3 1 3 Selbstorganisierende Karten 2 3 1 4 Fuzzy Clustering 2 3 2 Vektorenverfahren 2 4 Ergebnisprasentation 3 Software 3 1 Reine Text Miner 3 1 1 Generische Anwendungen 3 1 2 Domanenspezifische Anwendungen 3 2 Erweiterungen existierender Softwaresuiten 3 3 Teilanbieter 3 3 1 Linkanalyse 4 Literatur 5 Weblinks 6 EinzelnachweiseKonzept BearbeitenDas 1995 von Ronen Feldman und Ido Dagan als Knowledge Discovery from Text KDT 1 in die Forschungsterminologie eingefuhrte Text Mining 2 ist kein klar definierter Begriff In Analogie zu Data Mining in der Knowledge Discovery in Databases KDD ist Text Mining ein weitgehend automatisierter Prozess der Wissensentdeckung in textuellen Daten der eine effektive und effiziente Nutzung verfugbarer Textarchive ermoglichen soll 3 Umfassender kann Text Mining als Prozess der Zusammenstellung und Organisation der formalen Strukturierung und algorithmischen Analyse grosser Dokumentsammlungen zur bedarfsgerechten Extraktion von Informationen und der Entdeckung versteckter inhaltlicher Beziehungen zwischen Texten und Textfragmenten gesehen werden Typologien Bearbeiten Die unterschiedlichen Auffassungen von Text Mining konnen mittels verschiedener Typologien geordnet werden Dabei werden Arten des Information Retrieval IR 3 4 des Dokumenten Clustering des Text Data Mining und des KDD 5 2 immer wieder als Unterformen des Text Mining genannt Beim IR ist dabei bekannt dass die Textdaten bestimmte Fakten enthalten die mittels geeigneter Suchanfragen gefunden werden sollen In der Data Mining Perspektive wird Text Mining als Data Mining auf textuellen Daten verstanden zur Exploration von interpretationsbedurftigen Daten aus Texten Die weitestgehende Art des Text Mining ist das eigentliche KDT bei der neue zuvor unbekannte Informationen aus den Texten extrahiert werden sollen 5 Verwandte Verfahren Bearbeiten Text Mining ist mit einer Reihe anderer Verfahren verwandt von denen es wie folgt abgegrenzt werden kann Am starksten ahnelt Text Mining dem Data Mining Mit diesem teilt es viele Verfahren nicht jedoch den Gegenstand Wahrend Data Mining zumeist auf stark strukturierte Daten angewandt wird befasst sich Text Mining mit wesentlich schwacher strukturierten Textdaten Beim Text Mining werden deshalb in einem ersten Schritt die Primardaten starker strukturiert um ihre Erschliessung mit Verfahren des Data Mining zu ermoglichen 2 Anders als bei den meisten Aufgaben des Data Mining sind zudem Mehrfachklassifikationen beim Text Mining meist ausdrucklich erwunscht 6 Des Weiteren greift Text Mining auf Verfahren des Information Retrieval zuruck die fur die Auffindung derjenigen Textdokumente die fur die Beantwortung einer Suchanfrage relevant sein sollen konzipiert sind 2 Im Gegensatz zum Data Mining werden also nicht moglicherweise unbekannte Bedeutungsstrukturen im Gesamttextmaterial erschlossen sondern anhand von bekannten Schlusselwortern eine Menge relevant erhoffter Einzeldokumente identifiziert 2 Verfahren der Informationsextraktion zielen darauf ab aus Texten einzelne Fakten zu extrahieren Informationsextraktion verwendet oft die gleichen oder ahnliche Verfahrensschritte wie dies im Text Mining getan wird 2 bisweilen wird Informationsextraktion deshalb als Teilgebiet des Text Mining betrachtet 7 Im Gegensatz zu vielen anderen Arten des Text Mining sind hier aber zumindest die Kategorien bekannt zu denen Informationen gesucht werden der Benutzer weiss was er nicht weiss Verfahren des automatischen Zusammenfassens von Texten der Textextrahierung erzeugen ein Kondensat eines Textes oder einer Textsammlung 8 dabei wird jedoch anders als beim Text Mining nicht uber das in den Texten explizit Vorhandene hinausgegangen Als eine Fortsetzung des Text Mining kann das Argumentation Mining betrachtet werden Hierbei ist es das Ziel Argumentationsstrukturen zu extrahieren Anwendungsgebiete Bearbeiten Web Mining Bearbeiten Web Mining insbesondere Web Content Mining ist ein wichtiges Anwendungsgebiet fur Text Mining 3 Noch relativ neu sind Versuche Text Mining als Methode der sozialwissenschaftlichen Inhaltsanalyse zu etablieren beispielsweise Sentiment Detection zur automatischen Extraktion von Haltungen gegenuber einem Thema Beispiel Bearbeiten Die Internetseite Worter des Tages ein Projekt der Universitat Leipzig zeigt was Text Mining Verfahren leisten konnen Sie zeigt an welche Worter im Web aktuell haufig verwendet werden Die Aktualitat eines Begriffs ergibt sich dabei aus seiner aktuellen Haufigkeit verglichen mit seiner durchschnittlichen Haufigkeit uber einen langeren Zeitraum hinweg 9 Methodik BearbeitenText Mining geht in mehreren Standardschritten vor Zunachst wird ein geeignetes Datenmaterial ausgewahlt In einem zweiten Schritt werden diese Daten so aufbereitet dass sie im Folgenden mittels verschiedener Verfahren analysiert werden konnen Schliesslich nimmt die Ergebnisprasentation einen ungewohnlich wichtigen Teil des Verfahrens ein Alle Verfahrensschritte werden dabei softwareunterstutzt Datenmaterial Bearbeiten Text Mining wird auf eine meist sehr grosse Menge von Textdokumenten angewandt die gewisse Ahnlichkeiten hinsichtlich ihrer Grosse Sprache und Thematik aufweisen 10 In der Praxis stammen diese Daten meist aus umfangreichen Textdatenbanken wie PubMed oder LexisNexis 10 Die analysierten Dokumente sind unstrukturiert in dem Sinn dass sie keine einheitliche Datenstruktur aufweisen man spricht deshalb auch von freiem Format 10 Trotzdem weisen sie jedoch semantische syntaktische oft auch typographische und seltener auch markup spezifische Strukturmerkmale auf auf die Text Mining Techniken zuruckgreifen man spricht deshalb auch von schwachstrukturierten oder halbstrukturierten Textdaten 10 Meist entstammen die zu analysierenden Dokumente aus einem gewissen Diskursuniversum domain das mehr z B Genomanalyse oder weniger z B Soziologie stark abgegrenzt sein kann 10 Datenaufbereitung Bearbeiten Das eigentliche Text Mining setzt eine computerlinguistische Aufbereitung der Dokumente voraus Diese basiert typischerweise auf den folgenden nur zum Teil automatisierbaren Schritten nbsp Beispiel einer XML SyntaxZunachst werden die Dokumente in ein einheitliches Format heutzutage zumeist XML uberfuhrt 4 Zur Textreprasentation werden die Dokumente dann zumeist anhand von Schriftzeichen Wortern Begriffen terms und oder so genannten concepts tokenisiert 10 Dabei steigt bei vorstehenden Einheiten die Starke der semantischen Bedeutung aber gleichzeitig auch die Komplexitat ihrer Operationalisierung oft werden deshalb Hybridverfahren zur Tokenisierung angewandt 10 In der Folge mussen Worte in den meisten Sprachen lemmatisiert werden das heisst auf ihre morphologische Grundform reduziert werden bei Verben also zum Beispiel der Infinitiv Dies erfolgt durch Stemming 4 Worterbucher Bearbeiten Zur Losung einiger Probleme werden digitale Worterbucher benotigt Ein Stoppworterbuch entfernt diejenigen Worter aus den zu analysierenden Daten bei denen keine oder kaum Vorhersagekraft erwartet wird wie dies zum Beispiel oft bei Artikeln wie der oder eine der Fall ist 4 Um Stoppworter zu erkennen werden oft Listen mit den am haufigsten im Textkorpus vorkommenden Worter erstellt diese enthalten zumeist neben Stoppwortern auch die meisten domainspezifischen Ausdrucke fur die normalerweise ebenfalls Worterbucher erstellt werden 4 Auch die wichtigen Probleme der Polysemie die Mehrdeutigkeit von Wortern und Synonymie die Gleichbedeutung verschiedener Worte werden mittels Worterbuchern gelost 11 Oft domainspezifische Thesauri die das Synonymproblem abschwachen werden dabei zunehmend in grossen Corpora automatisch generiert 12 Je nach Analyseart kann es moglich sein dass Phrasen und Worter auch durch Part of speech Tagging linguistisch klassifiziert werden haufig ist dies jedoch fur Text Mining nicht notwendig 4 Pronomen er sie mussen den vorausgehenden oder folgenden Nominalphrasen Goethe die Polizisten auf die sie verweisen zugeordnet werden Anaphernresolution Eigennamen fur Personen Orte von Firmen Staaten usw mussen erkannt werden da sie eine andere Rolle fur die Konstitution der Textbedeutung haben als generische Substantive Mehrdeutigkeit von Wortern und Phrasen wird dadurch aufgelost dass jedem Wort und jeder Phrase genau eine Bedeutung zugeschrieben wird Bestimmung der Wortbedeutung Disambiguierung Einige Worter und Satz teile konnen einem Fachgebiet zugeordnet werden Termextraktion Um die Semantik der analysierten Textdaten besser bestimmen zu konnen wird meist auch auf themenspezifisches Wissen zuruckgegriffen 10 Analyseverfahren Bearbeiten Auf der Grundlage dieser partiell strukturierten Daten konnen die eigentlichen Text Mining Verfahren aufbauen die vor allem auf der Entdeckung von Kookkurrenzen idealiter zwischen concepts basieren 10 Diese Verfahren sollen In Texten implizit vorhandene Informationen explizit machen Beziehungen zwischen Informationen die in verschiedenen Texten reprasentiert sind sichtbar machen Kernoperationen der meisten Verfahren sind dabei die Identifizierung von bedingten Verteilungen haufige Mengen und Abhangigkeiten 10 Eine grosse Rolle bei der Entwicklung solcher Verfahren spielt maschinelles Lernen sowohl in seiner uberwachten als auch in seiner unuberwachten Variante Clusterverfahren Bearbeiten Neben den traditionell am weitesten verbreiteten Clusteranalyseverfahren k displaystyle k nbsp means und hierarchischen Clustern werden bei Clusterverfahren auch selbstorganisierende Karten verwendet Ausserdem greifen mehr und mehr Verfahren auf Fuzzylogik zuruck k means Clusteranalyse Bearbeiten Sehr haufig werden beim Text Mining k displaystyle k nbsp means Cluster gebildet Der zu diesen Clustern gehorende Algorithmus zielt darauf ab die Summe der euklidischen Distanzen innerhalb und uber alle Cluster zu minimieren Hauptproblem ist dabei die Anzahl der zu findenden Cluster zu bestimmen ein Parameter der durch den Analysten mit Hilfe seines Vorwissens festgelegt werden muss Derartige Algorithmen sind sehr effizient allerdings kann es vorkommen dass nur lokale Optima gefunden werden 13 Hierarchische Clusteranalyse Bearbeiten nbsp Schema des Aufbaus hierarchischer ClusterBei der ebenfalls popularen hierarchischen Clusteranalyse werden Dokumente in einem hierarchischen Clusterbaum siehe Abbildung ihrer Ahnlichkeit nach gruppiert Dieses Verfahren ist deutlich rechenaufwandiger als das fur k displaystyle k nbsp means Cluster Theoretisch kann man dabei so vorgehen dass man die Dokumentenmenge in sukzessiven Schritten teilt oder indem man jedes Dokument zunachst als einen eigenen Cluster auffasst und die ahnlichsten Cluster in der Folge schrittweise aggregiert 2 In der Praxis fuhrt aber meist nur letzteres Vorgehen zu sinnvollen Ergebnissen 2 Neben den Runtimeproblemen ist eine weitere Schwache die Tatsache dass man fur gute Ergebnisse bereits Hintergrundwissen uber die zu erwartende Clusterstruktur benotigt 2 Wie auch bei allen anderen Methoden des Clustering muss letztendlich der menschliche Analyst entscheiden ob die gefundenen Cluster Sinnstrukturen widerspiegeln 14 Selbstorganisierende Karten Bearbeiten Der 1982 von Teuvo Kohonen erstmal entwickelte Ansatz der selbstorganisierenden Karten ist ein weiteres weit verbreitetes Konzept zur Clusterbildung im Text Mining 15 Dabei werden in der Regel zweidimensionale kunstliche neuronale Netze angelegt Diese verfugen uber eine Eingabeebene in der jedes zu klassifizierende Textdokument als multidimensionaler Vektor reprasentiert ist und dem ein Neuron als Zentrum zugeteilt wird und uber eine Ausgabeebene in der die Neuronen gemass der Reihenfolge des gewahlten Distanzmasses aktiviert werden 15 Fuzzy Clustering Bearbeiten Es werden auch auf Fuzzylogik basierende Clustering Algorithmen verwendet da viele insbesondere deiktische Sprachentitaten nur vom menschlichen Leser adaquat decodiert werden konnen und so eine inharente Unsicherheit bei der computeralgorithmischen Verarbeitung entsteht 16 Da sie dieser Tatsache Rechnung tragen bieten Fuzzy Cluster so in der Regel uberdurchschnittlich gute Ergebnisse 16 17 Typischerweise wird dabei auf Fuzzy C Means zuruckgegriffen 17 Andere Anwendungen dieser Art greifen auf Koreferenzcluster Graphen zuruck 16 Vektorenverfahren Bearbeiten Eine grosse Zahl von Text Mining Verfahren ist vektorenbasiert Typischerweise werden dabei die in den untersuchten Dokumenten vorkommenden terms in einer zweidimensionalen Matrix A t d displaystyle A td nbsp reprasentiert wobei t durch die Anzahl der terms und d durch die Anzahl der Dokumente definiert ist Der Wert des Elements a i j displaystyle a ij nbsp wird dabei durch die Haufigkeit des terms i displaystyle i nbsp im Dokument j displaystyle j nbsp bestimmt oft wird die Haufigkeitszahl dabei transformiert 8 meist indem die in den Matrizen Spalten stehenden Vektoren normiert werden in dem sie durch ihren Betrag dividiert werden 6 Der so entstandene hoch dimensionale Vektorraum wird in der Folge auf einen deutlich nieder dimensionaleren Vektor abgebildet Dabei spielt seit 1990 zunehmend die Latent Semantic Analysis LSA eine bedeutende Rolle die traditionell auf Singularwertzerlegung zuruckgreift 8 Probabilistic Latent Semantic Analysis PLSA ist dabei ein mehr statistisch formalisierter Ansatz der auf der Latent Class Analysis basiert und zur Schatzung der Latenzklassenwahrscheinlichkeiten einen EM Algorithmus verwendet 8 Algorithmen die auf LSA aufbauen sind allerdings sehr rechenintensiv Ein normaler Desktop Computer des Jahrgangs 2004 kann so kaum mehr als einige hunderttausend Dokumente analysieren 18 Geringfugig schlechtere aber weniger rechenaufwandige Ergebnisse als LSA erzielen auf Kovarianzanalysen basierende Vektorraumverfahren 18 Die Auswertung von Beziehungen zwischen Dokumenten durch solcherartig reduzierte Matrizen ermoglicht es Dokumente zu ermitteln die sich auf denselben Sachverhalt beziehen obwohl ihr Wortlaut verschieden ist Auswertung von Beziehungen zwischen Termen in dieser Matrix ermoglicht es assoziative Beziehungen zwischen Termen herzustellen die oftmals semantischen Beziehungen entsprechen und in einer Ontologie reprasentiert werden konnen Ergebnisprasentation Bearbeiten Einen ungewohnlich wichtigen und komplexen Teil des Text Mining nimmt die Prasentation der Ergebnisse ein 10 Darunter fallen sowohl Werkzeuge zum Browsing als auch zur Visualisierung der Ergebnisse 10 Oft werden die Ergebnisse dabei auf zweidimensionalen Karten prasentiert Software BearbeitenEine Reihe von Anwendungsprogrammen fur Text Mining existieren oft sind diese auf bestimmte Wissensgebiete spezialisiert In technischer Hinsicht lassen sich reine Text Miner Erweiterungen existierender Software zum Beispiel zum Data Mining oder zur Inhaltsanalyse und Programme die nur Teilschritte oder bereiche des Text Mining begleiten unterscheiden 19 Reine Text Miner Bearbeiten Generische Anwendungen Bearbeiten Megaputer TextAnalyst PolyAnalyst Leximancer ClearForest Text Analytics Suite IBMs WebFountain wird nicht mehr weiterentwickelt Domanenspezifische Anwendungen Bearbeiten GeneWays Das in der Columbia University entwickelte GeneWays deckt zwar auch alle Verfahrensschritte des Text Mining ab greift aber anders als die ClearForest vertriebenen Programme wesentlich starker auf domainspezifisches Wissen zuruck 10 Das Programm beschrankt sich dabei thematisch auf die Genforschung und widmet dabei den grossten Teil seiner Werkzeuge der Datenaufbereitung und weniger dem eigentlichen Text Mining und der Ergebnisprasentation 10 Patent ResearcherErweiterungen existierender Softwaresuiten Bearbeiten Text Mining Modul tm fur R Text Processing Modul fur KNIME Text Analytics Toolbox fur MATLAB bietet Algorithmen und Visualisierungen fur die Vorverarbeitung Analyse und Modellierung von Textdaten RapidMiner ELKI enthalt zahlreiche Clusteranalyseverfahren NClassifier WordStat Das von Provalis Research angebotene Softwaremodul WordStat ist das einzige Programm fur Text Mining welches sowohl mit einer Statistikanwendung Simstat als auch mit einer Software zur Computer Assistierten Qualitativen Datenanalyse QDA Miner verbunden ist Damit eignet das Programm sich insbesondere zur Triangulation von qualitativen sozialwissenschaftlichen Methoden mit dem quantitativ orientierten Text Mining Das Programm bietet eine Reihe von Clusteralgorithmen hierarchische Cluster und Multidimensionale Skalierung sowie eine Visualisierung der Clusterergebnisse an 20 SPSS Clementine enthalt computerlinguistische Methoden zur Informationsextrahierung anbietet zur Worterbucherstellung geeignet ist und Lemmatisierungen fur verschiedene Sprachen vornimmt 20 SAS Text Miner Das SAS Institute bietet zum SAS Enterprise Miner das Zusatzprogramm SAS Text Miner an welches eine Reihe von Textclusteralgorithmen anbietet 20 Teilanbieter Bearbeiten LingPipeLinkanalyse Bearbeiten Pajek UCINET NetMinerLiteratur BearbeitenGerhard Heyer Uwe Quasthoff Thomas Wittig Text Mining Wissensrohstoff Text Konzepte Algorithmen Ergebnisse W3L Verlag Herdecke Bochum 2006 ISBN 3 937137 30 0 Alexander Mehler Christian Wolff Einleitung Perspektiven und Positionen des Text Mining In Zeitschrift fur Computerlinguistik und Sprachtechnologie Band 20 Heft 1 Regensburg 2005 S 1 18 Alexander Mehler Textmining In Lothar Lemnitzer Henning Lobin Hrsg Texttechnologie Perspektiven und Anwendungen Stauffenburg Tubingen 2004 ISBN 3 86057 287 3 S 329 352 Jurgen Franke Gholamreza Nakhaeizadeh Ingrid Renz Hrsg Text Mining Theoretical Aspects and Applications Physica Berlin 2003 Ronen Feldman James Sanger The Text Mining Handbook Advanced Approaches in Analyzing Unstructured Data Cambridge University Press 2006 ISBN 0 521 83657 3 Bastian Buch Text Mining zur automatischen Wissensextraktion aus unstrukturierten Textdokumenten VDM 2008 ISBN 978 3 83649 550 9 Matthias Lemke Gregor Wiedemann Hrsg Text Mining in den Sozialwissenschaften Grundlagen und Anwendungen zwischen qualitativer und quantitativer Diskursanalyse Springer VS Wiesbaden 2016 ISBN 978 3 658 07223 0 Felicitas Lea Kleinkopf Text und Data Mining Die Anforderungen digitaler Forschungsmethoden an ein innovations und wissenschaftsfreundliches Urheberrecht Baden Baden 2022 ISBN 978 3 8487 7561 3 Weblinks BearbeitenUntangling Text Data Mining von Marti A Hearst erschienen in den Proceedings of ACL 99 the 37th Annual Meeting of the Association for Computational Linguistics University of Maryland June 20 26 1999 GSCL Symposium Sprachtechnologie und eHumanities 26 02 2009 27 02 2009 Tagungsband PDF 5 3 MB National Centre for Text Mining NaCTeM an der University of ManchesterEinzelnachweise Bearbeiten Ronen Feldman Ido Dagan Knowledge Discovery in Texts Nicht mehr online verfugbar S 112 117 archiviert vom Original am 1 September 2014 abgerufen am 27 Januar 2015 First International Conference on Knowledge Discovery KDD nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot u cs biu ac il a b c d e f g h i Andreas Hotho Andreas Nurnberger Gerhard Paass A Brief Survey of Text Mining In Zeitschrift fur Computerlinguistik und Sprachtechnologie Band 20 Nr 1 2005 uni kassel de PDF abgerufen am 11 November 2011 a b c Alexander Mehler Christian Wollf Einleitung Perspektiven und Positionen des Text Mining In Zeitschrift fur Computerlinguistik und Sprachtechnologie Band 20 Nr 1 2005 archive org PDF abgerufen am 11 November 2011 a b c d e f Sholom M Weiss Nitin Indurkhya Tong Zhang Fred J Damerau Text Mining Predictive Methods for Analyzing unstructured Information Springer New York NY 2005 ISBN 0 387 95433 3 a b John Atkinson Evolving Explanatory Novel Patterns for Semantically Based Text Mining In Anne Kao Steve Poteet Hrsg Natural Language Processing and Text Mining Springer London U K 2007 ISBN 978 1 84628 754 1 Evolving Explanatory Novel Patterns for Semantically Based Text Mining S 145 169 hier S 146 a b Max Bramer Principles of Data Mining Springer London U K 2007 ISBN 978 1 84628 765 7 z B Fabrizio Sebastiani Machine learning in automated text categorization In ACM Computing Surveys Band 34 Nr 1 2002 S 1 47 hier S 2 cnr it PDF a b c d Anne Kao Steve Poteet Jason Wu William Ferng Rod Tjoelker Lesley Quach Latent Semantic Analysis and Beyond In Min Song Yi Fang Brooke Wu Hrsg Handbook of Research on Text and Web Mining Technologies Information Science Reference Hershey PA 2009 ISBN 978 1 59904 990 8 S 546 570 WORDS of the DAY In Universitat Leipzig Abgerufen am 7 Juni 2021 a b c d e f g h i j k l m n Ronan Feldman James Sanger The Text Mining Handbook Advanced Approaches in Analyzing Unstructured Data Cambridge University Press New York NY 2007 ISBN 978 0 511 33507 5 Scott Deerwester Susan T Dumais George W Furnas Thomas K Landauer Indexing by latent semantic analysis In Journal of the American Society for Information Science Band 41 Nr 6 1990 S 391 407 hier S 391 f doi 10 1002 SICI 1097 4571 199009 41 6 lt 391 AID ASI1 gt 3 0 CO 2 9 Pierre Senellart Vincent D Blondel Automatic Discovery of Similar Words In Michael W Berry Malu Castellanos Hrsg Survey of Text Mining II Clustering Classification and Retrieval Springer London U K 2008 ISBN 978 0 387 95563 6 S 25 44 Joydeep Ghosh Alexander Liu K displaystyle K nbsp Means In Xindong Wu Vipin Kumar Hrsg The Top Ten Algorithms in Data Mining CRC Press New York NY 2005 ISBN 0 387 95433 3 S 21 37 hier S 23 f Roger Bilisoly Practical Text Mining with Perl John Wiley amp Sons Hoboken NY 2008 ISBN 978 0 470 17643 6 S 235 a b Abdelmalek Amine Zakaria Elberrichi Michel Simonet Ladjel Bellatreche Mimoun Malki SOM Based Clustering of Textual Documents Using WordNet In Min Song Yi fang Brooke Wu Hrsg Handbook of Research on Text and Web Mining Technologies Information Science Reference Hershey PA 2009 ISBN 978 1 59904 990 8 S 189 200 hier S 195 a b c Rene Witte Sabine Bergler Fuzzy Clustering for Topic Analysis and Summarization of Document Collections In Advances in Artificial Intelligence Band 4509 2007 doi 10 1007 978 3 540 72665 4 41 a b Hichem Frigui Olfa Nasraoui Simultaneous Clustering and Dynamic Keyword Weighting for Text Documents In Michael W Berry Hrsg Survey of Text Mining Clustering Classification and Retrieval Springer New York NY 2004 ISBN 0 387 95563 1 a b Mei Kobayashi Masaki Aono Vector Space Models for Search and Cluster Mining In Michael W Berry Hrsg Survey of Text Mining Clustering Classification and Retrieval Springer New York NY 2004 ISBN 0 387 95563 1 S 103 122 hier S 108 f Alessandro Zanasi Text Mining Tools In Alessandro Zanasi Hrsg Text Mining and its Applications to Intelligence CRM and Knowledge Management WIT Press Southampton amp Billerica MA 2005 ISBN 1 84564 131 0 S 315 327 hier S 315 a b c Richard Segall Qingyu Zhang A Survey of Selected Software Technologies for Text Mining In Min Song Yi fang Brooke Wu Hrsg Handbook of Research on Text and Web Mining Technologies Information Science Reference Hershey PA 2009 ISBN 978 1 59904 990 8 Abgerufen von https de wikipedia org w index php title Text Mining amp oldid 233336384