www.wikidata.de-de.nina.az
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst Dieser Artikel oder Abschnitt bedarf einer grundsatzlichen Uberarbeitung Der fachliche Inhalt ist aus dem Aspekt der Informatik zweifelhaft Der linguistische Aspekt blieb unberucksichtigt Siehe Diskussion Textklassifikation und den englischsprachigen Artikel Bitte hilf mit ihn zu verbessern und entferne anschliessend diese Markierung Die Textklassifikation ist ein sehr wichtiges Kriterium im Bereich der Informationsextraktion Bei unterschiedlich strukturierten Texten werden verschiedene Verfahren angewendet die sich voneinander durch Merkmale wie Komplexitat Restriktionen oder den Ablauf der Extraktion unterscheiden So gibt es z B ein sprachbasiertes Verfahren Perl oder ein Wrapper Induction basiertes Verfahren Daher ist es notwendig die analysierten Texte zu klassifizieren Die Texte werden nach ihrer Strukturiertheit aufgeteilt Naturliche und unstrukturierte Plain Texte Strukturierte Informationen Semi strukturierte Texte Inhaltsverzeichnis 1 Naturliche und unstrukturierte Plain Texte 2 Strukturierte Informationen 3 Semi strukturierte Texte 4 WeblinksNaturliche und unstrukturierte Plain Texte BearbeitenDie naturlichen und unstrukturierten Plain Texte werden mit Systemen bearbeitet die eine morphologische und syntaktische Analyse ermoglichen Dabei ist die Vorgehensweise sehr aufwendig und manchmal auch uberflussig weil die gesuchten Informationen anhand einfacher Muster gefunden werden konnen Strukturierte Informationen BearbeitenBei den strukturierten Informationen handelt es sich vor allem um Tabellen und relationale Datenbanken Hierbei wird keine linguistische Analyse benotigt Um die gesuchten Informationen zu finden reicht es aus nur die Struktur zu erkennen Semi strukturierte Texte BearbeitenDie HTML Dokumente werden als semi strukturierte Texte bezeichnet und stellen eine grosse Herausforderung fur die Informationsextraktion Systeme dar Sie weisen eine uneinheitliche Struktur auf teilweise sind durch die HTML Tags markiert teilweise sind das naturliche Texte Um die Informationen zu extrahieren mussen die Informationsextraktion Systeme die HTML Struktur und die Textmuster erkennen Dabei sind die HTML Tags ein wichtiger Hinweis auf die Struktur Weblinks Bearbeiten nbsp Wiktionary Textklassifikation Bedeutungserklarungen Wortherkunft Synonyme Ubersetzungen Abgerufen von https de wikipedia org w index php title Textklassifikation amp oldid 189171988