www.wikidata.de-de.nina.az
In der Wirtschaftsinformatik und Computerlinguistik sind unstrukturierte Daten digitalisierte Informationen die in einer nicht formalisierten Struktur vorliegen und auf die dadurch von Computerprogrammen nicht uber eine einzelne Schnittstelle aggregiert zugegriffen werden kann Beispiele sind digitale Texte in naturlicher Sprache und digitale Tonaufnahmen menschlicher Sprache Inhaltsverzeichnis 1 Einordnung 2 Bedeutung 3 Behandlung von unstrukturierten Daten 4 Einzelnachweise 5 WeblinksEinordnung BearbeitenUnterschieden werden unstrukturierte Daten von strukturierten und semistrukturierten Daten Betrachtet man eine E Mail so liegt diese in einer gewissen Struktur vor Sie enthalt einen Empfanger einen Absender und eventuell einen Titel Damit gehort sie zu den semistrukturierten Daten Der Inhalt der E Mail selbst ist jedoch strukturlos Die automatische Nutzbarkeit unstrukturierter Daten ist dadurch eingeschrankt dass fur sie kein Datenmodell und meist auch keine Metadaten vorliegen Auch in Textdokumenten sind Metadaten und Daten vermischt Um Strukturen daraus zu gewinnen ist Modellierung erforderlich Des Weiteren wird von unstrukturierten Daten im Zusammenhang mit der Ablage von Dokumenten ohne vorhandenem Data Warehousing gesprochen 1 Dadurch sind diese nicht indizierbar und konnen dementsprechend nicht gemeinsam durchsucht werden Bedeutung BearbeitenViele Daten sind bei ihrem Ursprung unstrukturiert Sie gewinnen Struktur indem sie durch menschliche Intervention in ein Schema gebracht werden Der Vorgang der Strukturierung kann Nachteile hervorrufen da er oft mit einem Informationsverlust verbunden ist Im Unternehmensumfeld liegen oftmals wichtige Informationen in unstrukturierten Daten vor deren Nichterfassung auch rechtliche Probleme verursachen kann 2 Daher befassen sich die Felder Wissensmanagement und Datenmanagement mit deren Integration und Verwaltung Um die unstrukturierten Daten mit Strukturen zu versehen existiert im Bereich Open Source das Framework UIMA Unstructured Information Management Architecture Dies ist ein Framework zum Erstellen von Anwendungen zur Verarbeitung von unstrukturierten Informationen Behandlung von unstrukturierten Daten BearbeitenSpeziell fur die Strukturierung der Daten konnen folgende Verfahren in Betracht gezogen werden Textanalyse und Textmining existieren schon seit vielen Jahren auf dem Markt Die Produkte dafur weisen eine solide Marktreife auf Verschiedene kleine spezialisierte Hersteller haben Werkzeuge dafur entwickelt Manche Business Intelligence Hersteller haben solche Technologien auf Druck des Marktes dazu gekauft Textmining kann manuell durch statistische Verfahren uber maschinelles Lernen oder uber die Verarbeitung naturlicher Sprachen erfolgen Es kann Begriffe und Konzepte in Thesauri liefern die unabdingbar fur zusatzliche Business Intelligence Analysen werden konnen 3 4 Maschinelles Lernen basiert auf statistischen Verfahren wie Bayes Klassifikatoren kunstlichen neuronalen Netzwerken oder latenter semantischer Analyse LSA Es ist viel effektiver als die klassischen statistischen Verfahren jedoch nicht uberall anwendbar Es erfordert Uberwachung und Training der Maschinen und wie bei den Data Mining Verfahren ist ein tiefes Wissen der Materie notwendig 3 Linguistische Verfahren konnen schneller als maschinelles Lernen sein und manchmal auch akkurater Sie konnen Ambiguitat reduzieren benotigen aber nach wie vor die menschliche Intervention Hier sind die Modelle im Vergleich zu LSA und maschinellem Lernen einfacher zu verstehen Siehe auch DatenmodellierungEinzelnachweise Bearbeiten Computerwoche Unstrukturierte Daten Der ungehobene Schatz Unstrukturierte Daten Die Bombe tickt In www cio de Archiviert vom Original am 2 September 2013 abgerufen am 12 Januar 2017 a b Computerwoche Auf Datensuche mit Textmining und Web Mining BI Kennzahlen benotigen einen Kontext beyenetwork 1 Dezember 2009 englisch Weblinks BearbeitenStructure Models and Meaning Is unstructured data merely unmodeled Intelligent Enterprise 1 Marz 2005 englisch Structuring Unstructured Data Forbes Magazine 5 April 2007 englisch Abgerufen von https de wikipedia org w index php title Unstrukturierte Daten amp oldid 209984652