www.wikidata.de-de.nina.az
UIMA Unstructured Information Management Architecture deutsch Architektur zur Verwaltung unstrukturierter Informationen ist ein Framework zur Programmierung von Data Mining Anwendungen d h zur Wissensextraktion UIMABasisdatenMaintainer Apache Software FoundationEntwickler IBM jetzt Apache Software FoundationErscheinungsjahr 30 April 2010 1 Aktuelle Version 2 10 0 24 Juli 2017 Betriebssystem plattformunabhangigProgrammiersprache Java C Kategorie Data MiningLizenz Apache LicenseUIMA ProjektseiteDas Projekt UIMA wurde 2005 von IBM gestartet und wird seit Oktober 2006 von Apache betreut Ziel des Projekts ist es ein standardisiertes Framework zum Erstellen von Anwendungen zur Verarbeitung unstrukturierter Informationen insbesondere naturlicher Sprache Natural Language Processing NLP zu bieten Unstrukturierte Informationen konnen in beliebigen Formaten vorliegen z B Bild oder Audio Daten jedoch sind Texte die gangigsten Informationen Das Konzept von UIMA sieht vor dass eine Pipeline implementiert wird in der zunachst Daten eingelesen werden diese dann verschiedene Analyse und Verarbeitungsschritte durchlaufen und schliesslich an einen oder mehrere sogenannte Verbraucher geliefert werden die die Ergebnisse verarbeiten z B in einer Datenbank speichern In jedem einzelnen Analyse Schritt werden die Daten mit bestimmten Annotationen versehen d h ein definierter Bereich der Datenmenge also beispielsweise ein Teil des Texts bekommt eine Anmerkung Durch die starke Modularisierung in Pipelinestufen konnen die einzelnen Stufen leicht wiederverwendet werden Ein Beispiel fur eine Pipeline ist eine simple Anwendung die die durchschnittliche Anzahl von Wortern pro Satz in einem Text berechnen soll Hierzu wird zunachst eine Pipelinestufe benotigt die den Text einliest z B aus einer Datei Die zweite Stufe durchlauft den Text und markiert alle Worter indem alle Positionen von Leerzeichen im Text ermittelt werden Die dritte Stufe fuhrt analog dazu eine Satz Erkennung durch indem Markierungen von Satzzeichen zu Satzzeichen gesetzt werden Diese beiden Schritte sind unabhangig voneinander und konnten demnach auch vertauscht werden Die letzte Pipelinestufe muss nun nur noch die Anzahl markierter Worter durch die Anzahl markierter Satze teilen und ausgeben Eine Erweiterung konnte nun sein die Anzahl der Verben pro Satz zu zahlen hierzu wurde nach der dritten Stufe eine Wortart Erkennung eingebaut die jedes Wort mit einer Annotation wie Verb Nomen usw versieht und der Verbraucher wurde statt der Wort Annotationen die Wortart Annotationen zahlen die Verb entsprechen alle anderen Teile der Pipeline konnen wiederverwendet werden UIMA ubernimmt in dieser Anwendung die Verwaltung der Pipeline und die interne Reprasentation der zu verarbeitenden Daten samt Annotationen ausserdem bietet es dem Entwickler alle notigen Schnittstellen zum Einlesen und Auslesen der Informationen UIMA wird insbesondere in der Forschung eingesetzt entwickelt sich aber auch immer mehr zum Industrie Standard Eine der bekanntesten Anwendungen von UIMA ist der Einsatz im IBM Watson Weblinks BearbeitenUIMA Projektseite bei Apache projects apache org abgerufen am 8 April 2020 Abgerufen von https de wikipedia org w index php title UIMA amp oldid 212353560