www.wikidata.de-de.nina.az
Unter Informationsextraktion engl Information Extraction IE versteht man die ingenieursmassige Anwendung von Verfahren aus der praktischen Informatik der kunstlichen Intelligenz und der Computerlinguistik auf das Problem der automatischen maschinellen Verarbeitung von unstrukturierter Information mit dem Ziel Wissen bezuglich einer im Vorhinein definierten Domane zu gewinnen Ein typisches Beispiel ist die Extraktion von Informationen uber Firmenzusammenschlusse engl merger events wobei etwa aus Online Nachrichten Instanzen der Relation merge Firma1 Firma2 Datum extrahiert werden Der Informationsextraktion kommt eine grosse Bedeutung zu da viele Informationen in unstrukturierter nicht relational modellierter Form vorliegen zum Beispiel im Internet und dieses Wissen durch Informationsextraktion besser erschliessbar wird Inhaltsverzeichnis 1 Informationsextraktion 2 Abgrenzung von Nachbargebieten 3 Anwendungsmoglichkeiten 4 Evaluationskriterien 5 Message Understanding Conferences 6 Zusammenfassung 7 Einzelnachweise 8 Literatur 9 WeblinksInformationsextraktion BearbeitenInformationsextraktion kann aus zwei verschiedenen Perspektiven betrachtet werden Einerseits als das Erkennen von bestimmten Informationen so bezeichnet etwa Grishman IE als the automatic identification of selected types of entities relations or events in free text Grishman 2003 andererseits als das Entfernen der Informationen die nicht gesucht werden Letztere Sichtweise druckt etwa eine Definition von Cardie aus An IE system takes as input a text and summarizes the text with respect to a prespecified topic or domain of interest Cardie 1997 In diesem Sinne konnte man Informationsextraktion auch als gezielte Text Extraction bezeichnen vgl Euler 2001a 2001b Informationsextraktionssysteme sind also immer zumindest auf ein spezielles Fachgebiet meist sogar auf bestimmte Interessengebiete Szenarios innerhalb eines allgemeineren Fachgebietes Domane ausgerichtet So ware etwa in der Domane Wirtschaftsnachrichten ein mogliches Szenario Personalwechsel in einer Managementposition Eine weitergehende Einschrankung macht Neumann wenn er schreibt dass das Ziel der IE die Konstruktion von Systemen sei die gezielt domanenspezifische Informationen aus freien Texten aufspuren und strukturieren konnen Neumann 2001 Hervorhebung hinzugefugt In diesem Zusammenhang ist zu beachten dass eine solche Einschrankung Konsequenzen fur die technische Realisierung eines Informationsextraktionssystems hat Abgrenzung von Nachbargebieten BearbeitenAbzugrenzen ist das eigenstandige Forschungsgebiet der Informationsextraktion von verwandten Gebieten Text Extraction hat eine umfassende Zusammenfassung des Inhaltes eines Textes zum Ziel die umfassende automatische Textzusammenfassung ist insofern problematisch als dass auch menschliche Leser bei der Aufgabe das Wichtigste eines Textes zusammenzufassen nie vollige Ubereinstimmung erzielen werden wenn nicht spezifiziert wurde inwiefern die Informationen wichtig sein sollen Textclustering bedeutet das selbststandige Gruppieren von Texten Textklassifikation das Einordnen von Texten in vorgegebene Gruppen Mit Information Retrieval kann die Suche nach Dokumenten in einer Dokumentenmenge Volltextsuche oder auch entsprechend der wortlichen Bedeutung die allgemeiner formulierte Aufgabe des Abrufs von Informationen gemeint sein vgl Strube et al 2001 Data Mining bezeichnet ganz allgemein den Prozess Muster in Daten zu erkennen Witten 2000 3 Anwendungsmoglichkeiten BearbeitenGenerell lassen sich zwei Arten der Anwendung von Informationsextraktion unterscheiden Zum einen konnen die extrahierten Daten sofort fur einen menschlichen Betrachter gedacht sein In diesen Anwendungsbereich fallt etwa das von Euler 2001a zu Testzwecken entwickelte System das aus E Mails extrahierte Informationen als SMS weiterleitet oder ein System das in einer Suchmaschine zu den Treffern extrahierte Informationen anzeigt etwa die angebotenen Positionen in Stellenanzeigen Zum anderen konnen die Daten fur die maschinelle Weiterverarbeitung gedacht sein sei es zur Speicherung in Datenbanken zur Textkategorisierung oder klassifikation oder als Ausgangspunkt fur eine umfassende Text Extraction Bestehen die gesuchten Informationen aus mehreren Einzelinformationen bestimmt das Anwendungsgebiet gewisse Anspruche an das Informationsextraktionssystem So mussen zu einer maschinellen Weiterverarbeitung die Informationen strukturiert vorliegen wahrend fur eine Weiterverarbeitung direkt durch den Menschen auch ein unstrukturiertes Ergebnis genugen kann Wenn die gesuchten Informationen nicht aus weiteren Einzelinformationen bestehen wie bei der Erkennung von Eigennamen ist eine solche Unterscheidung uberflussig Evaluationskriterien BearbeitenZur Bewertung Evaluation von Informationsextraktionssystemen werden die im Information Retrieval gebrauchlichen Kriterien Vollstandigkeit und Prazision Recall und Precision bzw das aus diesen Werten ermittelte F Mass verwendet 1 Ein weiteres Kriterium zur Bewertung der Gute des Extraktes ist der Anteil der unerwunschten Informationen Fall out Message Understanding Conferences BearbeitenDie Entwicklung auf dem noch recht jungen Forschungsgebiet der Informationsextraktion wurde massgeblich durch die Message Understanding Conferences MUC vorangetrieben Die sieben MUC wurden von 1987 bis 1997 von der Defense Advanced Research Projects Agency DARPA der zentralen Forschungs und Entwicklungseinrichtung des Verteidigungsministeriums der Vereinigten Staaten veranstaltet Vorgegebene Szenarios waren Nachrichten uber nautische Operationen MUC 1 1987 und MUC 2 1989 uber terroristische Aktivitaten MUC 3 1991 und MUC 4 1992 Joint Ventures und Mikroelektronik MUC 5 1993 Personalwechsel in der Wirtschaft MUC 6 1995 sowie uber Raumfahrzeuge und Raketenstarts MUC 7 1997 Appelt und Israel 1999 Da zur gemeinsamen Evaluation ein standardisiertes Ausgabeformat notwendig war verwendete man ab der zweiten MUC eine gemeinsame Ausgabeschablone Template weshalb nahezu alle Informationsextraktionssysteme eine strukturierte Ausgabe der extrahierten Informationen leisten eine Ausnahme hierzu bildet Euler 2001a 2001b 2002 Zusammenfassung BearbeitenInformationsextraktionssysteme konnen fur verschiedene Aufgabenbereiche von der automatischen Analyse von Stellenanzeigen bis zur Vorbereitung einer allgemeinen Text Extraction eingesetzt werden Entsprechend diesen Anforderungen konnen die Systeme strukturierte oder unstrukturierte Ergebnisse liefern Weiter konnen die Systeme vollig unterschiedliche linguistische Tiefe aufweisen von der Extraktion durch gezielte Zusammenfassung Euler 2001a 2001b 2002 mit reiner Satzfilterung wo lediglich semantische Orientierung in Form der Wortliste gegeben ist bis hin zu Systemen mit Analysemodulen fur samtliche Ebenen der Sprache Phonologie Morphologie Syntax Semantik ev auch Pragmatik In einigen Bereichen fuhrt unser mangelndes Verstandnis fur die Funktionsweise naturlicher Sprache zu einer Stagnation der Entwicklung doch da Informationsextraktion eine eingeschranktere Aufgabe als ein komplettes Textverstandnis darstellt sind vielfach im Sinne eines appropriate language engineering Grishman 2003 den Anforderungen angemessene Losungen vielleicht auch gerade in Verbindung mit den Nachbargebieten moglich Als Beispiel hierfur moge das von Euler 2001a 2001b 2002 entworfene Verfahren dienen das im Unterschied zu den die IE dominierenden Systemen lediglich unstrukturierte Ergebnisse liefert Dafur erreicht es hohe Leistung nach F Mass und verlangt lediglich einen geringen oder gar minimalen Annotierungsaufwand des Trainingskorpus was eine hohe Portabilitat auf neue Domanen und Szenarios bedeuten konnte etwa in Form einer Erstellung von Wortlisten en passant bei einer Textklassifikation Einzelnachweise Bearbeiten Jakub Piskorski Roman Yangarber Information Extraction Past Present and Future In Multi source Multilingual Information Extraction and Summarization Theory and Applications of Natural Language Processing Springer Berlin Heidelberg 2013 ISBN 978 3 642 28568 4 S 23 49 doi 10 1007 978 3 642 28569 1 2 springer com abgerufen am 12 Oktober 2017 Literatur BearbeitenAppelt Douglas John Bear Jerry Hobbs David Israel Megumi Kameyama Mark Stickel Mabry Tyson 1993 FASTUS A Cascaded Finite State Tranducer for Extracting Information from Natural Language Text Sri International 11 Februar 2006 1 Appelt Douglas amp David Israel 1999 Introduction to Information Extraction Technology A Tutorial Prepared for IJCAI 99 SRI International 11 Februar 2006 2 Cardie Claire 1997 Empirical Methods in Information Extraction in AI Magazine Vol 18 4 65 68 11 Februar 2006 3 Cunningham Hamish Diana Maynard Kalina Bontcheva Valentin Tablan Cristian Ursu Marin Dimitrov 2003 Developing Language Processing Components with GATE a User Guide University of Sheffield 11 Februar 2006 PDF Euler Timm 2001a Informationsextraktion durch Zusammenfassung maschinell selektierter Textsegmente Universitat Dortmund 11 Februar 2006 4 2001b Informationsextraktion durch gezielte Zusammenfassung von Texten Universitat Dortmund 11 Februar 2006 PDF 2002 Tailoring Text using Topic Words Selection and Compression in Proceedings of the 13th International Workshop on Database and Expert Systems Applications DEXA IEEE Computer Society Press 11 Februar 2006 PDF Grishman Ralph Silja Huttunen Pasi Tapanainen Roman Yangarber 2000 Unsupervised Discovery of Scenario Level Patterns for Information Extraction in Proceedings of the Conference on Applied Natural Language Processing ANLP NAACL2000 Seattle 282 289 11 Februar 2006 PDF Grishman Ralph 2003 Information Extraction in Mitkov Ruslan et al The Oxford Handbook of Computational Linguistics Oxford University Press 545 559 Mitkov Ruslan 2003 Anaphora Resolution in Mitkov Ruslan et al The Oxford Handbook of Computational Linguistics Oxford University Press 267 283 Neumann Gunter 2001 Informationsextraktion in Carstensen Kai Uwe et al Computerlinguistik und Sprachtechnologie Eine Einfuhrung Heidelberg Berlin Spektrum 448 455 Portmann Edy 2008 Informationsextraktion aus Weblogs Grundlagen und Einsatzmoglichkeiten der gezielten Informationssuche Saarbrucken VDM Strube Gerhard u a Hrsg 2001 Digitales Worterbuch der Kognitionswissenschaft Klett Cotta Witten Ian amp Eibe Frank 2000 Data Mining Praktische Werkzeuge und Techniken fur das maschinelle Lernen Hanser Xu Feiyu Hans Uszkoreit Hong Li 2006 Automatic Event and Relation Detection with Seeds of Varying Complexity In Proceedings of AAAI 2006 Workshop Event Extraction and Synthesis Boston July 2006 Xu Feiyu Hans Uszkoreit Hong Li 2007 A Seed driven Bottom up Machine Learning Framework for Extracting Relations of Various Complexity In Proceedings of ACL 2007 Prague June 2007 PDF Weblinks BearbeitenBeispiel Informationsextraktion aus Stellenanzeigen im Web fur die Webanwendung shuccle Ronny Harbich 2009 Beispiel Automatisiertes Priorisieren von RSS Feed Beitragen mittels maschinellem Lernen PDF 1 5 MB Tobias Zeising 2010 Beispiel Kurs Informationsextraktion der Universitat Duisburg Essen Malte Scheidt 2011 Abgerufen von https de wikipedia org w index php title Informationsextraktion amp oldid 220863874