www.wikidata.de-de.nina.az
Als Wrapper bezeichnet man im Informatik Teilbereich der Informationsextraktion eine Gruppe von speziellen Prozeduren zur automatischen Extrahierung von semi strukturierten Daten aus einer bestimmten Datenquelle Text Dabei werden je nach Art der zu extrahierenden Datensatze unterschiedliche Wrapper benotigt Im Zusammenhang mit Feature Subset Selection existieren zudem unterschiedliche Ansatze zur Auswahl einer optimalen Menge von Feature Subsets aus den Datensatzen Beteilige dich an der Diskussion Dieser Artikel wurde wegen inhaltlicher Mangel auf der Qualitatssicherungsseite der Redaktion Informatik eingetragen Dies geschieht um die Qualitat der Artikel aus dem Themengebiet Informatik auf ein akzeptables Niveau zu bringen Hilf mit die inhaltlichen Mangel dieses Artikels zu beseitigen und beteilige dich an der Diskussion Inhaltsverzeichnis 1 Allgemeines 2 LR Wrapper 3 Weitere Wrapper 4 Wrapper und FSS 5 Einschrankungen 6 Einzelnachweise 7 LiteraturAllgemeines BearbeitenIn diesem Artikel oder Abschnitt fehlen noch folgende wichtige Informationen Hintergrunde Geschichtliche Entwicklung heutige praktische Anwendungen rechtliche Aspekte Hilf der Wikipedia indem du sie recherchierst und einfugst LR Wrapper BearbeitenEin LR Wrapper besteht aus n displaystyle n nbsp abgrenzenden Paaren l i r i displaystyle langle l i r i rangle nbsp foreach l i r i l 1 r 1 l n r n displaystyle langle l i r i rangle in langle l 1 r 1 rangle dotsc langle l n r n rangle nbsp finde das nachste l i displaystyle l i nbsp finde das nachste r i displaystyle r i nbsp extrahiere den Text dazwischen und speichere ihn als i displaystyle i nbsp ten Wert des TupelsEinschrankungen Jedes l i displaystyle l i nbsp muss ein echtes Suffix des Textes vor jeder Instanz des Zielobjekts sein Echt heisst es muss vor jeder Instanz stehen und darf nirgendwo anders vorkommen Ansonsten werden falsche Tupel extrahiert Jedes r i displaystyle r i nbsp muss ein Prafix des Textes nach jeder Instanz des Zielobjekts sein Ansonsten wird die Extraktion vorzeitig abgebrochen Quelle 1 Weitere Wrapper BearbeitenHLRT Wrapper Head Left Right Tail Wrappers Lerne einen eigenen Begrenzer fur den Kopf und das Ende eines Dokumentes Vor dem Head und nach dem Tail werden alle Vorkommnisse von l i r i displaystyle langle l i r i rangle nbsp ignoriert OCLR und HOCLRT Wrapper Lerne fur jedes Tupel ein eigenes Begrenzungspaar N LR und N HLRT Wrapper Erlaube mehrwertige und optionale AttributeQuelle 1 Wrapper und FSS BearbeitenFolgende einfache Moglichkeiten der Auswahl bestehen Forward selection Starte mit einer leeren Menge von Features und fuge immer das Feature hinzu das die Accuracy am meisten erhoht bis die Accuracy nicht mehr deutlich zunimmt Backward elimination Starte mit allen Features und versuche ungeeignete zu entfernen Simple heuristic search Fuge ein Feature nach dem anderen hinzu bis die Accuracy nicht mehr deutlich zunimmt Einschrankungen BearbeitenKeine Permutationen von Attributen moglich Die Begrenzungspaare sind evtl nicht ausreichend zur Identifizierung von TextenUm diese Probleme zu losen mussen andere Algorithmen zur Informationsextraktion verwendet werden etwa ein nicht deterministischer adaptiver Mealy Automat z B SoftMealy 2 der diese Einschrankungen nicht besitzt Einzelnachweise Bearbeiten a b Nicholas Kushmerick Wrapper Induction Efficiency and Expressiveness In Artificial Intelligence Band 118 2000 S 15 68 C N Hsu M T Dung Wrapping semistructured web pages with finite state transducers In Proc Conference on Automatic Learning and Discovery CONALD 98 1998 Literatur BearbeitenB Chidlovskii U Borghoff P Chevalier Towards sophisticated wrapping of web based information repositories In Proceedings of the Conference on Computer Assisted Information Retrieval 1997 S 123 155 M Roth P Schwartz Don t scrap it wrap it In Proceedings of the 22nd VLDB Conference 1997 S 266 275 Abgerufen von https de wikipedia org w index php title Wrapper Informationsextraktion amp oldid 196313500