Als Wrapper bezeichnet man im Informatik-Teilbereich der Informationsextraktion eine Gruppe von speziellen Prozeduren zur automatischen Extrahierung von (semi-)strukturierten Daten aus einer bestimmten Datenquelle (Text). Dabei werden je nach Art der zu extrahierenden Datensätze unterschiedliche Wrapper benötigt. Im Zusammenhang mit Feature Subset Selection existieren zudem unterschiedliche Ansätze zur Auswahl einer optimalen Menge von Feature Subsets aus den Datensätzen.
Allgemeines Bearbeiten
LR-Wrapper Bearbeiten
Ein LR-Wrapper besteht aus abgrenzenden Paaren
foreach
Einschränkungen:
- Jedes muss ein "echtes" Suffix des Textes vor jeder Instanz des Zielobjekts sein. Echt heißt, es muss vor jeder Instanz stehen und darf nirgendwo anders vorkommen. Ansonsten werden falsche Tupel extrahiert.
- Jedes muss ein Präfix des Textes nach jeder Instanz des Zielobjekts sein. Ansonsten wird die Extraktion vorzeitig abgebrochen.
Quelle:
Weitere Wrapper Bearbeiten
Quelle:
Wrapper und FSS Bearbeiten
Folgende einfache Möglichkeiten der Auswahl bestehen:
Einschränkungen Bearbeiten
- Keine Permutationen von Attributen möglich
- Die Begrenzungspaare sind evtl. nicht ausreichend zur Identifizierung von Texten
Um diese Probleme zu lösen, müssen andere Algorithmen zur Informationsextraktion verwendet werden, etwa ein nicht-deterministischer, adaptiver Mealy-Automat (z. B. SoftMealy), der diese Einschränkungen nicht besitzt.
Einzelnachweise Bearbeiten
- ↑ Nicholas Kushmerick: Wrapper Induction: Efficiency and Expressiveness. In: Artificial Intelligence. Band 118, 2000, S. 15–68.
- C.-N. Hsu, M.-T. Dung: Wrapping semistructured web pages with finite-state transducers. In: Proc. Conference on Automatic Learning and Discovery (CONALD-98). 1998.
Literatur Bearbeiten
- B. Chidlovskii, U. Borghoff, P. Chevalier: Towards sophisticated wrapping of web-based information repositories. In: Proceedings of the Conference on Computer-Assisted Information Retrieval. 1997, S. 123–155.
- M. Roth, P. Schwartz: Don’t scrap it, wrap it! In: Proceedings of the 22nd VLDB Conference. 1997, S. 266–275,