www.wikidata.de-de.nina.az
Automatic Creation of Literature Abstracts ist eine Arbeit von Hans Peter Luhn von 1958 Sie beschreibt die erste Implementierung eines Algorithmus zur Satzextraktion Ziel dieser Satzextraktion war die automatische Auswahl von Satzen zur Anfertigung eines Abstracts Inhaltsverzeichnis 1 Entstehung 2 Prinzip 3 Luhns Bilanz 3 1 Pro 3 2 Contra 3 3 Ausblick 4 WeblinksEntstehung BearbeitenAls sinnvolles Mass fur die Relevanz von Wortern sah Luhn die Haufigkeit mit der ein Wort im Text auftaucht Die Berechtigung fur diese Annahme sieht er darin dass ein Autor bestimmte Worter die mit dem Thema verbunden sind bei seiner Argumentation und der Beschreibung verschiedener Aspekte wiederholt Ausserdem war er der Meinung dass die Position von relevanten Wortern innerhalb eines Satzes etwas uber die Wichtigkeit dieses Satzes aussagt Aus einer Kombination dieser beiden Werte wollte Luhn die Relevanz der Satze bestimmen Prinzip BearbeitenBei der Durchfuhrung des Algorithmus wird zuerst eine Art Inventarliste mit allen vorkommenden Wortern und deren Haufigkeit erstellt Da Luhn der Meinung war dass nur Worter mit mittlerer Haufigkeit etwas uber die Signifikanz eines Satzes aussagen und Worter mit sehr hoher Haufigkeit eher nichtssagend weil zu allgemein sind wollte er diese allgemeinen Worter mit sehr hohem Vorkommen im Text ausschliessen Er sah zwei Moglichkeiten dies zu tun Vergleich dieser hochfrequenten Worter mit einer Liste mit allgemeinen Wortern und Ausschluss der Worter die als allgemein gelten aus der Berechnung der Relevanz Festlegen eines oberen und eines unteren Grenzwertes bezuglich der Haufigkeit um zu allgemeine und zu selten vorkommende Worter auszuschliessen Luhn entschied sich fur die zweite einfachere Variante Um die optimalen Grenzwerte zu finden musste man sich auf die Erfahrung aus vielen Beispielartikeln verlassen Der Signifikanzwert eines Satzes berechnet sich aber nicht einfach aus den enthaltenen relevanten Wortern Da Luhn die Position und die Beziehung relevanter Worter auch berucksichtigen wollte sollten nur Satzteile welche relevante Worter enthielten berucksichtigt werden Es wurde festgelegt dass ein relevantes Wort nur dann zu einer Wortgruppe genannt Cluster gehort wenn zwischen ihm und dem nachsten relevanten Wort nicht mehr als vier oder funf unwichtige Worter stehen Der Signifikanzfaktor berechnet sich daher wie folgt S i g n i f i k a n z f a k t o r A n z a h l s i g n i f i k a n t e r W o r t e r d e r W o r t g r u p p e 2 A n z a h l W o r t e r d e r W o r t g r u p p e displaystyle rm Signifikanzfaktor rm Anzahl signifikanter W ddot o rter der Wortgruppe 2 over rm Anzahl W ddot o rter der Wortgruppe nbsp Nachdem die Satze entsprechend ihrer Relevanz geordnet wurden sollte der Satz bzw die Satze mit den hochsten Relevanzwerten fur die Zusammenfassung ausgewahlt werden Luhns Bilanz BearbeitenLaut Luhn zeigen die Ergebnisse das heisst die automatisch generierten Extrakte dass es mit seinem Algorithmus moglich ist Zusammenfassungen automatisch zu erstellen die das Hauptthema des Originals fast genau so gut wiedergeben wie herkommliche Zusammenfassungen Pro Bearbeiten Ein Vorteil der so erstellten Zusammenfassungen ist ihre Zuverlassigkeit Konsistenz und Bestandigkeit Dies ruhrt daher dass die unterschiedlichen Fahigkeiten und Orientierungen von Menschen keinen Einfluss auf die Zusammenfassung haben Nach Luhns Meinung werden die Nutzer von Zusammenfassungssystemen nach und nach lernen wie die erstellten Zusammenfassungen interpretiert werden mussen So werden die Nutzer erkennen dass einige Worter sich auf Bemerkungen aus vorangegangenen nicht extrahierten Satzen beziehen Contra Bearbeiten Er sieht aber auch einige Nachteile die die automatisch generierten Zusammenfassungen mit sich bringen Er nennt zum Beispiel den Verlust der Gewandtheit der Zusammenfassungen Auch sieht er Probleme wenn der Stil eines Autors stark von der Allgemeinheit abweicht da so eventuell geringerwertige Satze ausgewahlt werden konnen Ausblick Bearbeiten Trotz der Nachteile ist Luhn der Meinung dass mit der automatischen Erstellung von Zusammenfassungen beachtliche und lohnende Einsparungen des menschlichen Aufwand erreicht werden konnen vgl H P Luhn Automatic Creation of Literature Abstracts In IBM Journal of Research amp Development 2 2 April 1958 Seite 159 165 Allerdings sah Luhn auch Moglichkeiten seinen Algorithmus zu verbessern Zum einen konnte sein Ansatz dahingehend geandert werden dass Zusammenfassungen von Text zu bestimmten Themen oder Untersuchungsbereichen entstehen Zum anderen sah er Bedarf Zusammenfassungen mit variabler Lange generieren zu lassen So konnten zum Beispiel Zusammenfassungen entstehen die auf die Bedurfnisse des einzelnen Anwenders zugeschnitten sind Sollten dann die Signifikanzwerte der einzelnen Satze nicht uber einen bestimmten Grenzwert hinaus kommen kann der Artikel als zu allgemein fur die Nutzerinteressen abgewiesen werden Weblinks BearbeitenHans Peter Luhn Automatic Creation of Literature Abstracts englisch Abgerufen von https de wikipedia org w index php title Extraktionsalgorithmus nach Luhn amp oldid 194625920