www.wikidata.de-de.nina.az
C4 5 ist ein Algorithmus des maschinellen Lernens der verwendet wird um aus Trainingsdaten einen Entscheidungsbaum zu erzeugen mit dem Datensatze klassifiziert werden konnen 1 Er wurde als Erweiterung des ID3 Algorithmus von Ross Quinlan entwickelt 2 Neben den bekannten CARTs und CHAIDs gewinnt C4 5 immer mehr an Bedeutung Er wird mittlerweile bereits von verschiedenen Softwarepaketen eingesetzt Grundsatzlich verhalt sich dieser Algorithmus ahnlich wie der CART Algorithmus Der Hauptunterschied besteht darin dass bei C4 5 keine binare Aufteilung erfolgen muss sondern eine beliebige Anzahl Verzweigungen eingebaut werden konnen Der Baum wird breiter Er ist meist weniger tief als der korrespondierende CART Baum Dafur werden nach der ersten Klassifizierung die nachfolgenden Aufsplittungen weniger bedeutungsvoll Ein weiterer Unterschied zeigt sich beim sogenannten Pruning beim Stutzen des Baumes CART erzeugt einige Subtrees und testet diese mit neuen vorher noch nicht klassifizierten Daten C4 5 hingegen beschneidet den Baum ohne Beachtung der gegebenen Datenbasis Inhaltsverzeichnis 1 Algorithmus 1 1 Ablauf 2 Beispiel 3 Verbesserungen gegenuber ID3 4 Siehe auch 5 EinzelnachweiseAlgorithmus BearbeitenC4 5 generiert aus Trainingsdaten einen Entscheidungsbaum mit dem zukunftige Instanzen die nicht in den Trainingsdaten enthalten waren klassifiziert werden konnen Dabei wird ahnlich wie beim ID3 Algorithmus die Berechnung der Entropie verwendet um die Reihenfolge der Entscheidungsknoten in deren Abstand zum Wurzelknoten innerhalb des zu generierenden Entscheidungsbaumes zu bestimmen Ablauf Bearbeiten Die Trainingsdaten seien eine Menge S s 1 s 2 displaystyle S s 1 s 2 nbsp bestehend aus den bekannten Trainingsbeispielen Jedes Trainingsbeispiel s i S displaystyle s i in S nbsp dieser Menge sei ein p 1 dimensionaler Vektor aus den zu erlernenden Merkmalen Instanz x 1 i x 2 i x p i displaystyle x 1 i x 2 i x p i nbsp und der zu erlernenden Zielklassifikation c i displaystyle c i nbsp s i x 1 i x 2 i x p i c i displaystyle s i x 1 i x 2 i x p i c i nbsp Bei der Erzeugung des obersten Knotens im Entscheidungsbaum sucht C4 5 nach dem ersten Entscheidungsmerkmal Zu dessen Bestimmung vergleicht C4 5 fur jedes Merkmal die Effizienz mit der die Trainingsdatenmenge unter diesem Merkmal aufgeteilt wurde und entscheidet sich fur das beste Als Kriterium gilt dabei der durch das Merkmal zu erreichende hochste Zugewinn an Information Kullback Leibler Divergenz Die Trainingsdaten werden daraufhin in Teilmengen gemass ihren Werten des ausgewahlten Merkmales aufgeteilt fur die jeweils ein Ast unterhalb des Wurzelknotens entsteht Der Algorithmus wird rekursiv fortgefuhrt indem der bisherige Ablauf erneut fur jeden dieser Aste unter Einschrankung der diesem Ast zugeordneten Teilmenge der Trainingsdaten angewandt wird Wenn an einem Ast kein Zugewinn an Information durch eine weitere Unterteilung der Trainingsdaten moglich ist entsteht an diesem Ast ein Blatt mit der verbleibenden Zielklassifikation Der hochst mogliche maximale Grad des Baumes betragt somit p 1 displaystyle p 1 nbsp Beispiel BearbeitenSarah geht an einigen Tagen segeln an anderen Tagen nicht Ob sie an einem bestimmten Tag segeln geht sei vorwiegend von den folgenden Merkmalen abhangig Wetterlage sonnig bedeckt regnerisch Temperatur Luftfeuchtigkeit Windstarke leicht stark An 14 zufalligen Tagen wurden diese Daten zusammen mit der Information ob Sarah segeln geht erfasst nbsp Wetterlage Temperatur in C Luftfeuchtigkeit in Windstarke Sarah geht segelnSonnig 29 85 Leicht FalschSonnig 27 90 Stark FalschBedeckt 28 78 Leicht WahrRegnerisch 21 96 Leicht WahrRegnerisch 20 80 Leicht WahrRegnerisch 18 70 Stark FalschBedeckt 17 65 Stark WahrSonnig 22 95 Leicht FalschSonnig 21 70 Leicht WahrRegnerisch 24 80 Leicht WahrSonnig 24 70 Stark WahrBedeckt 22 90 Stark WahrBedeckt 27 75 Leicht WahrRegnerisch 21 80 Stark FalschMaschinelles Lernen soll eingesetzt werden um den Zusammenhang zwischen den vier tagesbedingten Merkmalen und der Aussage ob Sarah segeln geht aufzudecken Hat man einmal diesen Zusammenhang ermittelt dann lasst sich auch fur beliebige andere Tage bei Kenntnis der Wetterdaten bestimmen ob Sarah segeln geht C4 5 generiert aus den in der Tabelle gegebenen Trainingsdaten den abgebildeten Entscheidungsbaum Die Zahlen in den Klammern geben die Anzahl der Trainingsdatensatze an die diesem Pfad entsprechen Verbesserungen gegenuber ID3 BearbeitenAls Erweiterung des ID3 Algorithmus bietet C4 5 einige Verbesserungen Anwendbarkeit sowohl auf diskrete als auch auf kontinuierliche Attribute Enthalten die Datensatze beispielsweise eine reelle Grosse als eines der Merkmale so werden die Merkmalswerte in diskrete Intervalle eingeordnet Anwendbarkeit auf Trainingsdaten mit fehlenden Attributswerten Unter Anwendung von C4 5 konnen nicht verfugbare Merkmalswerte als unbekannt markiert werden Unbekannte Werte werden bei der Berechnung des Information Gain einfach ignoriert Mogliche Kostengewichtung der Attribute Aufwandig zu bestimmenden Merkmalen kann eine hohere Kostengewichtung zugeordnet werden Merkmale mit hohen Kostengewichtungen werden tendenziell weiter unten im Entscheidungsbaum als Verzweigungen angeordnet sodass fur weniger Klassifizierungen dieses Merkmal uberhaupt bestimmt werden muss Beispielsweise konnte die Anwendung von C4 5 zur Krankheitsdiagnostizierung unter der Datenbasis von Symptomen und medizinischen Untersuchungswerten so angepasst werden dass kostenintensive Untersuchungen eher vermieden werden und moglichst nur im Zweifelsfall zwischen mehreren moglichen Diagnosen zum Einsatz kommen Stutzen Pruning des Entscheidungsbaumes nach dessen Erstellung Um die Anzahl der moglichen Ergebnisklassen der Klassifizierung zu verringern schneidet C4 5 lange Aste ab Dies verhindert ausserdem Uberanpassung an die Trainingsdaten Siehe auch BearbeitenTop Down Induction of Decision Trees TDIDT Einzelnachweise Bearbeiten Tom M Mitchell Machine Learning 1997 Quinlan J R C4 5 Programs for Machine Learning Morgan Kaufmann Publishers 1993 Abgerufen von https de wikipedia org w index php title C4 5 amp oldid 205604297