www.wikidata.de-de.nina.az
PAGE Page Analysis and Ground truth Elements ist ein XML Standard fur die Kodierung von gescannten Dokumenten 1 Er ist mit dem ALTO Format vergleichbar und ermoglicht es die Organisation und Struktur einer Seite und ihrer Inhalte wiederzugeben PAGE XML kann verwendet werden um zu beschreiben Seiteninhalte Regionen Textzeilen Worter Glyphen Lesereihenfolge Textinhalt die Auswertung der Layoutanalyse Auswertungsprofile Auswertungsergebnisse die Bildaufteilung des Dokuments Ausschneidungsraster Das Format wurde 2010 vom Pattern Recognition amp Image Analysis Lab PRIMA an der Salford University in Manchester entwickelt Das Schema wurde fur die Verwendung in Verbindung mit automatischen Segmentierungs und Transkriptionstechniken OCR und HTR automatische Erkennung von Handschriften konzipiert PAGE soll jeden einzelnen Schritt der Verarbeitungskette fur die Analyse von Bilddokumenten unterstutzen von der Bildverbesserung uber die OCR bis hin zur Layoutanalyse Das PAGE XML Schema wird insbesondere als Export und Importformat von Software fur die automatische Transkription wie eScriptorium 2 und Transkribus 3 verwendet Es ist auch ein Exportformat das von Kraken verwendet wird einem schlusselfertigen OCR System das fur Dokumente in historischen und nicht lateinischen Schriftzeichen optimiert ist 4 Weblinks BearbeitenDokumentation voon PAGE XML Format for Page Content durch das le OCR D Projekt der DFGEinzelnachweise Bearbeiten https github com PRImA Research Lab PAGE XML https escripta hypotheses org https readcoop eu transkribus howto how to export documents from transkribus https github com mittagessen kraken Abgerufen von https de wikipedia org w index php title PAGE XML amp oldid 225978959