www.wikidata.de-de.nina.az
ALTO Analyzed Layout and Text Object ist ein offenes XML Schema zur Beschreibung von Layoutinformationen digitalisierter Objekte Der Standard wurde ursprunglich fur die Beschreibung von OCR Erkennungsergebnissen Text und Layout auf Seitenebene von digitalisierten Materialien entwickelt Ziel war es den Text und das Layout so zu beschreiben dass eine Rekonstruktion auf Basis digitalisierten Materials moglich ware ALTO wird oft in Kombination mit Metadata Encoding and Transmission Standard METS fur die Beschreibung des gesamten digitalisierten Objektes und die Erzeugung von Referenzen innerhalb der ALTO Datei verwendet zum Beispiel um die Lese Abfolge festzulegen ALTO wurde in dem von der EU geforderten Projekt METAe entwickelt Seit 2010 wird der Standard durch die Library of Congress und ein Herausgeber Team gepflegt Durch die Empfehlung der DFG Praxisregeln Digitalisierung ist ALTO ein de facto Standard fur Text Digitalisierungsprojekte in Deutschland 1 und wird beispielsweise vom DFG Viewer unterstutzt Inhaltsverzeichnis 1 Versionen 2 Aufbau einer ALTO Datei 3 Unterstutzende Software 4 Siehe auch 5 Weblinks 6 EinzelnachweiseVersionen BearbeitenDie aktuelle Schema Version sowie eine Ubersicht uber die alteren Versionen finden sich auf GitHub 2 Aufbau einer ALTO Datei BearbeitenEine ALTO Datei besteht aus drei Haupt Abschnitten also Kindern des Wurzelelements lt alto gt 3 Der Abschnitt lt Description gt beinhaltet Metadaten zur ALTO Datei selbst und Prozess Informationen wie die Datei erzeugt wurde lt Styles gt beinhaltet den Text und Layout Informationen in der jeweils individuellen Auspragung lt TextStyle gt beschreibt Font und Schrifttypen lt ParagraphStyle gt beschreibt Eigenschaften eines Absatzes z B dessen Ausrichtung Der lt Layout gt Abschnitt enthalt den eigentlichen Inhalt der durch lt Page gt Elemente fur einzelne Seiten untergliedert ist lt xml version 1 0 gt lt alto gt lt Description gt lt MeasurementUnit gt lt sourceImageInformation gt lt Processing gt lt Description gt lt Styles gt lt TextStyle gt lt ParagraphStyle gt lt Styles gt lt Layout gt lt Page gt lt TopMargin gt lt LeftMargin gt lt RightMargin gt lt BottomMargin gt lt PrintSpace gt lt Page gt lt Layout gt lt alto gt Unterstutzende Software BearbeitenABBYY FineReader CCS docWizz Goobi Kitodo hOCR to ALTO XSLT Transformationen von und nach ALTO Tesseract OCRSiehe auch BearbeitenMetadata Encoding and Transmission Standard METS Dublin Core an ISO metadata standard Preservation Metadata Implementation Strategies PREMIS Open Archives Initiative Protocol for Metadata Harvesting OAI PMH hOCRWeblinks BearbeitenALTO Analyzed Layout and Text Object standards auf der Webseite der Library of Congress altoxml github io bzw github com ALTOxml auf GitHub Mehr Informationen zu METS ALTO von der CCS GmbH Eine Einfuhrung in METS ALTO von CCS GmbHEinzelnachweise Bearbeiten DFG Praxisregeln Digitalisierung S 37 dfg de PDF https github com altoxml Structure of ALTO Files Abgerufen von https de wikipedia org w index php title Analyzed Layout and Text Object amp oldid 234174789