www.wikidata.de-de.nina.az
hOCR ist ein offener Standard der ein Datenformat beschreibt das der Reprasentation von Texterkennungsergebnissen dient Mit diesem Format lassen sich zusatzlich zum Text dessen Layout Erkennungsgenauigkeit Formatierungen und andere Informationen erfassen Das Format baut auf XHTML oder auch HTML auf Metadaten werden nach der Dublin Core Konvention zur Einbettung von Metadaten in HTML in speziellen lt meta gt Tags abgespeichert Software BearbeitenDas Format wurde in Googles OCRopus eingefuhrt Ausser von OCRopus kann das Format auch von CuneiForm von HOCR einer auf hebraische Schrift spezialisierten Texterkennungssoftware und ab Version 3 0 auch von Tesseract direkt erzeugt werden Die hocr tools sind ein Paket von Werkzeugen zur Verarbeitung Zusammenfugen Aufteilen Einfugen von Metadaten und Analyse von hOCR Daten Mit hocr2pdf 1 existiert ein Kommandozeilenwerkzeug zur Erzeugung von maschinell durchsuchbaren Bilder PDF Dateien anhand von hOCR Daten Weblinks BearbeitenSpezifikation des Formates Projektubersicht zu hocr tools bei GitHubEinzelnachweise Bearbeiten exactcode de site open source exactimage hocr2pdf Abgerufen von https de wikipedia org w index php title HOCR Standard amp oldid 164447837