www.wikidata.de-de.nina.az
OCRopus auch ocropy ist eine freie Software zur Dokumentanalyse und Texterkennung mit einem sehr modularen Entwurf OCRopus wurde mit Unterstutzung von Google Inc unter Leitung von Thomas Breuel vom Deutschen Forschungszentrum fur Kunstliche Intelligenz DFKI in Kaiserslautern entwickelt und als freie Software unter den Bedingungen von Version 2 0 der Apache Lizenz veroffentlicht OCRopusBasisdatenEntwickler Thomas Breuel DFKIErscheinungsjahr 2007Aktuelle Version 1 3 3 1 2 3 16 Dezember 2017 Betriebssystem FreeBSD Linux macOS Windows 10Programmiersprache C PythonKategorie TexterkennungLizenz Apache Lizenzgithub com ocropus ocropy Inhaltsverzeichnis 1 Beschreibung 2 Geschichte 3 Abspaltungen 4 Benutzung 5 Weblinks 6 Quellen und EinzelnachweiseBeschreibung BearbeitenOCRopus wurde insbesondere fur die Anwendung in grossflachigen Retrodigitalisierungsprojekten von Buchern etwa bei Google Books Internet Archive oder Bibliotheken konzipiert Dabei sollen eine Vielzahl von Sprachen und Schriften unterstutzt werden 4 Es kann aber auch fur Anwendungen im Burobereich oder fur Sehgeschadigte eingesetzt werden Die Hauptkomponenten bei OCRopus bilden Analyse des Dokumentenaufbaus optische Zeichenerkennung Nutzung von statistischen SprachmodellenFur diese Komponenten stehen einzelne oder auch mehrere Skripte zur Verfugung Der modulare Ansatz erlaubt es individuelle Workflows zu nutzen und einzelne Schritte auszutauschen Standardmassig kommt OCRopus mit einem Modell fur englische Texte und einem Modell fur Texte in Fraktur Diese Modelle beziehen sich auf die Schriftart und sind weitestgehend unabhangig von der eigentlichen Sprache 5 Neue Schriftzeichen oder Sprachvarianten konnen entweder neu oder zusatzlich trainiert werden Die tatsachliche Erkennung basiert auf rekurrenten neuronalen Netzen LSTM und kommt ganzlich ohne Sprachmodell aus Damit konnen sprachunabhangige Modelle trainiert werden fur welche gute Erkennungsergebnisse fur Englisch Deutsch Franzosisch zugleich gezeigt wurden 6 Neben dem lateinischem Schriftsystem gibt es Resultate fur weitere Schriften wie etwa Sanskrit Urdu Devanagari Griechisch Durch ein entsprechendes Training konnen sehr gute Erkennungsraten erreicht werden 7 Dieser Mehraufwand lohnt sich gerade bei schwierigen Dokumenten oder heute nicht mehr ublichen Schriftarten welche bei anderen OCR Softwares nicht im Fokus stehen 8 9 Geschichte BearbeitenAm 9 April 2007 wurde OCRopus als ein von Google gesponsertes Projekt zur Entwicklung fortschrittlicher OCR Technologien bekannt gegeben 10 Die Forderung war auf drei Jahre ausgelegt und umschloss insbesondere Doktoranden bzw PostDoc Stellen am DFKI bzw der Universitat Kaiserslautern Im Gegenzug wurde bei der Google Buchsuche auch OCRopus fur die automatische Texterkennung verwendet 11 Die Lizenzierung unter einer Open Source Lizenz wurde gleich zu Beginn gemacht um Kollaborationen zwischen industrieller und akademischer Forschung leichter zu ermoglichen 12 Weitere Forderung hat OCRopus von der Andrew W Mellon Foundation sowie dem BMBF bekommen 13 Im Zuge des TextGrid Projektes wurde dabei etwa die Schrifterkennung fur Fraktur angegangen 14 Die erste Alpha Version 0 1 wurde am 22 Oktober 2007 veroffentlicht und diverse Vorabversionen erschienen zwischen Dezember 2007 und Mai 2009 Mit Version 0 4 4 wurde 2010 ein stabiler Stand erreicht 15 Ursprunglich wurde das Programm in C Python und Lua mit Jam als Build System entwickelt Ein komplettes Refactoring des Quellcodes in Python Module beinhaltet die Version 0 5 welche 2012 veroffentlicht wurde 16 Anfanglich wurde Tesseract als einziges Erkennungsmodul verwendet Ab Version 0 4 2009 wird Tesseract nur noch als Plugin unterstutzt Stattdessen kam eine Eigenentwicklung zur Texterkennung ebenfalls Segment basiert zum Einsatz 17 Ab 2013 wurde zusatzlich eine Erkennung auf rekurrenten neuronalen Netzen LSTM angeboten welche mit der Version 1 0 im November 2014 als einziger Erkenner weitergefuhrt wird 18 7 Der Quellcode wird uber GitHub verwaltet und wird von der Entwickler Community gepflegt und weiterentwickelt 19 Die aktuelle Version von OCRopus ist 1 3 3 Dezember 2017 20 Weiterentwicklungen des ursprunglichen OCRopus sind ocropy auch OCRopus2 und OCRopus3 OCRopus4 ist die neueste Version an der Thomas Breuel aktuell Stand 2021 arbeitet 21 Abspaltungen BearbeitenVon OCRopus abgeleitet ist die OCR Software Kraken 22 Calamari ist ein weiterer Abkommling der auf OCRopy und Kraken basiert 23 Benutzung Bearbeiten nbsp OCRopus WorkflowOCRopus ist ein reines Kommandozeilenprogramm Es wird primar fur Linux Plattformen entwickelt sollte jedoch auf vielen Plattformen lauffahig sein solange seine Abhangigkeiten erfullt sind Eingesetzt wird es indem uber die Kommandozeile das Eingabebild angegeben wird Zur genaueren Steuerung konnen zusatzlich noch Optionen ubergeben werden um bestimmte Aktionen wie die Erkennung einer einzelnen Zeile auszufuhren 24 Die Ergebnisse werden uber die Standardausgabe stdout in HTML und CSS mit speziellen Formatierungen hOCR ausgegeben Beispiel fur die Aufrufe der OCRopus Skripte um den Text in einem Bild zu erkennen Binarisierung ocropus nlbin tests ersch png o book Layoutanalyse fur Seite ocropus gpageseg book 0001 bin png Texterkennung der Linien mit dem Fraktur Model ocropus rpred m models fraktur pyrnn gz book 0001 bin png HTML Ausgabe erzeugen ocropus hocr book 0001 bin png o book 0001 htmlWeblinks BearbeitenOCRopus auf GitHub und zugehoriges Wiki englisch Quellen und Einzelnachweise Bearbeiten Release 1 3 3 16 Dezember 2017 abgerufen am 15 Marz 2018 Release 1 3 3 16 Dezember 2017 abgerufen am 19 Februar 2020 Release 1 3 3 16 Dezember 2017 abgerufen am 1 August 2020 Thomas Breuel Recent Progress on the OCRopus OCR System In Proceedings of the International Workshop on Multilingual OCR MOCR 09 ACM New York 2009 ISBN 978 1 60558 698 4 S 2 1 2 10 doi 10 1145 1577802 1577805 Models In ocropy wiki GitHub abgerufen am 29 Dezember 2017 Adnan Ul Hasan Thomas M Breuel Can We Build Language independent OCR Using LSTM Networks In Proceedings of the 4th International Workshop on Multilingual OCR MOCR 13 ACM New York NY USA 2013 ISBN 978 1 4503 2114 3 S 9 1 9 5 doi 10 1145 2505377 2505394 a b T M Breuel A Ul Hasan M A Al Azawi F Shafait High Performance OCR for Printed English and Fraktur Using LSTM Networks In 2013 12th International Conference on Document Analysis and Recognition August 2013 S 683 687 doi 10 1109 ICDAR 2013 140 Robert Nasarek OCRopus Hoffnungstrager der Frakturschrifterkennung In Digital Humanities selbst gestrickt 23 Mai 2017 abgerufen am 29 Dezember 2017 Uwe Springmann OCR fur alte Drucke In Informatik Spektrum Band 39 Nr 6 1 Dezember 2016 ISSN 0170 6012 S 459 462 doi 10 1007 s00287 016 1004 3 Thomas Breuel Announcing the OCRopus Open Source OCR System In Google Developers Blog 9 April 2007 abgerufen am 29 Dezember 2017 Forschungsprojekt OCRopus DFKI abgerufen am 29 Dezember 2017 Thomas M Breuel The OCRopus open source OCR system Band 6815 International Society for Optics and Photonics 28 Januar 2008 S 68150F doi 10 1117 12 783598 ocropus Projektwebseite Nicht mehr online verfugbar In Google Project Hosting 24 Dezember 2012 archiviert vom Original am 24 Dezember 2012 abgerufen am 30 Dezember 2017 Abschlussbericht Offentliche Fassung TextGrid Vernetzte Forschungsumgebung in den eHumanities PDF 27 November 2012 abgerufen am 30 Dezember 2017 ocropy older versions In GitHub Wiki Abgerufen am 29 Dezember 2017 OCRopus 0 5 In Google Groups 2 Juni 2012 abgerufen am 5 Januar 2018 OCRopus doesn t even link with Tesseract by default ocropy release v1 0 GitHub 2 November 2014 abgerufen am 29 Dezember 2017 ocropy Python based tools for document analysis and OCR GitHub abgerufen am 29 Dezember 2017 Releases ocropy In GitHub Abgerufen am 5 Januar 2018 Thomas Breuel OCR and Scene Text Abgerufen am 9 Januar 2022 englisch kraken OCR engine for all the languages Abgerufen am 10 Marz 2019 englisch calamari OCR Engine based on OCRopy and Kraken Abgerufen am 10 Marz 2019 englisch ocropy wiki GitHub abgerufen am 29 Dezember 2017 Abgerufen von https de wikipedia org w index php title OCRopus amp oldid 218999864