www.wikidata.de-de.nina.az
Tesseract ist eine freie Software zur Texterkennung Schwerpunkt ist die Erkennung von Textzeichen bzw Textzeilen aber auch die Zerlegung eines Textes in Textblocke Layoutanalyse kann Tesseract ubernehmen Zur Verbesserung der Erkennungsraten verwendet Tesseract Sprachmodelle wie beispielsweise Worterbucher TesseractBasisdatenEntwickler Ray Smith Google Hewlett Packard University of Nevada Las Vegas Freie Software GemeindeAktuelle Version 5 3 3 1 5 Oktober 2023 Betriebssystem GNU Linux Microsoft Windows 2 macOS 2 BSD Betriebssystem 2 GNU Hurd 2 Android 2 iOS 2 PlattformunabhangigProgrammiersprache C 3 Kategorie TexterkennungLizenz Apache Lizenz Version 2 0 2 4 deutschsprachig jagithub com tesseract ocrTesseract 3 03 in einer Linux KonsoleFur weit mehr als 100 Sprachen und Sprachvarianten sind bereits Texterkennungsdaten in Zusatzmodulen vorhanden Tesseract unterstutzt dabei nicht nur lateinische Antiqua Schriften sondern auch Fraktur Schrift Devanagari indische Schrift chinesische arabische griechische hebraische kyrillische und weitere Schriften 5 6 Inhaltsverzeichnis 1 Geschichte 2 Anwendung 3 Verfugbarkeit 4 Siehe auch 5 Weblinks 6 EinzelnachweiseGeschichte BearbeitenUrsprunglich wurde die Software zwischen 1984 und 1994 bei Hewlett Packard fur deren Scanner entwickelt dort aber nie in einem Produkt verwendet 7 Aus einem Test der University of Nevada Las Vegas UNLV ging sie 1995 als einer der drei prazisesten Testkandidaten hervor Nach dem Ausstieg von HP aus dem OCR Markt lag die Entwicklung weitgehend brach bis der Code 2005 an das Information Science Research Institute der UNLV ubergeben wurde Hier wurde festgestellt dass der ehemalige Entwickler Ray Smith mittlerweile bei Google arbeitete Nach einer Nachfrage bei Google ob Interesse an dem Code bestunde nahm sich Google des Quelltextes an brachte ihn auf einen aktuellen Stand und gab ihn noch im selben Jahr unter der Apache Lizenz uber SourceForge frei Dies bedeutete in der Welt der freien Software einen grossen Qualitatssprung im Bereich der Texterkennung Das Projekt migrierte von SourceForge auf Googles eigene Software Entwickler Plattform Google Code wo es unter Betreuung von Google weiterentwickelt wurde Seit 2015 findet die Weiterentwicklung auf GitHub statt 8 Seit 2006 wurde das Programm als Grundlage von Google Books weiterentwickelt Ab Version 3 0 vom September 2010 konnen Ergebnisse direkt in das hOCR Format ausgegeben werden und es wurde ein neues Modul zur Analyse der Seitengestaltung eingefuhrt Das Projekt tesseractindic widmete sich der Aufgabe das Programm mit Sprachen aus der indischen Sprachenfamilie verwendbar zu machen 9 Diese Sprachen werden seit Tesseract 3 01 unterstutzt In der Version 3 02 vom 28 Oktober 2012 wurde u a die Erkennung arabischer und hebraischer Texte im bidirektionalen Modus eingefuhrt Ende 2016 fuhrte Tesseract ein neuronales Netz zur Texterkennung ein Version 4 unterstutzt diese neue Methode kann aber auch weiterhin mit dem Mustervergleich der Vorgangerversionen arbeiten Google verwendete nach eigener Aussage Tesseract fur die Texterkennung auf mobilen Geraten und in Videos sowie bei der Erkennung von Spam in E Mail Bildern 10 ist aber seit 2018 nicht mehr aktiv an der Weiterentwicklung von Tesseract beteiligt Diese wird seitdem von einer kleinen Gruppe von Hauptentwicklern und vielen Beitragen einzelner Entwickler getragen 11 Seit Dezember 2018 kann Tesseract die OCR Ergebnisse im standardisierten ALTO Format ausgeben Dieses Format ist insbesondere fur Archive und Bibliotheken relevant die Archivgut und historische Drucke nach den DFG Praxisregeln Digitalisierung veroffentlichen mochten 12 Mit Forderung durch die Deutsche Forschungsgemeinschaft im Rahmen des Projektes OCR D arbeitet die Universitatsbibliothek Mannheim seit 2018 daran Tesseract fur den Einsatz in der Retrodigitalisierung tauglich zu machen 13 Ende 2020 stellte das Internet Archive die automatisierte Texterkennung von ABBYY FineReader auf Tesseract um 14 und verarbeitet damit mehr als 2 Millionen Seiten pro Tag 15 Anwendung BearbeitenTesseract wird nach den unter Unix ublichen Konventionen auch unter Windows von der Kommandozeile aus gesteuert und hat folgendes Format 16 tesseract imagename outputbase l lang oem ocrenginemode psm pagesegmode configfiles Tesseract liest das Bild im Tagged Image File Format TIFF ein und gibt den Text in die Ausgabedatei weiter Altere Versionen von Tesseract hatten keine eigene Layoutanalyse waren also auf externe Software wie beispielsweise OCRopus angewiesen um Textspalten auf einzelne Bilddateien zu verteilen Aktuelle Versionen nutzen die Programmbibliothek Leptonica fur die Analyse der Seitengestaltung aber auch fur die direkte Verarbeitung aller gangigen Bildformate 17 Eine automatisierte Verarbeitung lasst sich zum Beispiel mit ImageMagick verwirklichen Tesseract kann ab Version 3 die Scan Ergebnisse im hOCR Format speichern wodurch die Seitengestaltung erhalten bleibt 18 Auch durchsuchbare PDF Dateien lassen sich mit dieser Version direkt erzeugen 19 Es existiert eine Reihe Software die Tesseract als Backend einbindet Tesseract kann als Zeichenerkennungsmodul in OCRopus verwendet werden das zusatzlich noch Analyse der Dokumentgliederung und statistische Sprachmodelle bietet 20 Allerdings benutzt OCRopus ab Version 0 4 standardmassig ein eigenes Zeichenerkennungsmodul basierend auf neuronalen Netzen 21 In fruheren Versionen wurde Tesseract als Standardmodul in OCRopus verwendet Neben weiteren moglichen Backends kann es in der Desktop OCR Losung OCRFeeder zur Zeichenerkennung genutzt werden Mittels hocr2pdf dient es zum Beispiel in dem Linux basierten Dokumentenmanagement System Archivista der Erzeugung einer Text Schicht zu rastergraphischen Abbildern eingescannter Papierdokumente um diese maschinell durchsuchbar zu machen Verfugbarkeit BearbeitenTesseract wird als freie Software auch im Quelltext unter den Bedingungen von Version 2 0 der Apache Lizenz Apache Software License ASL verbreitet In praktisch allen gangigen Linux Distributionen kann es direkt aus den Standard Paketquellen installiert werden 6 22 23 24 25 26 Installationsprogramme fur Windows gibt es von mehreren Anbietern 27 Tesseract dient u a bei folgenden Programmen als Basis der Texterkennung a9t9 Free OCR ist ein Open Source Tesseract Frontend GPL fur Windows 28 Apache Tika verwendet Tesseract um Text in Bilddateien zu finden 29 Audiveris ist ein Open Source Programm zur Notenerkennung und verwendet Tesseract dabei zur Erkennung von Partiturtexten 30 bitfarm Archiv benutzt im gleichnamigen Open Source DMS Tesseract zusammen mit MySQL fur eine schnelle Volltextsuche mit Positionsmarkierung in eingescannten Dokumenten 31 capella scan ist eine kommerzielle Software die Scans von Partituren verarbeitet und dabei Texte mit Hilfe von Tesseract erkennt 32 Capture2Text ist ein Utility das schnell einen Text vom Bildschirmfoto erkennt 33 CIB doXiview ist ein sehr vielseitiges PDF Werkzeug Es bietet neben Tesseract auch eigene fortgeschrittene OCR Verfahren inklusive Handschrift an ecoDMS ist ein kommerzielles Dokumentenmanagementsystem fur Windows Linux und macOS 34 FreeOCR fur Windows liegt als Version 5 4 Marz 2015 vor 35 gImageReader ist ein freies graphisches Frontend und lauft auf Linux und Windows 36 gscan2pdf ein Dokumenten Scanprogramm unter Linux 37 iText pdfOCR erkennt Text in gescannten PDF Dateien 38 k2pdfopt ist ein plattformunabhangiges Open Source Programm das PDF Dateien fur E Reader optimiert Es kann einen tesseract basierten OCR Layer uber eine gescannte PDF Datei legen Die MS Windows Version bietet eine GUI 39 Nextcloud OCR ist eine freie Erweiterung fur Nextcloud und ermoglicht Texterkennung fur alle Bild und PDF Dateien 40 OCRmyPDF fugt zu bereits existierenden gescannten PDF einen Textlayer mit Hilfe von Tesseract hinzu 41 Office Manager Pro ist ein kommerzielles Dokumentenmanagementsystem fur Windows 42 Paperless NGX ist ein Open Source Dokumentenmanagement System 43 PDF24 Creator ist ein Windows Programm zum Erzeugen von PDF Dateien 44 PDFScanner ist ein Programm zum Scannen von Dokumenten auf Macs 45 Scribe OCR ist ein Webinterface zum Korrekturlesen von OCR 46 Tesseract Studio Net ist ein weiteres Open Source Tesseract Frontend fur Windows 47 Tesseract js ist eine Portierung von Tesseract in JavaScript die mit Hilfe von Emscripten erstellt wurde 48 TesseractOCR Mac macht es auch fur macOS verfugbar 49 Text Fairy ist eine Android App die Text in Bildern erkennt und auch vorlesen kann 50 VietOCR ist ein Open Source GUI Frontend Apache Lizenz fur Tesseract und lauft auf Linux macOS Windows und weiteren Betriebssystemen 51 YAGF ist eines von mehreren Frontends die unter Linux verwendet werden konnen 52 FileGazer ist eine Software die neben dem Content Text und der Extraktion von Metadaten alle verfugbaren Informationen einer Datei Dokument ermittelt mimetype barcodes hascodes Siehe auch BearbeitenCuneiFormWeblinks Bearbeiten nbsp Commons Tesseract software Sammlung von Bildern Videos und Audiodateien Ray Smith Tesseract OCR Engine PDF Vortrag uber die Geschichte von Tesseract OSCON 2007 Nicht mehr online verfugbar Google Inc 2007 archiviert vom Original am 19 August 2016 abgerufen am 22 Februar 2020 englisch Kurzanleitung zur Texterkennung mit TesseractEinzelnachweise Bearbeiten github com a b c d e f g In Free Software Directory The tesseract ocr Open Source Project on Open Hub Languages Page In Open Hub abgerufen am 14 Juli 2018 www isri unlv edu tesseract ocr tessdata best Best most accurate trained LSTM models GitHub 15 September 2017 abgerufen am 25 September 2017 englisch a b Erik Barwaldt Buchstabensalat Texterkennung mit Tesseract In LinuxUser Nr 5 Linux New Media AG 8 April 2011 Ray Smith An Overview of the Tesseract OCR Engine In Ninth International Conference on Document Analysis and Recognition ICDAR 2007 Band 2 IEEE September 2007 S 629 633 englisch github com PDF Tesseract moved to github com Google Groups 14 Juni 2015 abgerufen am 20 Marz 2018 englisch Tesseractindic GitHub 27 November 2009 abgerufen am 19 April 2016 englisch Tesseract OCR Google Open Source archiviert vom Original am 9 Juli 2021 abgerufen am 12 Januar 2017 englisch Contributors to tesseract ocr tesseract GitHub abgerufen am 3 Januar 2023 englisch DFG Praxisregeln Digitalisierung DFG abgerufen am 3 Januar 2023 Optimierter Einsatz von OCR Verfahren Tesseract als Komponente im OCR D Workflow DFG abgerufen am 3 Januar 2023 Merlijn Wajer OCR at the Internet Archive with Tesseract and hOCR Internet Archive abgerufen am 15 August 2021 englisch Merlijn Wajer Internet Archive OCR Stack in 2021 Internet Archive abgerufen am 23 August 2021 englisch Running Tesseract GitHub abgerufen am 12 November 2018 englisch Selected papers on image processing and image analysis 7 Juli 2007 abgerufen am 19 April 2016 englisch Adnan Vatandas Tesseract 3 und hOCR Oktober 2010 abgerufen am 28 Oktober 2010 Tesseract Wiki Abgerufen am 7 November 2015 englisch ocropus Google Code Archiviert vom Original am 14 Mai 2008 abgerufen am 19 April 2016 englisch OCRopus doesn t even link with Tesseract by default 17 August 2009 abgerufen am 19 April 2016 englisch Debian Informationen uber Paket tesseract ocr in sid Abgerufen am 19 April 2016 Debian Paketsuche Abgerufen am 19 April 2016 Package tesseract Abgerufen am 19 April 2016 englisch openSUSE Paketsuche Abgerufen am 19 April 2016 Mandriva Linux Mandriva S A archiviert vom Original am 16 Juli 2012 abgerufen im 1 Januar 1 englisch Downloads In Tesseract documentation GitHub abgerufen am 2 Februar 2021 englisch Tesseract OCR Software GUI Abgerufen am 19 April 2016 englisch TikaOCR Apache Tika 26 Marz 2019 abgerufen am 2 Dezember 2019 englisch Audiveris documentation GitHub abgerufen am 9 Januar 2022 englisch OCR Leistung im Vergleich Tesseract Omnipage pdf Abgerufen am 25 Juli 2023 Neuerungen von capella scan capella Software AG abgerufen am 24 November 2021 Capture2Text SourceForge 15 Januar 2016 abgerufen am 19 April 2016 englisch ecoDMS Funktionsumfang ecoDMS GmbH archiviert vom Original am 11 Juni 2016 abgerufen am 19 April 2016 FreeOCR Abgerufen am 19 April 2016 englisch gImageReader GitHub abgerufen am 19 April 2016 englisch gscan2pdf 2 1 4 Abgerufen am 14 September 2018 pdfOCR iText Group abgerufen am 10 November 2021 K2pdfopt 9 April 2016 abgerufen am 19 April 2016 englisch janis91 ocr Nextcloud OCR optical character recoginition processing for images and PDF GitHub abgerufen am 25 September 2017 englisch jbarlow83 OCRmyPDF adds an OCR text layer to scanned PDF files allowing them to be searched jbarlow83 OCRmyPDF 3 Dezember 2019 abgerufen am 3 Dezember 2019 Office Manager Benutzerhandbuch Softwareburo Krekeler abgerufen am 19 April 2016 Paperless ngx Abgerufen am 27 Februar 2023 PDF Creator Changelog geek software GmbH abgerufen am 18 Februar 2021 Felix Rotthowe PDFScanner Abgerufen am 19 April 2016 englisch scribeocr scribeocr Web interface for proofreading OCR and creating fully digitized documents Abgerufen am 22 Juni 2023 englisch Tesseract Studio Net A free Windows graphical interface to the Tesseract 4 0 OCR engine Abgerufen am 28 Januar 2018 englisch Tesseract js Abgerufen am 17 November 2019 englisch Tesseract Mac MalcolmHardie Solutions Ltd abgerufen am 19 April 2016 englisch Android OCR App GitHub abgerufen am 17 Februar 2021 englisch VietOCR Abgerufen am 2 Oktober 2019 englisch YAGF SourceForge 24 Februar 2016 abgerufen am 19 April 2016 englisch Abgerufen von https de wikipedia org w index php title Tesseract Software amp oldid 237877798