www.wikidata.de-de.nina.az
Transkribus ist eine Plattform zur Texterkennung OCR Layout Analyse und Strukturerkennung von historischen Dokumenten Inhaltsverzeichnis 1 Allgemeines 2 Technologie 3 Alternativen 4 Weblinks 5 EinzelnachweiseAllgemeines BearbeitenTranskribus ist frei zuganglich und hat derzeit September 2022 mehr als 90 000 registrierte Benutzer von denen mehrere Hundert die Software taglich verwenden Die Plattform entstand im Rahmen der EU Projekte tranScriptorium 1 2013 2015 und READ Recognition and Enrichment of Archival Documents 2016 2019 2 Sie wurde von der Universitat Innsbruck bzw der Gruppe Digitalisierung und elektronische Archivierung entwickelt Seit dem 1 Juli 2019 wird die Plattform von der Europaischen Genossenschaft READ COOP betrieben und weiterentwickelt In der Plattform sind Tools verschiedener Forschungsgruppen aus ganz Europa integriert Zu nennen sind hier insbesondere die Pattern Recognition and Human Language Technologie PRHLT Gruppe der Technischen Universitat Valencia von der die freie OCR Software PyLaia stammt 3 und die CITlab Gruppe der Universitat Rostock die HTR eine proprietare OCR Software entwickelt hat Auch bei Verwendung von PyLaia fur die Texterkennung sind die so trainierten Texterkennungsmodelle nur innerhalb von Transkribus nutzbar konnen also nicht frei exportiert werden Dies unterscheidet Transkribus von Alternativen wie beispielsweise eScriptorium 4 Transkribus ermoglicht allerdings den freien Export der erstellten Trainingsdaten und trainierte Modelle konnen mit anderen Usern innerhalb der Plattform geteilt werden Technologie BearbeitenTranskribus verwendet Kunstliche Intelligenz um handgeschriebenen Text in digitalen Text umzuwandeln Dabei werden Fortschritte aus der KI Forschung der letzten zehn Jahre im Bereich der Bilderkennung und des Natural Language Processing miteinander vereint Zuerst werden die Struktur und das Layout eines Textes unter Berucksichtigung einzelner Zeilen und nicht textueller Elemente erkannt Dann wird ein KI gestutztes Texterkennungsmodell angewendet um die handgeschriebenen Zeichen in digitalen Text umzuwandeln Es gibt bereits eine ganze Palette von offentlich zuganglichen Modellen fur bestimmte Arten von Handschriften aus bestimmten Sprachen und Epochen zum Beispiel fur deutsche Kurrentschrift oder die Handschrift von Bentham Basierend auf den Prinzipien von Deep Learning konnen User alternativ auch ein eigenes Modell fur ihren Text trainieren Dafur muss eine bestimmte Anzahl an Dokumenten handisch transkribiert werden damit die Software lernt welche handgeschriebenen Zeichen welchen digitalen Zeichen zugeordnet werden konnen Es ist aber ebenfalls moglich Transkribus lediglich zur handischen Transkription zu verwenden wenn der Benutzer es vorzieht kein Texterkennungsmodell einzusetzen Sobald der Text digitalisiert wurde konnen Metadaten hinzugefugt werden Das ermoglicht es Usern zum Beispiel Keywords oder Tags zuzuweisen Der digitale Text kann Zeichen fur Zeichen durchsucht werden mit Fokus darauf Transkriptionen zu finden die nicht zu 100 korrekt sind Dokumente konnen ausserdem in sogenannten Collections organisiert werden an denen mehrere Benutzer gleichzeitig arbeiten konnen und die als PDF ALTO XML oder TEI Dateien exportiert werden konnen Alternativen BearbeitenKostenfreie Programme mit teilweise vergleichbaren Funktionen sind eScriptorium und OCR4All 5 Weblinks BearbeitenREAD COOP Website Transkribus Deutschsprachige Benutzeranleitung fur die Transkribus Plattform GitHub Repository Marc Rothballer Transkribus Erfahrungsbericht zu maschinellem Lernen und Handwritten Text Recognition in der Heimat und Familienforschung Besprechung der Software vom 26 Juni 2020 im Archivalia BlogEinzelnachweise Bearbeiten tranScriptorium Projektseite abgerufen am 26 Juni 2020 READ Projektseite abgerufen am 26 Juni 2020 PyLaia Wiki Abgerufen am 30 Juni 2022 englisch Moving from Transkribus to eScriptorium Abgerufen am 30 Juni 2022 englisch OCR4all forTEXT Abgerufen am 20 Juni 2023 Abgerufen von https de wikipedia org w index php title Transkribus amp oldid 236911364