Staatsbibliothek zu Berlin ist neuer Partner von OCR-D

Elisa Hermann Dec 6, 2016 🏷 2016

Das Koordinierungsgremium von OCR-D setzt sich aus der Herzog August Bibliothek Wolfenbüttel, der Berlin-Brandenburgischen Akademie der Wissenschaften Berlin, dort insbesondere dem Deutschen Textarchiv, sowie nun der Staatsbibliothek zu Berlin zusammen. Die SBB übernimmt dabei zukünftig die Arbeiten der Bayerischen Staatsbibliothek, die zum 31.08.2016 aus dem Projekt ausgeschieden ist.

Die Arbeitspakete umfassen u.a. die Langzeitarchivierung und Persistenz, die Konzeption von Workflows und Use Cases sowie die Zusammenstellung von Trainingskorpora. OCR-D untersucht Weiterentwicklungsmöglichkeiten für Verfahren der Optical Character Recognition (OCR). Das Projekt versteht sich dabei als Koordinierungsgremium und Netzwerk zugleich, bringt Entwickler, Forscher und Anwender zusammen um aktuelle Erkenntnisse aus der Forschung mit den Anforderungen aus der Praxis in einer praktikablen Lösung zu vereinen. In der ersten Projektphase wurden Entwicklungsbedarfe aufgedeckt auf Basis derer Modulprojektausschreibungen folgen. In diesen werden für die Entwicklungsbedarfe Lösungen erarbeitet und so der aktuelle Forschungsstand zur OCR mit den Anforderungen aus der Praxis zusammen gebracht. Die Ausschreibungen sind für das erste Halbjahr 2017 geplant. Die Ergebnisse aus OCR-D werden weitreichende Veränderungen für Digitalisierungsprojekte haben. Neben dem Ziel, die Transformation der Titel aus den VD-Projekten in maschinenlesbare Form vorzubereiten, werden auch Vorschläge für die DFG-Praxisregeln „Digitalisierung“ an die neuen Erkenntnisse erarbeitet, um im Geiste europäischer und nationaler Agenden die Medienkonversion des gesamten im deutschen Sprachraum erschienenen schriftlichen kulturellen Erbes mittel- bis langfristig zu vollenden.