OCR-D - Phase III

Im Februar 2020 hat die DFG eine Ausschreibung zur Fortsetzung des OCR-D Projektes in einer dritten Projektphase veröffentlicht. Ziel dieser Phase ist die Implementierung der OCR-D-Software in bestandshaltenden und -verarbeitenden Einrichtungen. Vier Implementierungs- und drei Modulprojekte wurden von der DFG bewilligt.

Am 30. Juli fand unser Kick-off-Workshop statt, der Phase III einläutete. Das Team gab eine Einführung in die Ziele und öffentlichen Kommunikationskanäle von OCR-D in Phase III, in Status und Pläne der OCR-Software und der Web-API und in den Umgang mit Ground Truth Daten in OCR-D. Zudem gab das Koordinierungsprojekt einen Einblick in die bisherige Praxis der Softwareentwicklung in OCR-D mit Möglichkeiten, mitzuwirken. Außerdem präsentierten sich unsere Implementierungs- und Modulprojekte gegenseitig sowie unseren Kooperationspartnern.

Implementierungsprojekte

Integration von Kitodo und OCR-D zur produktiven Massendigitalisierung

UB Braunschweig, SLUB Dresden, UB Mannheim

Kitodo ist mit dem Workflowmanagementsystem (WMS) Kitodo.Production und dem TYPO3-basierten Präsentationsmodul Kitodo.Presentation eine weit verbreitete und offene Lösung für die Massendigitalisierung in kulturbewahrenden Einrichtungen, die für große und kleine Institutionen passende Betriebsmodelle erlaubt. Ein auf den Werkzeugen und Workflows von OCR-D basierendes Verfahren zur Texterkennung muss deshalb als verteiltes System konstruiert werden, das der Flexibilität der verschiedenen Betriebsmodelle, der komplexen Workflows sowie der bedarfs-gerechten Skalierbarkeit für kleine bis sehr große Digitalisierungsprojekte gerecht wird.

Das Projekt verfolgt vier aufeinander aufbauende und sich komplementär ergänzende Projektziele, die im Ergebnis den Einsatz von OCR-D in der Massendigitalisierung mit Kitodo ermöglichen sollen:

Aufbau und Dokumentation eines web-basierten, skalierbaren OCR-D-Servers
Entwicklung einer qualitätsbasierten Workflow-Optimierung für OCR-D
Implementierung eines OCR-Moduls für Kitodo
Erweiterung von Kitodo. Presentation und DFG-Viewer um OCR on Demand

Weitere Informationen: Projektseite der Universitätsbibliothek Mannheim

OPERANDI – OCR-D Performanzoptimierung und Integration. Ein Implementierungspaket der OCR-D-Software für die Massendigitalisierung

SUB Göttingen, GWDG

Das Ziel von OPERANDI ist die Entwicklung und der Aufbau eines auf OCR-D basierenden Implementierungspaketes zur Massenvolltexterfassung mit verbessertem Durchsatz, bei besserer Qualität der Ergebnisse. Zugleich wird das Ziel verfolgt, dass das Implementierungspaket auch von anderen Vorhaben und Einrichtungen mit vergleichbaren Anforderungen nachgenutzt werden kann. Im Rahmen der Pilotierung wurden zwei Szenarien identifiziert. Im ersten Szenario soll die OCR-Erzeugung für bereits digitalisierte Werke stattfinden, was in einer Massenvolltexterfassung mündet. Im zweiten Szenario erfolgt die OCR-Erzeugung für neue zu digitalisierende Werke im Rahmen des Digitalisierungsprozesses.

Weitere Informationen: Projektseite der Niedersächsischen Staats- und Universitätsbibliothek Göttingen

OCR4all libraries – Volltexterkennung historischer Sammlungen

GEI Braunschweig, HCI und ZPD der Universität Würzburg

Im Projekt soll das am ZPD der Universität Würzburg entwickelte GUI-basierte Open-Source-Werkzeug OCR4all so erweitert und angepasst werden, dass Bibliotheken und Archive bei ihrer Massendigitalisierung die im Rahmen des OCR-D-Projekts erarbeiteten Lösungen niederschwellig, flexibel und eigenständig einsetzen können. Eine zusätzliche visuelle Erklärungskomponente soll darüber hinaus Unterstützung bei der Erstellung und Konfiguration optimaler OCR-Workflows bieten.

Als Use Case fungiert die Forschungsbibliothek des GEI Braunschweig mit ihren digitalisierten Schulbüchern des 17. und 18. Jahrhunderts. Um zunehmende Komplexitäten der so entstehenden OCR-Lösung nutzerorientiert aufzufangen, wird die bestehende grafische Benutzerschnittstelle in enger Kooperation und unter Anleitung des HCI Lehrstuhl der Universität Würzburg angepasst und weiterentwickelt.

Weitere Informationen: Projektseite der Deutschen Forschungsgemeinschaft

ODEM: OCR-D Erweiterung für Massendigitalisierung

ULB Sachsen-Anhalt

Die Universitäts- und Landesbibliothek Sachsen-Anhalt ist bereits seit vielen Jahren Partner bei der Digitalisierung von VD18-Beständen. Dieses Projekt stellt die nächste Weiterentwicklung dieses Bestandsaufbaus dar, in dem die 6,13 Millionen Seiten mittels der in den OCR-D Projektphasen entwickelten Tools um Volltexte angereichert werden. Die Datenmenge und große Diversität der Bestände zeigen bereits, dass es sich bei diesem Projekt um eine Implementierung unter Realbedingungen handelt: In der Massendigitalisierung gibt es eine Vielzahl von auftretenden Sprachen und individuellen Besonderheiten bei Publikationen, die nun mithilfe der OCR-D-Tools, die zu diesem Zweck weiterentwickelt und ergänzt werden, um Volltext ergänzt und so besser nutzbar gemacht werden sollen. Da es sich um bereits digitalisierte Bestände handelt, ist insbesondere die Aktualisierung und Anpassung der Metadaten sowie die Weiternutzung vorhandener Informationen, wie etwa der Strukturierung, für die neu erstellten Ausgabeformate ein zentraler Aspekt dieses Projekts.

Weitere Informationen: Projektseite der Deutschen Forschungsgemeinschaft

Modulprojekte

Workflow für werkspezifisches Training auf Basis generischer Modelle mit OCR-D sowie Ground-Truth-Aufwertung

UB Mannheim

Ziel dieses Projektes ist, dass Einrichtungen (zum Beispiel Bibliotheken) möglichst einfach die Module des OCR-D-Workflows nachtrainieren können, so dass bessere Erkennungsraten für spezifische Werke erreicht werden können.

Weitere Informationen: Projektseite der Universitätsbibliothek Mannheim

Erkennung von Schriftartgruppen zur OCR-Verbesserung

JGU Mainz, FAU Erlangen-Nürnberg

Dieses Projekt baut auf den Ergebnissen des Vorgängerprojekts »Entwicklung eines Modellrepositoriums und einer automatischen Schriftarterkennung für OCR-D« auf, in dem wir ein Werkzeug entwickelt haben, das automatisch die dominierende Schriftart auf einer gegebenen Seite erkennt.

Diese Fortsetzung verfolgt drei Hauptziele:

Die Entwicklung eines feingranulareren Schriftarterkennungswerkzeugs
Die Generierung schriftartspezifischer OCR-Trainingsdaten
Das Training schriftartspezifischer OCR-Modelle

Weitere Informationen: Projektseite der Deutschen Forschungsgemeinschaft

OLA-HD Service – Ein generischer Dienst für die Langzeitarchivierung historischer Drucke

SUB Göttingen, GWDG

Das primäre Projektziel ist die Entwicklung eines produktiven Dienstes für die Langzeitarchivierung von historischen Drucken im Rahmen von OCR-D. Dieser OLA-HD Service baut auf dem entsprechenden Prototypen aus der OCR-D Phase II auf, erweitert diesen gemäß der Anforderungen der Implementierungsprojekte, wird in das OCR-D Framework integriert und wird entsprechend der Ausschreibungsanforderungen generisch konzipiert und umgesetzt.

Weitere Informationen: Projektseite der Niedersächsischen Staats- und Universitätsbibliothek Göttingen