OCR-D Phase III gestartet
Am 30. Juli fand unser Kick-off-Workshop statt, der die Phase III von OCR-D einläutete.
Das Team gab eine Einführung in die Ziele und öffentlichen Kommunikationskanäle von OCR-D in Phase III, in Status und Pläne der OCR-Software und der Web-API und in den Umgang mit Ground Truth Daten in OCR-D. Zudem gab das Koordinierungsprojekt einen Einblick in die bisherige Praxis der Softwareentwicklung in OCR-D mit Möglichkeiten, mitzuwirken.
Darüber hinaus stellten sich die Implementierungs- und Modulprojekte der interessierten Community und unseren Kooperationspartnern in kurzen Vorträgen vor.
Die UB Braunschweig, die SLUB Dresden und die UB Mannheim erweitern OCR-D und Kitodo für die produktive Massendigitalisierung; die SUB Göttingen und die GWDG arbeiten an der Performance-Optimierung und Integration, indem sie OCR-D auf einem Hochleistungscluster einsetzen; das GEI Braunschweig, das HCI und das ZPD der Universität Würzburg werden OCR-D-Funktionen in OCR4all implementieren und damit OCR-D über ihre Software verfügbar machen; die ULB Sachsen-Anhalt wird OCR-D in ihre Open-Source-Massendigitalisierungsinfrastruktur implementieren. Während diese Projektpartner an vier Implementierungsszenarien arbeiten werden, haben wir drei Modulprojekte, die OCR-D-Prozessoren verbessern: die UB Mannheim, die ein werkspezifisches Training mit Tesseract und Calamari ermöglicht; JGU Mainz und FAU Erlangen-Nürnberg, die die Erkennung von Schriftgruppen für besser passende OCR-Modelle vorantreiben; und das Projekt der SUB Göttingen und der GWDG, das die Zuverlässigkeit, Durchsuchbarkeit und feinkörnige Referenzierung des Langzeitarchivs OLA-HD optimiert.
In unserem Chat-Kanal, der Gitter-Lobby, halten wir Sie stets über öffentliche OCR-D-Veranstaltungen auf dem Laufenden. Weitere Informationen darüber, wie Sie mit OCR-D in Kontakt treten und zu OCR-D beitragen können, finden Sie in unserer Seite über Plattformen.