Modulprojektausschreibungen online!
Die Ausschreibung für Modulprojekte im Rahmen von OCR-D ist ab sofort online auf der Seite der Deutschen Forschungsgemeinschaft (DFG) zu finden (Link zur Ausschreibung)
Das im Herbst 2015 gestartete Koordinierungsprojekt OCR-D hat zum Ziel, zum einen Verfahren zu beschreiben und Richtlinien zu erarbeiten, um einen optimalen Workflow sowie eine möglichst weitreichende Standardisierung von OCR bezogenen Prozessen und Metadaten zu erzielen. Zum anderen soll die vollständige Transformation des schriftlichen deutschen Kulturerbes in eine maschinenlesbare Form (strukturierter Volltext) konzeptionell vorbereitet werden. Vornehmlich betrachtet werden Werke aus den Verzeichnissen der im deutschen Sprachraum erschienenen Drucke des 16.-18. Jahrhunderts (VD) sowie des 19. Jhs. Die VD-Projekte umfassen ca. 1 Mio. Titel die derzeit digitalisiert und zukünftig mittels einer OCR prozessiert werden sollen.
In der ersten Projektphase von OCR-D wurden Entwicklungsbedarfe für Verfahren der automatischen Texterkennung ermittelt. Darauf aufbauend erfolgt nun die Ausschreibungen der DFG zu sechs Modulprojektthemen, die inhaltlich und technisch durch das Koordinierungsgremium von OCR-D betreut. Folgende Themen sind ausgeschrieben:
Bildvorsortierung Layouterkennung Textoptimierung Modelltraining Langzeitarchivierung und Persistenz Qualitätssicherung
Um einen Eindruck des zu behandelnden Materials zu bekommen stellen wir Ground-Truth-Daten zur Verfügung (Link zu den Daten).