Ground Truth Richtlinienen OCR-D: Koordinierten Förderinitiative zur Weiterentwicklung von Verfahren der Optical
Character Recognition gefördert von der DFG
Wie im Level 2 transkribieren
Ist das Zeichen als eigenständiges Zeichen im Unicode-Standard definiert, ist dieses
vorrangig
zu verwenden.
Kann das Zeichen nur aus der Kombination von zwei Zeichen im Rahmen des Unicode-Standards
gebildet werden, ist diese Kombination zu verwenden.
Außer den vokalischen Ligaturen werden alle Ligaturen aufgespalten.
Typographische Besonderheiten sind als Formatierungsangaben zu dokumentieren. Darunter sind auch alle nicht vokalischen Ligaturen
zu verstehen.
Kann das Zeichen nicht aus der Kombination von Zeichen gebildet werden und ist eine
MUFI-Entsprechung
vorhanden, ist MUFI zu verwenden.
Können die Möglichkeiten 1, 2, 4 nicht gewählt werden, ist in Abstimmung mit dem
OCR-D-Koordinierungsgremium eine OCR-D-Code-Definition in Nachnutzung gemeinsam getroffener
Vereinbarungen internationaler Großprojekte wie IMPACT, EEBO, ECCO zu verwenden.