Level 2
Drucktechnischen Gegebenheiten werden wiedergegeben und eine Interpretation von Zeichen orientiert sich am Gebrauch im Sprach- und Schriftsystem. So werden zum Beispiel in Bezug auf Ligaturen nur eigenständige Grapheme (vokalische Ligaturen) mit einem spezifischen Codepoint unter Nutzung von standardisierten Kodierungen (Unicode) abgebildet. Drucktechnische Ligaturen (konsonantische Ligaturen) werden grundsätzlich aufgespalten. Die Information Ligatur wird als Formatierungsangabe (wie Fett, Kursiv...) im Ground-Truth dokumentiert.
Kann das Zeichen nur aus der Kombination von zwei Zeichen im Rahmen des Unicode-Standards gebildet werden, ist diese Kombination zu verwenden unter Beachtung der durch das Koordinierungsgremium festgelegten Kodierungen. Dies betrifft unter anderem Kürzungsstriche, die als Balken oder geschlängelte Linie über Buchstaben stehen und als Substituenten für ausgelassene Zeichen stehen, werden grundsätzlich als Kombination von zwei Zeichen betrachtet.
Die Wiedergabe von Leerzeichen beschränkt sich darauf, dass diese ausschließlich Wörter von einander trennen.
Satzzeichen werden immer an das vorangegangene Wort herangezogen.