Level 1
Spezifische drucktechnische Aspekte und typographischen Besonderheiten werden nicht
beachtet und nicht im Ground-Truth Korpus dokumentiert. Eine Normalisierung wird in stärkerem
Maß vorgenommen. Folgende Zeichen werden normalisiert:
- langes-s zu rundem-s
- Umlaute (e über dem Vokal) zu äöüÄÖÜ
- sz zu ß
- Virgel zu Kommata
- Anführungszeichen werden in den heutigem Gebrauch überführt und nicht unterschieden
- Trennzeichen werden in den heutigem Gebrauch überführt und nicht unterschieden
- das runde-r in Verbindung mit c wird aufgelöst in etc.
- Die Wiedergabe von Leerzeichen beschränkt sich darauf, dass diese ausschließlich Wörter von einander trennen.
- Satzzeichen werden immer an das vorangegangene Wort herangezogen.