Zweiter Schritt : Seitenregionen
Auf einer Seite befinden sich verschiedene strukturell sowie inhaltliche unterschiedliche Regionen. Nachdem der Satzspiegel bestimmt und ausgezeichnet wurde, wird das Layout analysiert. Hierbei sind verschiedene Regionen zu unterscheiden und als diese auszuzeichnen:
- Textregion : TextRegion,
- Abbildungen, Fotos : ImageRegion,
- Buchschmuck, Zeichnungen : GraphicRegion,
- Trennlinien, Separatoren : SeparatorRegion,
- Tabellen : TableRegion,
- Strichzeichnungen : LineDrawingRegion,
- Karten : MapRegion
- Mathematische Formeln : MathsRegion,
- Chemische Formeln : ChemRegion,
- Noten : MusicRegion,
- Werbung : AdvertRegion und
- Schmutz, Verfärbungen, Rauschen : NoiseRegion
Wie tief ein Text erfasst werden kann klären die Erfassungs-Level.
Wichtig: Es reicht nicht aus, den kompletten Satzspiegel als eine TextRegion zu
identifizieren, sondern die Lokalisierung einzeln abgrenzbarer Blöcke ist vorzunehmen.
Damit ist
auch eine Trennung von textuellen und nicht-textuellen Segmenten klar zu erkennen.