<>

Umfrage zur Verwendung von OCR-Texten

Hintergrund

Im Frühjahr 2016 führte die BSB (damals Teil des Koordinierungsprojekts) über die OCR-D-Projekt-Website eine Umfrage zur Verwendung von OCR-Texten durch, die sich hauptsächlich an Geisteswissenschaftler richtete. Insgesamt nahmen 139 Forscher an der Umfrage teil. 39 dieser Antworten waren teilweise unleserlich und einige der Fragen wurden nur von einem Teil der Teilnehmer beantwortet.

Hauptergebnisse

Die Umfrage zeigt, dass die grosse Mehrheit der Teilnehmerinnen und Teilnehmer OCR-Texte für ihre Forschung verwendet (vgl. Abb. 1). Diese Texte werden hauptsächlich als Suchwerkzeuge, aber auch als Grundlage für die Analyse großer Textdatenmengen verwendet (vgl. Abb. 2). 60 % der Teilnehmerinnen und Teilnehmer würden auch schmutzige OCR-Texte zu Forschungszwecken verwenden, während 40 % sie für nutzlose Daten halten. Interessanterweise zeigen nur die Historiker (87 %) eine signifikante Präferenz für schmutzige OCR, die als besonders hilfreich bei der Suche nach Informationen angesehen wird, die sonst übersehen worden wären. Darüber hinaus erleichtert sie das Zitieren, indem sie einen ersten Text liefert, der dann korrigiert werden kann, so dass der Text nicht vollständig manuell getippt werden muss. Insgesamt wird jedoch das Originalbild (61 %) dem OCR-Text (39 %) zum Zitieren vorgezogen, insbesondere von Bibliothekaren. Hinsichtlich der Bedeutung der Versionierung von OCR-Texten gibt es unter den teilnehmenden Wissenschaftlern große Meinungsverschiedenheiten. Während fast drei Viertel der Forscher angeben, dass Änderungen im OCR-Text für ihre Arbeit wichtig sind, möchte nur die Hälfte von ihnen Zugang zu früheren Versionen von OCR-Texten haben. Diese werden vor allem als notwendig erachtet, um den OCR-Text dauerhaft zitieren und die Analysen, die zu diesen Texten durchgeführt wurden, reproduzieren zu können - obwohl es eher als zu mühsam angesehen wird, alle Versionen im Auge zu behalten.

Insgesamt werden OCR-Texte bereits in großem Umfang für die Forschung verwendet, und auch schmutzige OCR, wie sie derzeit für die meisten OCR-Texte frühneuzeitlicher Bücher vorliegt, wird als wertvolle Hilfe für bestimmte Teile der wissenschaftlichen Arbeit angesehen.