magazine_ Article

1

Spielend gelöst!

Ein Projekt zur Digitalisierung historischer Zeitungen erprobt Formen der Citizen Science.

by Barbara Baumgartner

Historische Zeitungen online so zugänglich zu machen, dass man in ihnen recherchieren kann, ist hauptsächlich die Arbeit von Bibliotheksfachleuten und von Computern. Wie Laien dazu beitragen können, erprobt ein linguistisches Forschungsteam im Rahmen des Digitalisierungsprojekts „Zeit.shift“. Wer mitmacht, bekommt Gelegenheit, ins Alltagsleben vor hundert Jahren einzutauchen oder lernt beim Gamen wie nebenbei Frakturschrift.

Als es Zeitungen noch ausschließlich auf Papier gab, wurde in Redaktionen Gelungenes wie Missglücktes gern mit Sätzen wie diesem relativiert: „Übermorgen werden auf dem Markt die Fische darin eingewickelt.“ Ein Medium für den Moment, flüchtig wichtig. Bis es mit den Jahren wieder Gewicht bekommt, wie Johannes Andresen unterstreicht, Direktor der Landesbibliothek F. Teßmann: „Weil ihr inhaltliches Spektrum so breit ist, sind historische Zeitungen eine hoch interessante Forschungsquelle für die verschiedensten Fachbereiche. Man kann an ihnen alles Mögliche untersuchen: Naturereignisse, Gewaltverbrechen, Todesfälle, Werbung, wie der Sprachgebrauch sich veränderte … In einem Forschungsprojekt wurden beispielsweise die Wetternachrichten über einen sehr langen Zeitraum analysiert, um meteorologische Muster zu erkennen.“ Die Landesbibliothek F. Teßmann hat einen großen Bestand historischer Zeitungen aus dem Tiroler Raum, ebenso die Universitätsbibliothek Innsbruck, und gemeinsam mit Eurac Research arbeitet man nun daran, diese wertvollen Quellen digitalisiert über eine einzige Datenbank zugänglich zu machen. „Zeit.shift“ heißt das Projekt – ein wichtiges Vorhaben, wie es Bibliotheken auf der ganzen Welt in ähnlicher Weise verfolgen. Aus Sicht der Forschung ist „Zeit.shift“ aber noch aus einem anderen Grund interessant: Es dient als Experimentierfeld für Citizen Science. Unter anderem wird erprobt, ob man den Ehrgeiz und die Ausdauer, die viele Menschen auf Computerspiele verwenden, dafür nutzen kann, das Ergebnis der Digitalisierung zu verbessern – und den Spielenden nebenbei auch noch etwas beizubringen.

Spaß mit doppeltem Nutzen: Wer „Ötzit!“ spielt, leistet einen Beitrag zur Digitalisierung historischer Zeitungen – und lernt nebenbei Frakturschrift.© Image licensed under CC BY 4.0.

Doch vorn vorne. So interessant historische Zeitungen als Informationsquelle sind, leicht auszuschöpfen ist die Quelle nicht. Wenige Menschen treibt ihr Wissensdrang, sich in Archiven oder Bibliotheken durch Ausgabe um Ausgabe zu blättern; und solange dies die einzige Möglichkeit des Recherchierens war, musste man sagen: zum Glück. Denn diese Zeitungen sind auch eine „sehr zerbrechliche Quelle“ wie Andresen sagt – aus so brüchigem Papier, dass jeder, der sie konsultiert, damit zugleich ihren Verfall beschleunigt. Angesichts dieser Gefahr haben Bibliotheken schon vor Jahrzehnten begonnen, die historischen Zeugnisse als Mikrofilm zu archivieren. Seit dieser ersten Digitalisierung kann man bequem am eigenen Computer lesen, ohne dadurch Schaden anzurichten; die wertvollen Quellen sind für die Nachwelt bewahrt. Nur das Ausschöpfen ist damit noch nicht wirklich leichter: Wer etwas sucht, muss blättern, wenn auch am Bildschirm. Dies ändert sich erst, wenn die Zeitungsseiten nicht als Bild vorliegen, sondern als durchsuchbarer Text. Im Frühsommer 2023 wird „Zeit.shift“ 41 Tiroler Tageszeitungen der Jahrgänge 1850 bis 1950 mit Methoden der Informatik in solche Textdateien verwandelt haben, insgesamt 500.000 Seiten.

Das ist großartig, denn damit wird, was sich bislang nur einige wenige relativ mühsam erschlossen, für alle leicht zugänglich sein, und wer zum Beispiel angesichts Corona neugierig wurde, wie man in Tirol vor 100 Jahren über die spanische Grippe berichtet hat, kann es einfach nachlesen. Besonders für Forschungsvorhaben tun sich damit aber völlig neue Möglichkeiten auf. „Einmal ist es eine Frage der Machbarkeit: Forschungsvorhaben, die noch vor 15 oder 20 Jahren zahlreiche wissenschaftliche Hilfskräfte oder lange Vorlaufszeiten benötigten, sind viel einfacher zu verwirklichen“, sagt Andresen (der weiß, wovon er spricht: Für seine Forschung zur Bozner Elite im 16. Jh. musste er Ratsprotokolle aus 100 Jahren durchblättern und Auszüge abschreiben). Viele Analysen werden auch überhaupt erst dadurch möglich, dass man in eine Suchmaske einen Begriff eingeben kann und in der riesigen Textmenge alle relevanten Stellen erhält. „Alle relevanten“ beschreibt allerdings ein Ziel, das noch nicht erreicht ist. Wie man sich ihm auch mit Hilfe von Citizen Science annähern kann, will man bei „Zeitshift“ unter anderem erkunden.

„Gamification“ – die Verwandlung einer sinnvollen Tätigkeit in ein Spiel – ist auch ein Instrument der Wissenschaft.

Denn die Verwandlung gedruckter Seiten in maschinenlesbaren Text hat ihre Tücken, vor allem, wenn es sich um historisches Textmaterial handelt. Die Technologie, die dafür eingesetzt wird, ist Optical Character Recognition (OCR), und eine alte Zeitungsseite kann für OCR aus verschiedenen Gründen schwer lesbar sein, wie Greta Franzini erklärt, Spezialistin für „Digitale Geisteswissenschaften“ von Eurac Research: „Frakturschrift, altes Papier in schlechtem Zustand, Knicke, Flecken – das alles und mehr kann dazu führen, dass das Ergebnis der OCR viele Fehler enthält.“ Will man die Texte für Forschung nutzen, etwa für sprachwissenschaftliche Analysen, wie sie Eurac Research interessieren, ist das natürlich ein besonderes Problem. „Untersuchungen zeigen, dass Forschende 80 Prozent ihrer Zeit für das Säubern und Aufbereiten der Datensätze verwenden und nur 20 Prozent für die eigentliche Analyse“, sagt Franzini. Ein Forschungsteam von Eurac Research hat deshalb eine Idee entwickelt, mit Hilfe eines Computerspiels das Ergebnis der OCR zu verbessern. Dies verbindet zwei Methoden, die in der Wissenschaft schon länger und in verschiedenen Bereichen etabliert sind: „Crowdsourcing“ – dabei wird eine große Zahl Menschen zur Lösung kleiner Teilaufgaben herangezogen – , und „Gamification“, die Verwandlung einer sinnvollen Tätigkeit in ein Spiel. Im Spiel „Ötzit!“ geht es darum, Ötzi vor wilden Tieren zu retten. Um dabei erfolgreich zu sein, müssen die Spielenden auf dem Bildschirm erscheinende Wörter in Fraktur aus den Scans der alten Zeitungen möglichst schnell und richtig abtippen und eingeben. Diese werden dann vom System gespeichert. Und es wird ein Trick angewandt, um automatisiert möglichst gut zu erkennen, ob die Wörter korrekt abgeschrieben werden: Wenn „Ötzit!“ gespielt wird, erscheinen immer wieder dieselben Wörter. Erkennen drei oder mehrere Spielende ein Wort in gleicher Weise, gilt es als richtig: Hat die OCR etwas anderes gelesen, wird es entsprechend korrigiert

Image 1 of 2
Scan einer Zeitungsanzeige ...© https://digital.tessmann.it/
Image 2 of 2
... und die von einer OCR-Software erzeugte maschinenlesbare Version. Fehler in Rot. Die Anzeige stammt aus der Alpenländischen Bienenzeitung vom 1. Januar 1912.© Eurac Research - Greta Franzini

Die Spielenden haben außer dem Spaß auch einen Nutzen, sie lernen nämlich wie nebenbei Frakturschrift; und zwar sehr schnell, wie Andresen an seiner 14jährigen Tochter beobachten konnte: „Das ist ein Stück eigenes Kulturerbe, das man sich aneignet: Schließlich war Fraktur über Jahrhunderte die meistbenutzte Druckschrift im deutschsprachigen Raum.“

Menschen, die schon Interesse an Kulturgeschichte mitbringen, können bei „Zeit.shift“ ebenfalls mitmachen und das Vorhaben voranbringen. Auf dem Portal „historypin“ sind aus den Zeitungen extrahierte Werbe- und Kleinanzeigen gesammelt, und alle sind eingeladen, sie zu verorten und zu annotieren, das heißt, mittels Tags zu beschreiben, wovon sie handeln. Die Annotationen werden in die Zeitungs-Datenbank übernommen und ergänzen dort den automatisiert erzeugten Inhalt. Ein Spiel ist es nicht, doch auch die Anzeigen können Sogwirkung entwickeln, denn sie eröffnen faszinierende Einblicke in die Vergangenheit. Man kann sich die eigene Stadt vor hundert Jahren ausmalen – den Schreibwarenhandel gab es damals schon! – die Wirklichkeit hinter verschwundenen Wörtern („Vollmacht-Blanquette“, „Volksbadewannen“) erahnen, über die ersten Waschmaschinen schmunzeln, die Phantasie wandern lassen (wie es wohl zuging in der die Pensionats-Handelsschule, die „prachtvolle, gesunde Lage, reichliche Verpflegung und gewissenhafte Aufsicht“ versprach?).

Um forschende Laien für diese Aufgabe zu gewinnen, haben die Bibliotheken gezielt rekrutiert und etwa Chronisten und Bibliothekare zu Workshops eingeladen. Die bisherige Beteiligung bestätige eine generelle Erfahrung bei Citizen Science-Projekten, sagt Franzini: „Eine relativ kleine Gruppe leistet einen Großteil der Arbeit.“ Angenommen, es kämen sehr viele Annotationen zusammen, könnte das Forschungsteam sie noch für einen anderen Zweck nutzen, nämlich um einen Algorithmus zur Eigennamenerkennung weiterzuentwickeln. Damit Computer menschliche Sprache immer besser verarbeiten, brauchen sie nämlich möglichst viel Information, das hießt riesige Datensätze; und mit jeder Annotation, die beispielsweise den Namen eines beworbenen Geschäfts angibt, würde so ein Datensatz ein wenig größer werden. Wer also Vergnügen daran hat, sich durch die historischen Anzeigen zu klicken, und sich die Mühe macht, Tags zu vergeben, trägt damit gleich doppelt zu einem größeren Vorhaben bei. Etwas Fraktur sollte er dafür aber schon lesen können – oder es zumindest lernen wollen.

icontechnical documentation

Das Projekt Zeit.shift

Im Projekt Zeit.shift arbeiten Eurac Research, die Landesbibliothek Dr. Friedrich Teßmann und die Universitäts- und Landesbibliothek Tirol gemeinsam an der Bewahrung, Erschließung und Vermittlung des kulturellen Texterbes Tirols und Südtirols. Deutschsprachige Zeitungen aus den Jahren 1850 bis 1950, Großteils in Frakturschrift, die derzeit auf Innsbruck und Bozen verteilt sind und nur zum Teil in digitalisierter Form vorliegen, werden digitalisiert und über ein einziges Webportal frei zugänglich gemacht. Ein wichtiger Aspekt ist die aktive Einbindung der Bevölkerung: Interessierte können sich durch Online-Annotationen aktiv an der Texterschließung beteiligen oder zur korrekten Transkription von Textfragmenten in Fraktur beitragen, indem sie ein Computerspiel spielen.

Related People

Greta Franzini

Tags

Institute & Center


Related Content

Can computers generate language learning exercises?
ScienceBlogs
connecting-the-dots

Can computers generate language learning exercises?

Lionel NicolasLionel Nicolas
Sprachdaten für alle zugänglich machen
interview

Sprachdaten für alle zugänglich machen

Die europäische Initiative CLARIN stellt Forschenden und anderen Interessierten, die mit sprachbasierten Daten arbeiten, eine vernetzte Umgebung zur Verfügung, die es erlaubt, ...

Related Research Projects

1 - 2
Project

DAMICO

Data Mining in der Korpuslinguistik

Duration: -