magazine_ Interview

Sprachdaten für alle zugänglich machen

Die europäische Initiative CLARIN stellt Forschenden und anderen Interessierten, die mit sprachbasierten Daten arbeiten, eine vernetzte Umgebung zur Verfügung, die es erlaubt, Daten dauerhaft zu archivieren, zu verbreiten und wiederzuverwenden. Ein Gespräch mit Computerlinguisten Egon W. Stemle.

Marion Lafogler

Photo: Marion Lafogler | Eurac Research

14 December 2021by Sara Senoner

Deutsch

Was passiert mit einer Sammlung von Schüleraufsätzen, wenn ein Forschungsprojekt zur Verwendung der Lernersprache abgeschlossen ist? Was, wenn andere Zugriff auf diese Daten haben möchten? Häufig verschwinden sie in Archiven oder auf Servern und sie wieder aufzuspüren, kostet Zeit und Geld und erfordert Vorwissen zu den Daten. Wir haben mit Sprachwissenschaftler Egon Stemle gesprochen, der mit seinem Team am Institut für Angewandte Sprachforschung mit dem Open Research Award 2021 ausgezeichnet wurde.

Wie ist Eurac Research an dieser Initiative beteiligt?

Egon Stemle: An unserem Institut für Angewandte Sprachforschung ist ein sogenanntes Repository angesiedelt.

"Wir arbeiten mit Texten, die von Sprachlernenden oder den sozialen Medien stammen."

Unter anderem verwahren wir Sprachdaten – unsere und die von Dritten – zu nicht-standardsprachlichen Texten, was bedeutet, dass die darin verwendete Sprache von der Standardsprache abweicht. Unser Augenmerk haben wir auf Texte gelegt, die von Sprachlernenden oder aus den sozialen Medien stammen, wo etwa die Groß- und Kleinschreibung nicht streng beachtet, Emojis oder der lokale Dialekt verwendet werden.

Woher kommen diese Daten konkret?

Stemle: Wir sind in die Schulen gegangen und haben die Schüler dort zu einer Aufgabenstellung schreiben lassen, die Texte eingesammelt, abgetippt und gewisse Phänomene annotiert. Stellen wir unsere Daten dann der Wissenschaft zur Verfügung, kann ein Forscher zu einer ähnlichen Forschungsfrage seine Daten mit unseren vergleichen und daraus seine Schlüsse ziehen, etwa wie ein französischer Muttersprachler Deutsch lernt.

"Digital Natives kommunizieren anders auf den sozialen Medien als Digital Immigrants."

Was die Texte aus den sozialen Medien betrifft, haben wir unter anderem ein Projekt bei dem Facebook-Nutzer, die in Südtirol aufgewachsen sind, uns Beiträge, Kommentare und Mitteilungen zur Verfügung stellen, die sie im Zeitraum eines Jahres geschrieben haben. Diese Daten haben wir dann anonymisiert, um eine Rückverfolgbarkeit auf den einzelnen User zu erschweren. Uns ging es darum herauszufinden, wie Digital Natives – das sind vereinfacht gesagt User, die nach 1980 geboren sind und mit dem Internet aufgewachsen sind – im Vergleich zu sogenannten Digital Immigrants, also vor 1980 Geborene, mit dem Medium umgehen.

Wie unterscheiden sich Digital Natives von Digital Immigrants in ihrem Sprachgebrauch auf den Socials?

Stemle: Natives verwenden deutlich mehr Englisch, produzieren mehr nicht-sprachliche Texte (Emojis, Emoticons, laaange Wörter usw.) und weniger Italienisch als Digital Immigrants. Außerdem schreiben sie deutlich mehr im Dialekt.

Wie wurden diese Daten dann über CLARIN von anderen genutzt?

Stemle: Forschende aus Ljubljana haben etwa in einem ähnlichen Projekt die Sprachverwendung auf Twitter untersucht. Dank CLARIN lassen sich durch den erweiterten Datensatz interessante Sprachvergleiche anstellen. Andererseits sind unsere Daten, die von Lernenden stammen, beispielsweise in ein Tool zur Grammatikkorrektur eingeflossen. Es unterstützt Lehrerinnen und Lehrer dabei, digital eingegebene Texte zu korrigieren, indem es Stellen mit grammatikalischen Abweichungen und entsprechende Verbesserungsvorschläge anzeigt.

CLARIN ist in den letzten zehn Jahren sehr stark gewachsen und sehr lebendig, inzwischen sind die meisten europäischen Länder daran beteiligt. Es finden eine Jahreskonferenz und regelmäßige Workshops statt, außerdem finanziert CLARIN über die Mitgliedsbeiträge Projekte, die Ideen unterstützen, wie man Daten besser sammelt oder aufbereitet und anderen sinnvoll zur Verfügung stellen kann.

Die Preisträger des Eurac Research Open Research Award 2021

Die beiden Hauptpreise des Open Research Awards gehen an:

Die Gruppe „Language Technologies (LT)“ am Institut für Angewandte Sprachwissenschaft, deren Aufgabenbereich sich über Disziplinen, Sprachen und Gemeinschaften erstreckt und sich in der aktiven Teilnahme und Koordinierung von Initiativen manifestiert, die Menschen zusammenbringen und sie einladen, sich an der Forschung zu beteiligen, um gemeinsam bewährte Verfahren zu gestalten.
Johannes Rainer, Leiter des Teams „Computational Metabolomics“ am Institut für Biomedizin, der erfolgreiche Werkzeuge und Praktiken für offene, kollaborative und reproduzierbare Forschung etabliert hat und dessen Engagement für einen kollaborativen Ansatz zur Problemlösung die Einstellung von Datenwissenschaftlern am Institut und darüber hinaus in den großen R- und Bioconductor-Gemeinschaften beeinflusst. (zum Interview)

Die beiden Preise für Nachwuchsforscher gehen an:

Alberto Scotti, Institut für Alpine Umwelt, dessen Forschung zu Wasserinsekten als Indikator von Umweltveränderungen dem Ideal der offenen Forschungskultur und dem Ziel der gemeinsamen Nutzung aller Forschungsergebnisse folgt. (zum Interview)
Giulio Genova, Institut für Alpine Umwelt, und Mattia Rossi, Institut für Erdbeobachtung, die gemeinsam Open-Source-Tools entwickelt haben, die es nicht nur Forschern, sondern auch Nutzern mit minimalen Programmierkenntnissen ermöglichen, einfach und effizient auf meteorologische- und Umweltdaten zuzugreifen und diese zu analysieren. (zum Beitrag)