kontakt | site map | impressum           | english 13.10.2008
Logo EURAC  
  NEWS ARCHIV    
      Veranstaltungen    
      Kurse    
      Forschung    
      Neuerscheinungen    
      Stellenangebote    
SUCHE IN EURAC.EDU  
 

Textkorpora im Netz: viele Arbeitsstunden für einen Klick  
Home  |  Focus  |  Korpuslinguistik für alle  |   

Jeder von uns kennt es. Wir waren alle schon einmal in der Situation, einen Text oder bestimmte Wörter in eine andere Sprache übersetzen zu müssen.

Sei es nur, wenn wir einzelne Wörter einer Produktbeschreibung nicht verstehen oder wenn wir während eines Gespräches einzelne Redewendungen aufschnappen, die unverständlich sind. Oder besonders dann, wenn man als Übersetzer tätig ist und beispielsweise einen juridischen Text vom Italienischen ins Deutsche übertragen muss. Noch vor zehn Jahren hätten wir uns in solchen Situationen gedruckter Wörterbücher bedient. Aber heutzutage, in einem Zeitalter, in dem das Internet aus dem täglichen Leben nicht mehr wegzudenken ist, können neue Recherchemöglichkeiten genutzt werden.
Es gibt eine Vielzahl von Online-Lexika, die das Nachschlagen erleichtern und im Vergleich zu gedruckten Wörterbüchern eine Menge an Zusatzinformationen liefern, da dort im Unterschied zum gedruckten Buch keinerlei  Raumlimit besteht. So kann man online Konjugationen von unregelmäßigen Verben abfragen oder herausfinden, welche Redewendungen es zu einem bestimmten Wort gibt.

Textsammlungen, die in digitaler Form vorliegen, werden in der Fachsprache als Korpora bezeichnet. Mit Hilfe von benutzerfreundlichen Internetanwendungen wie der Suchmaschine Google können Nutzer problemlos verschiedene Korpora im Netz finden und dann Anfragen an diese Korpora stellen. Beim Schreiben eines fremdsprachlichen Textes können beispielsweise bestimmte Wörter abgefragt werden, die nur im Singular auftreten oder die die Verwendung bestimmter Verben voraussetzen.
Aber wie entsteht so ein Korpus? Wer sammelt die sprachlichen Daten? Und welche Daten aus welchen Quellen fließen in das Korpus ein? Antworten auf diese Fragen gibt die Korpuslinguistik. Stefanie Anstein, Verena Lyding und Isabella Ties vom EURAC-Institut für Fachkommunikation und Mehrsprachigkeit arbeiten seit vielen Jahren am Aufbau unterschiedlichster Korpora.

Neben ihrer Arbeit an verschiedenen Korpora zur Rechtssprache in Südtirol erstellen sie gemeinsam mit Kollegen das Korpus Südtirol. Ziel dieses Projektes ist es, die deutsche Sprache wie sie in Südtirol geschrieben und gesprochen wird, zu dokumentieren. Dazu sammeln und archivieren die Wissenschaftler Südtiroler Texte. 

Wichtig war ihnen dabei, möglichst unterschiedliche Texte in das Korpus aufzunehmen. Die Südtiroler Verlagshäuser waren den Forscherinnen dabei sehr behilflich und öffneten ihre Archive. So war es möglich auf eine Vielzahl von Textarten zuzugreifen. Zeitungsartikel gehörten ebenso dazu wie populärwissenschaftliche Bücher und Gesetzestexte. Sie kontaktierten auch verschiedene Autoren, die ihnen belletristische Texte zur Verfügung stellten. „Ziel war es, einen kleinen Abdruck der gesamten Sprachwelt zu rekonstruieren", erläutert Stefanie Anstein.

Doch erst nachdem das ganze Material vorliegt, beginnt die eigentliche Arbeit eines Korpuslinguisten. So auch im Fall des Korpus Südtirol. Gedruckte Texte mussten zunächst digitalisiert werden. Anschließend haben die Computerlinguisten die so gewonnenen Rohdaten neu aufbereitet, in ein einheitliches Format gebracht und ausgewertet. „Es gibt eigene statistische Methoden in der Computerlinguistik, die mir auf Knopfdruck Informationen zu Worthäufigkeiten und Wortverteilungen in den untersuchten Texten liefern", erklärt Computerlinguistin Verena Lyding ihren Arbeitsbereich. Durch solch eine linguistische Untersuchung  konnte im Südtiroler Korpus-Projekt nachgewiesen werden, dass die Wörter Supplenz, Assessorat und Quästur hauptsächlich im Südtiroler Sprachgebrauch verwendet werden, während sie in der deutschen Hochsprache im deutschsprachigen Ausland keine Anwendung finden.

Textkorpora, wie jene zur Südtirolterminologie, die in jahrelanger Kleinarbeit von Forschern der Korpuslinguistik erarbeitet werden, sind in den meisten Fällen jedem online zugänglich. So kann jedermann bei sprachlichen Unsicherheiten zahlreiche Informationen schnell und unkompliziert per Mausklick "nachschlagen".
 

Barbara Bernard


 
Copyright © EURAC 2008 Seite versenden Seite drucken Seitenanfang