 |
Das SCHWEIZER TEXT KORPUS ist eine Sammlung digitalisierter Texte aus der deutschsprachigen Schweiz, die sich über das gesamte 20. Jh., über möglichst alle Regionen, Sachgebiete und Textsorten verteilen. |
Diese Texte enthalten insgesamt 20 Millionen Wörter und werden – von der Waschküchenordnung bis zum Roman – sorgfältig ausgewählt, so dass durch sie die Vielfalt der deutschen Sprache in der Schweiz umfassend dokumentiert und archiviert wird. Über Internet zugänglich, wird das Korpus voraussichtlich ab Herbst 2008 für sprachliche Nachforschungen verschiedenster Art zur Verfügung stehen.
Erforschung sprachlicher Varietäten
Angesichts der im Internet abrufbaren immensen Menge von Texten und angesichts existierender, weit umfangreicherer Sprachkorpora – bspw. des IDS in Mannheim – empfiehlt es sich für ein vergleichsweise kleines Korpus wie das Schweizer Textkorpus, sich zu spezialisieren. Leitend ist in unserem Fall der Gedanke der sprachlichen Varietät. Das Forscherteam des Schweizer Textkorpus hat zusammen mit anderen das „Variantenwörterbuchs des Deutschen" (De Gruyter 2004) erarbeitet, das die aktuell gebräuchlichen nationalen und regionalen sprachlichen Eigenheiten der deutschen Standardsprache enthält. Was in der Schweiz das Znüni, ist in Österreich die Jause oder das Gabelfrühstück, im nördlichen Deutschland das Zweite Frühstück, in Bayern die Brotzeit, in Südwestdeutschland die Vesper und in Südtirol der Halbmittag. Diesen plurizentrischen Ansatz, nach welchem die deutsche Sprache mehrere, sich teilweise stark unterscheidende, aber grundsätzlich gleichwertige Zentren hat, von denen die Schweiz eines ist, verfolgt das Projekt Schweizer Textkorpus konsequent weiter. Denn durch dieses Sprachkorpus wird die Basis für Varietätenforschung verbreitert und vertieft – verbreitert durch systematischen Aufbau des Korpus, vertieft durch die Ausdehnung über das gesamte 20. Jh.
Nachschlagen im Korpus
Erst- und Zweitspracherwerbenden des Deutschen nützt das Korpus insofern, als es eine ungewöhnlich breite Palette von Textsorten vereinigt und damit Beispielsätze aus sehr verschiedenartigen Kontexten enthält.
|
 |
Einzelwörter sind deshalb ebenso in ihrer ganzen Bedeutungs- und Verwendungsvielfalt, sowohl in historischen wie in aktuellen Kontexten belegt wie feste Wortverbindungen.Dies im Gegensatz zum über Suchmaschinen und deren Auswahlverfahren zugänglichen Internet, in welchem der Textauswahl keine nachvollziehbare Systematik zugrunde liegt. Beim Aufbau unseres Korpus wurde (und wird) kein Aufwand gescheut wenn es darum geht, schwer zugängliche Texte zu beschaffen, um die tatsächliche Sprachverwendung über das gesamte 20. Jh. möglichst ausgewogen abbilden zu können. Von den derzeit rund 20 Mitarbeitenden arbeiten stets zwei bis vier in einem Archiv (Staatsarchiv des Kantons Aargau, Archiv des Sportmuseums Schweiz, Schweizerisches Sozialarchiv, Schweizerisches Wirtschaftsarchiv) und scannen Schriftstücke wie Vereinsprotokolle, Gebrauchsanweisungen, Ankündigungen von Sportveranstaltungen, Waschküchenordnungen oder Polizeirapporte. Spracherwerbende, welche das Korpus zukünftig nutzen wollen, können die Verwendungsmöglichkeiten eines Wortes wie gopf (ungefähr ‚verdammt') anhand von Korpuskontexten eruieren. Die Fundstellen zeigen, dass es sich bei gopf um einen Grenzfall des Standards handelt.
Lernende können die Abfrage nach ihren Bedürfnissen eingrenzen, sei es zeitlich (z.B. nur 90er Jahre), nach Textsorten (z.B. nur Zeitungen) oder auch räumlich (z.B. nach Publikationsorten der Texte).
Internationale Kooperation
Das SCHWEIZER TEXT KORPUS kooperiert mit vergleichbaren Korpusprojekten in Deutschland (Digitales Wörterbuch der deutschen Sprache DWDS), Österreich (Austrian Academy Corpus AAC) und Südtirol (Korpus Südirol). Diese vier Korpora sollen zusammengeschlossen werden, so dass sie über ein gemeinsames Internetportal abgefragt werden können, d.h. dass die Resultate einer Abfrage von allen diesen Teilkorpora stammen. Damit vervierfacht sich natürlich auch die Datenbasis und vergrössert sich der Abdeckungsbereich des Sprachkorpus auf den gesamten deutschsprachigen Raum. Auch mit 80 Millionen Wörtern zählt dieses Korpus aber zu den Kleinen seiner Art. Seinen Wert erhält es nicht in erster Linie durch die Grösse, sondern durch seinen hohen Grad an Strukturiertheit. Es deckt, wie erwähnt, systematisch das 20. Jh., alle deutschen Sprachregionen und alle möglichen Textsorten und Sachbereiche ab. Diese Eigenschaft macht die zusammengeschlossenen Korpora zu einem idealen Ausgangspunkt für Sprachforschungen. Ziel solcher Forschungen könnte z.B. ein Wörterbuch der Kollokationen, d.h. festen Wortverbindungen im Deutschen, sein oder ein Vollwörterbuch des Deutschen in digitaler Form. Für die Schweiz wäre auch die Erarbeitung eines „Schweizerischen Wörterbuches" auf der Basis des Schweizer Textkorpus wünschenswert. Aber erste Priorität hat zunächst das Korpus selber, das bis Herbst 2008 fertiggestellt sein will.
Markus Gasser
Markus Gasser ist wissenschaftlicher Mitarbeiter den Universität Basel.