Der Schatz des Deutschen (2.Teil)
Home |
Focus |
Linguistic Corpora for all |
Das Wortinformationssystem des DWDS
Seit September 2005 ist das DWDS - Wortinformationssystem über das Internet abfragbar. Es ermöglicht den Nutzern mit einer Suchabfrage den Zugriff auf vier verschiedene Ressourcen, die auf einer Bildschirmseite dargestellt werden: erstens das digitalisierte 6-bändige über 125.000 Einträge umfassende Wörterbuch der deutschen Gegenwartssprache (WDG - oben links) und zweitens das nach Textsorten und über das gesamte 20. Jh. ausgewogene knapp 80.000 Dokumente umfassende DWDS-Kerncorpus (unten links).Ergänzt werden diese beiden Ressourcen durch zwei automatisch extrahierte Informationstypen zum Wort: über 65.000 Synonymen, Ober- und Unterbegriffen wurden mit Hilfe automatischer Analyseprogramme aus den Definitionen des WDG extrahiert (oben rechts). Neben dem Nutzen als Synonymwörterbuch und Thesaurus kann man über diesen Informationstyp im WDG nicht mehr nur elektronisch blättern, sondern auch ‚semantisch' navigieren. Beispielsweise kann man vom Stichwort Insekt direkt zu dessen Synonym Kerbtier springen, aber genauso zu allen untergeordneten Begriffen wie beispielsweise Ameise, Floh, Johanniskäfer oder Wasserläufer. Schließlich wurden Kollokationen aus dem DWDS-Corpus extrahiert (rechts unten). Das sind besonders häufig mit dem Suchwort gemeinsam auftretende Wörter, wie – im Falle von Insekt – die Wörter Larve, Verwandlung oder schädliches. Alle Ressourcen des Informationssystems lassen sich ‚aufklappen'; somit kann man sich bei Interesse den ganzen Wörterbuchartikel, mehr Corpusbelege oder auch detailliertere Informationen zu den Kollokationen anzeigen lassen.

Mit dem Wortinformationssystem verfügt das DWDS bereits vor dem Beginn der eigentlichen lexikographischen Arbeit über Ressourcen, die weit mehr als nur den engen Kreis der an Textcorpora interessierten Linguisten ansprechen. Das Nutzerspektrum reicht vom rein privaten Nutzer über die Universitäten bis hin zu Industrieunternehmen. Die Seiten des DWDS werden durchschnittlich 50.000 Mal täglich aufgerufen; etwa 15.000 Nutzer haben sich bislang für die kostenlose Nutzung des Corpus angemeldet. Das Wortinformationssystem selbst wird in vielen Kontexten genutzt, von denen hier aus Platzgründen nur drei genannt werden können: zunächst einmal wird es intern vom Deutschen Wörterbuch genutzt, welches die Corpora ergänzend zum bestehenden Belegmaterial in der täglichen Arbeit verwendet. Es findet auch Anwendung in der universitären Lehre, wo es als Recherchematerial in linguistischen Seminaren von der Germanistik über die Anglistik und Romanistik bis hin zur Slawistik regelmäßig eingesetzt wird. Eine dritte Nutzergruppe stellen die Literaturübersetzer dar. Mit der ausgewogenen Textauswahl des DWDS-Corpus und den flexiblen Filtermöglichkeiten werden dem Literaturübersetzer effektive Werkzeuge bei der Suche nach plausiblen Formulierungen zur Verfügung gestellt. Es lässt sich damit z.B. recherchieren, ob und mit welchen Objekten ein Verb wie kujonieren erscheint, man kann den Gebrauch von Eisschrank im Vergleich zu Kühlschrank zu Beginn des 20. Jahrhunderts nachverfolgen oder Nomen nach typischen attributiven Adjektiven sortieren, die im Kontext des Nomens stehen.
Ausblick Zukünftig sollen die Korpora des DWDS in das ebenfalls an der BBAW beheimatete Deutsche Textarchiv (DTA) einfließen. Ziel des seit August 2007 von der Deutschen Forschungsgemeinschaft geförderten DTA ist es, einen disziplinübergreifenden Kernbestand an Texten deutscher Sprache von der Mitte des 17. Jahrhunderts bis zur Gegenwart zu digitalisieren und so aufzubereiten, dass er über das Internet in vielfältiger Weise nutzbar ist. Das DTA soll in größtmöglicher Breite widerspiegeln, was seit dem Barock an bedeutenden Werken in deutscher Sprache veröffentlicht worden ist. Seine Texte sollen gleichzeitig repräsentativ für die Entwicklung der deutschen Sprache seit der frühen Neuzeit stehen. Das DTA ist nicht an eine bestimmte Disziplin gebunden: es soll sprachhistorische Forschungen möglich machen, ist aber nicht darauf beschränkt. Das Schwergewicht wird dabei sicherlich in den Geistes- und Sozialwissenschaften liegen, es werden aber auch naturwissenschaftliche und medizinische Texte aufgenommen, die wissenschafts- oder sprachgeschichtlich eine wichtige Rolle gespielt haben.
09.11.07 Alexander Geyken
Alexander Geyken ist Koordinator des Projekts "Digitales Wörterbuch" (DWDS) an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW).
|