contact | site map | imprint           6.7.2008
Logo EURAC  
  NEWS ARCHIVE    
      Events    
      Education courses    
      On research    
      New print releases    
      Job openings    
SITE SEARCH  
 

Der Schatz des Deutschen 
Home  |  Focus  |  Linguistic Corpora for all  |   


Abschaffel stellte sich mit seinem Buch an die Theke einer Imbißstube, und er hörte, wie ein Mann ein Eibrötchen verlangte. Abschaffel verstand aber ... aus Versehen Eilbrötchen. Das falsch verstandene Wort gefiel ihm sehr und er stellte sich vor, wie ein Eilbrötchen aussehen müßte.

Wahrscheinlich war es um die Hälfte kleiner als ein normales Brötchen, außerdem ganz weich, so dass ein ausgewachsener Mann ein Eilbrötchen mit einem einzigen Biß verschwinden lassen konnte." (Genazino: Abschaffel,62).

Ist das Wort Eilbrötchen, welches Abschaffel in der Roman-Trilogie von Genazino bildet, ein Zufallsfund? Für den Romanhelden Abschaffel ist dies zumindest ein interessantes Konzept, wie man ein paar Zeilen später liest: „Noch später, als er schon im fahrenden Zug saß, belustigte ihn diese Vorstellung, und er baute sie weiter aus, [...], auch Eilwohnungen und Eilbetten mussten interessant sein. Warum sollte es das alles nicht bald geben?". Gehören diese Wörter überhaupt zum deutschen Wortschatz oder beschränkt sich die deutsche Sprache bei den Zusammensetzungen mit Eil- auf die im Großwörterbuch des Dudens aufgeführten Eilauftrag, Eilbestellung, Eilbote, Eilbrief, eilfertig, Eilfracht, Eilgebühr, Eilgut, Eilgüterzug, Eilmarsch, Eilmeldung, Eilpäckchen, Eilpaket, Eilpost, Eilschrift, Eilschritt, Eilsendung, Eiltempo, Eiltriebwagen, Eilverfahren und Eilzug? Wie und auf welcher Grundlage kann man dies entscheiden?

Bei der Frage nach der Zugehörigkeit eines Wortes zum Wortschatz der deutschen Sprache beschränken sich Wörterbücher, auch die Großwörterbücher, bewusst. Um in ein Wörterbuch aufgenommen zu werden, muss ein Wort über längere Zeit von mehreren Sprechern, am besten in mehreren Textsorten, mit einer gewissen Häufigkeit verwendet werden. Es sollte sich auch nicht völlig einfach aus den Wortbestandteilen erschließen lassen, also nicht semantisch transparent sein, zumindest jedoch „usualisiert" sein oder eine orthographische Besonderheit (z.B. Ich-AG) aufweisen. In diesem Zusammenhang stellt sich jedoch die Frage, auf welcher Beleggrundlage diese Häufigkeiten ermittelt werden kann, und ob es nicht wichtige Wörter geben kann, die in ihrer Häufigkeit unter dem gewählten Schwellwert liegen oder nicht in allen Textsorten vorkommen.

Noch nie in der Geschichte der Wortschatzforschung war es möglich, dieser Frage mit derselben empirischen Breite nachzugehen. In den letzten 15 Jahren wuchs die Anzahl an digital verfügbaren Textproduktion nahezu exponentiell. Einen besonders großen Anteil daran haben Zeitungen, die wie kein anderes Druckerzeugnis digital erhältlich sind. Gleichzeitig wachsen die Möglichkeiten, sehr große Textmengen maschinell durchsuchbar zu machen.
In meinem Beitrag möchte ich zunächst die elektronischen Textquellen des an der Berlin-Brandenburgischen Akademie beheimateten Projekts „Digitales Wörterbuch" (DWDS) und das Wortinformationssystem vorstellen, welches über das Internet frei verfügbar ist.

Textdatenbank des DWDS
Die Textdatenbank des DWDS wurde in den Jahren 2000-2003 erstellt und wird seitdem kontinuierlich ausgebaut. Die Textdatenbank, in sprachwissenschaftlicher Terminologie im Folgenden auch Textkorpora genannt, besteht aus zwei großen Bestandteilen: dem kleineren nach Textsorten ausgewogenen, öffentlich recherchierbaren Kernkorpus sowie dem im Wesentlichen auf neueren Zeitungsquellen fußenden Ergänzungskorpus.

Das Kernkorpus soll den Wortschatz des 20. Jahrhunderts in ihrem Verlauf in größtmöglicher Breite widerspiegeln. Es wurde daher darauf geachtet, die Fachsprachen und Textsorten über das gesamte Jahrhundert gleichmäßig zu streuen und die prozentuale Verteilung der Textsorten untereinander angemessen zu berücksichtigen. Das Kernkorpus umfasst etwa 100 Millionen Textwörter; dies entspricht in etwa einer kleinen Bibliothek von ca. 1.500 Monographien. Etwa 40% davon wurde in mehr als zweieinhalb Jahren Arbeit mit bis zu 20 studentischen Mitarbeitern digitalisiert, der Rest wurde von Verlagen gekauft bzw. von Textgebern eingeworben. Aufgenommen wurden Dokumente aus fünf Bereichen: Schöne Literatur: 27%; Journalistische Prosa: 26%; Fachprosa 22%; Gebrauchstexte: 20%; transkribierte Texte gesprochener Sprache: 5%. Bei der Auswahl wurde das Projekt von Mitgliedern der Berlin-Brandenburgischen Akademie der Wissenschaften beraten; eine gewisse Zufälligkeit bei der Auswahl herrscht lediglich im Bereich "gesprochene Sprache", wo Daten vor der zweiten Jahrhunderthälfte kaum verfügbar sind. Die vier anderen Bereiche setzen sich nach folgenden Auswahlkriterien zusammen:

Schöne Literatur: darunter wird nicht nur die "hohe Literatur" verstanden, sondern auch die Unterhaltungsliteratur, die bislang lexikographisch kaum aufgearbeitet worden ist. Unter dem Aspekt eines breiten Nutzerkreises sind Konsalik und Höber nicht minder wichtig als Grass und Strittmatter. Pro Dekade enthält das Korpus etwa 20 längere Prosawerke (v.a. gehobene Literatur, aber auch Erzählungen für Kinder- und Jugendliche, literarische Tagebücher, etc.) sowie 10 Werke der Unterhaltungsliteratur, wobei der Übergang vom "Groschenroman" zum Unterhaltungsbestseller und zur gehobenen Literatur naturgemäß fließend ist.

Journalistische Prosa: Diese Textsorte umfasst sowohl die überregionalen Tages- und Wochenzeitungen gedacht, aber auch einige regionale Blätter, die unter lexikographischen Aspekten oft besonders interessant sind; weiterhin an Magazine und Illustrierte, unter Einschluss der "gelben Presse" und von Jugendzeitschriften. Zeitungen bilden keine homogene Textsorte; das Feuilleton ist anders als der Wirtschaftsbericht, die Sportseite anders als die Kleinanzeigen. Die Auswahl erfolgte sowohl ereignisorientiert als auch seriell. Die aufwendig anmutende Auswahl der Zeitungsausgaben nach historischen Ereignissen beruht auf der Erfahrung, dass bestimmte Ausdrucksweisen im Zusammenhang mit solchen Ereignissen geläufig geworden sind, z.B. für 1900 der 12.11. (Ende der Pariser Weltausstellung), 1901 der 10.12 (erste Verleihung des Nobelpreises), 1902 der 31.5. (Ende des Burenkriegs). Im seriellen Zugriff wurde für die jeweilige Zeitung eine gewisse Anzahl von Ausgaben für jedes Jahr zufällig ausgewählt. Im Einzelnen umfasst das Korpus u.a. eine Auswahl der Berliner Zeitungen (Vossische Zeitung, Berliner Tageblatt), zusätzlich wahlweise bzw. nach Verfügbarkeit eine Nummer aus der Frankfurter, Kölner und Münchner Tagespresse. Aufgenommen wurde darüber hinaus für jedes Jahr jeweils eine Nummer einer Wochenzeitung bzw. Magazins: für die Nachkriegszeit Die ZEIT, Der Spiegel; für die Zeit davor Berliner Illustrierte bzw. Neue Berliner Illustrierte, Die Gartenlaube oder der Simplizissimus.

Fachprosa: Hier wurden aus einer Reihe von Fachgebieten, von Philosophie und Jurisprudenz, über Medizin und Theologie bis zu Chemie, Physik und Mathematik, maßgebliche Texten dieses Jahrhunderts aufgenommen. Diese umfassen sowohl Aufsätze aus wissenschaftlichen Zeitschriften wie auch wissenschaftliche Monographien; angestrebt wurde hier ein ungefähres Gleichgewicht zwischen den verschiedenen Disziplinen.

Gebrauchstexte: dies ist eine Gruppe von Texten, die in der Wörterbucharbeit nur selten berücksichtigt werden - Gebrauchsanweisungen, Beipackzettel, Theaterprogramme, Werbetexte. Aufgenommen wurden pro Dekade je ein Kochbuch, ein Gesundheitsratgeber, ein Reiseführer, ein Benimm? oder Familienhausbuch, eine technische Dokumentation, 10 Gebrauchsanleitungen bzw. Beipackzettel, Werbetexte (aus den berücksichtigten Zeitungs- und Magazinausgaben), ferner sämtliche juristische Texte aus den in der Jurisprudenz allgemein verwendeten Sammlungen "Schönfelder" und "Sartorius".

Das DWDS-Ergänzungskorpus umfasst über 900 Millionen Textwörter. Es besteht im Wesentlichen aus Zeitungsquellen der 80er und 90er Jahre des 20. Jahrhunderts. Alle Quellen sind bibliographisch referenzierbar, und bei der Aufbereitung wurde auf inhaltliche und qualitative Streuung geachtet. Neben Frankfurter Allgemeine Zeitung, Neue Zürcher Zeitung und Süddeutscher Zeitung wurden auch Bild oder B.Z. aufgenommen, neben Die Zeit und Spiegel sind auch Konkret oder die tageszeitung enthalten. (weiter)

 


  Link
   


Das Digitale Wörterbuch des Deutschen Sprache des 20. Jh. (DWDS)

 
 
Copyright © EURAC 2008 Send page Print page Top of page