|
Gymn@zilla
Home |
Forschungsbereiche |
Angewandte Sprachwissenschaft |
Institut für Fachkommunikation und Mehrsprachigkeit |
Projekte |
Gymn@zilla
Gymn@zilla unterstützt das Lesen von lokalen Dokumenten und Internetdokumente, indem HTML- und PDF-Seiten dynamisch generiert und mit Wörterbüchern annotiert werden. Gymn@zilla ist in Perl geschrieben. Es ist eine Internetanwendung, die auf einem Linux Webserver läuft. Seine Architektur erlaubt die Benutzung von freien und mächtigen Modulen. Die Hauptmodule sind (1) das Spiegeln von Webseiten, (2) linguistische Verarbeitungen, (3) Auswahl und Verarbeitung von Bildern und (4) die Generierung von Übungen. Das Spiegeln der Webseiten ist mithilfe der Perl-LWP-Module realisiert worden. Hyperlinks in einer Webseite werden in eine Gymn@zilla -spezifische URL umgeschrieben, in welche die ursprüngliche URL als CGI-Parameter codiert ist. Links zu multimedialen Dokumenten wie Audio- und Videodateien sowie Graphiken werden erhalten. Dadurch wird es möglich, dass nicht nur einzelne Seiten, sondern die ganze Internetbenutzung im Gymn@zilla -Modus durchgeführt werden kann. Sobald die Dokumente konvertiert worden sind, schätzt Gymn@zilla die Sprache ab. Der Text wird in seine Wortsegmente zerschnitten, was besonders für asiatische Sprachen keine triviale Aufgabe ist. Für die Annotierung gebeugter Wortformen werden diese zuerst mithilfe von Stringvergleichen auf ihre Grundform zurückgeführt. Abhängig von Benutzervorlieben wird der Text dann mit Übersetzungen und terminologischen Informationen annotiert. Die Annotierung wird dadurch realisiert, dass ein <a>-Tag mit einem ausführlichen "title"-Attribut in JavaScript eingefügt wird, welches die Information enthält, die erscheint, wenn der Benutzer mit der Maus über das entsprechende Wort fährt. Die Wörterbücher, die Gymn@zilla inkludiert, sind entweder aus dem Internet (z.B. das "Chinese cedict dictionary") oder wurden von unseren Forschungspartnern zur Verfügung gestellt (z.B. das russische Wörterbuch vom „Laboratory of Computational Linguistics" am IPPI an der „Russian Academy of Sciences"). Alle Wörterbücher sind in XML-Format transformiert worden, welche das Lemma, möglicherweise grammatikalische Information, die Übersetzung, Information zur Aussprache und anderes enthält. Um die Annotierungen zu verbessern, werden derzeit computerlinguistische Technologien ausprobiert: die N-grams des Dokumentes werden mit denen im Wörterbuch verglichen. Part-of-speech Tagging und Wort-Disambiguierung werden untersucht, um mehrdeutige und offenkundig falsche Annotierungen zu vermeiden. Jeder Benutzer in Gymn@zilla ist mit einer „Session" assoziiert. Diese Technologie erlaubt es, persönliche, editierbare Wortlisten in der Form eines einfachen XML-Dokuments zu generieren. XSLT-Transformationen werden dann benutzt, um die Übungen zu generieren. Für mehr Information zu technischen Fragen zum Projekt verweisen wir auf unsere wissenschaftlichen Publikationen.
last update
16.10.2008
|
|
KONTAKT |
|
| | | Tel.+39 0471 055 111
Fax+39 0471 055 199
 contact | | |
|
|
|
|
|
|