kontakt | site map | impressum           italiano | english 22.11.2008
Logo EURAC  
  zu diesem Institut    
       Über uns    
       Projekte    
       Publikationen    
       Partner    
  NEWS ARCHIV    
      Veranstaltungen    
      Kurse    
      Forschung    
      Neuerscheinungen    
      Stellenangebote    
SUCHE IN EURAC.EDU  
 

Gymn@zilla 
Home  |  Forschungsbereiche  |  Angewandte Sprachwissenschaft  |  Institut für Fachkommunikation und Mehrsprachigkeit  |  Projekte  |  Gymn@zilla  

Gymn@zilla unterstützt das Lesen von lokalen Dokumenten und Internetdokumente, indem HTML- und PDF-Seiten dynamisch generiert und mit Wörterbüchern annotiert werden.  Gymn@zilla ist in Perl geschrieben. Es ist eine Internetanwendung, die auf einem Linux Webserver läuft. Seine Architektur erlaubt die Benutzung von freien und mächtigen Modulen. Die Hauptmodule sind (1) das Spiegeln von Webseiten, (2) linguistische Verarbeitungen, (3) Auswahl und Verarbeitung von Bildern und (4) die Generierung von Übungen.
Das Spiegeln der Webseiten ist mithilfe der Perl-LWP-Module realisiert worden. Hyperlinks in einer Webseite werden in eine Gymn@zilla -spezifische URL umgeschrieben, in welche die ursprüngliche URL als CGI-Parameter codiert ist. Links zu multimedialen Dokumenten wie Audio- und Videodateien sowie Graphiken werden erhalten. Dadurch wird es möglich, dass nicht nur einzelne Seiten, sondern die ganze Internetbenutzung im Gymn@zilla  -Modus durchgeführt werden kann.
Sobald die Dokumente konvertiert worden sind, schätzt Gymn@zilla die Sprache ab. Der Text wird in seine Wortsegmente zerschnitten, was besonders für asiatische Sprachen keine triviale Aufgabe ist. Für die Annotierung gebeugter Wortformen werden diese zuerst mithilfe von Stringvergleichen auf ihre Grundform zurückgeführt. Abhängig von Benutzervorlieben wird der Text dann mit Übersetzungen und terminologischen Informationen annotiert. Die Annotierung wird dadurch realisiert, dass ein <a>-Tag mit einem ausführlichen "title"-Attribut in JavaScript eingefügt wird, welches die Information enthält, die erscheint, wenn der Benutzer mit der Maus über das entsprechende Wort fährt.
Die Wörterbücher, die Gymn@zilla  inkludiert, sind entweder aus dem Internet (z.B. das "Chinese cedict dictionary") oder wurden von unseren Forschungspartnern zur Verfügung gestellt (z.B. das russische Wörterbuch vom „Laboratory of Computational Linguistics" am IPPI an der „Russian Academy of Sciences"). Alle Wörterbücher sind in XML-Format transformiert worden, welche das Lemma, möglicherweise grammatikalische Information, die Übersetzung, Information zur Aussprache und anderes enthält.
Um die Annotierungen zu verbessern, werden derzeit computerlinguistische Technologien ausprobiert: die N-grams des Dokumentes werden mit denen im Wörterbuch verglichen. Part-of-speech Tagging und Wort-Disambiguierung werden untersucht, um mehrdeutige und offenkundig falsche Annotierungen zu vermeiden.
Jeder Benutzer in Gymn@zilla ist mit einer „Session" assoziiert. Diese Technologie erlaubt es, persönliche, editierbare Wortlisten in der Form eines einfachen XML-Dokuments zu generieren. XSLT-Transformationen werden dann benutzt, um die Übungen zu generieren.
 
Für mehr Information zu technischen Fragen zum Projekt verweisen wir auf unsere wissenschaftlichen Publikationen.

last update 16.10.2008


KONTAKT  
   Tel.+39 0471 055 111
 Fax+39 0471 055 199
 contact
 

  mehr über Gymn@zilla
   


Allgemeines

Technisches

Neuere Versionen (externe Webseite)

 

  kontakt
   


Judith Knapp  

Oliver Streiter

Mathias Stuflesser

 
 
Copyright © EURAC 2008 Seite versenden Seite drucken Seitenanfang