contatto | site map | colophon           deutsch | english 6.9.2008
Logo EURAC  
  su questo istituto    
       Chi siamo    
       Progetti    
       Pubblicazioni    
       Partner    
  ARCHIVIO NEWS    
      Eventi    
      Corsi di formazione    
      Sulla ricerca    
      Novità editoriali    
      Offerte di lavoro    
RICERCA NEL SITO  
 

Gymn@zilla 
Home  |  Aree di ricerca  |  Linguistica Applicata  |  Istituto di Comunicazione Specialistica e Plurilinguismo  |  Progetti  |  Gymn@zilla  

Gymn@zilla permette di scorrere una banca dati locale di documenti e le pagine Internet creando dinamicamente e annotando i documenti HTML e PDF con le risorse dei dizionari aperti. Gymn@zilla è scritta in Perl. Si tratta di un'applicazione online installata su un server web Linux. La sua architettura garantisce quindi l'utilizzo di moduli gratuiti ed efficaci. I principali sottomoduli di Gymn@zilla gestiscono (1) la duplicazione delle pagine web, (2) l'elaborazione linguistica, (3) l'elaborazione e selezione di immagini e (4) la generazione di esercizi.
La duplicazione delle pagine web è ottenuta usando i moduli LWP di Perl. I link ipertestuali in una pagina web sono riscritti nella URL di Gymn@zilla al fine di consentire lo scorrimento continuo con Gymn@zilla. La URL originale è codificata come parametro CGI. Sono mantenuti i link ai documenti multimediali, quali file audio, video e grafici.
Dopo la conversione, la lingua dei documenti viene rilevata e si seleziona la lingua di supporto più idonea (L1). Il testo viene segmentato nei suoi segni, un aspetto non trascurabile per le lingue dell'Asia orientale. Per l'annotazione delle forme flesse si effettua una ricerca per radici usando le tecniche di pattern matching. In base alle preferenze dell'utente, il testo viene quindi annotato con traduzioni e informazioni terminologiche. L'annotazione si effettua inserendo dei tag <a> con descrizioni avanzate dei link in JavaScript, contenenti le informazioni che si visualizzeranno quando l'utente vi passerà sopra con il mouse.
I dizionari presenti in Gymn@zilla sono scaricati prevalentemente da Internet (per esempio, il dizionario cedict cinese) o forniti dai nostri partner di ricerca (per esempio, il dizionario russo del laboratorio di linguistica computazionale presso l'IPPI dell'Accademia russa delle scienze). Tutti i dizionari sono trasformati in una struttura XML contenente il lemma e, facoltativamente, gli indicatori grammaticali, la traduzione, la pronuncia e le note.
Al fine di migliorare la qualità dell'annotazione, in futuro si cercherà di classificare i documenti confrontando gli n-grammi di caratteri del documento con quelli di dizionari specifici. L'annotazione morfo-sintattica e la risoluzione delle ambiguità semantiche saranno esplorate allo scopo di evitare annotazioni evidentemente scorrette.
Ogni utente di Gymn@zilla è associato a una sessione. Queste informazioni sono quindi usate per creare degli elenchi privati di termini modificabili sotto forma di semplici documenti XML. La trasformazione XSLT è poi usata per generare dei questionari d'esercizio.

Per informazioni più dettagliate sugli aspetti tecnologici di Gymn@zilla si prega di consultare le nostre pubblicazioni scientifiche sul progetto.

last update 13.3.2006


CONTATTO  
   Tel.+39 0471 055 111
 Fax+39 0471 055 199
 contact
 

  per saperne di più
   


informazioni generali

aspetti tecnici

 

  contatti
   


Judith Knapp  

Oliver Streiter

Mathias Stuflesser

 
 
Copyright © EURAC 2008 Invia pagina Stampa pagina Inizio pagina