Gymn@zilla
Home |
Aree di ricerca |
Linguistica Applicata |
Istituto di Comunicazione Specialistica e Plurilinguismo |
Progetti |
Gymn@zilla
Gymn@zilla permette di scorrere una banca dati locale di documenti e le pagine Internet creando dinamicamente e annotando i documenti HTML e PDF con le risorse dei dizionari aperti. Gymn@zilla è scritta in Perl. Si tratta di un'applicazione online installata su un server web Linux. La sua architettura garantisce quindi l'utilizzo di moduli gratuiti ed efficaci. I principali sottomoduli di Gymn@zilla gestiscono (1) la duplicazione delle pagine web, (2) l'elaborazione linguistica, (3) l'elaborazione e selezione di immagini e (4) la generazione di esercizi. La duplicazione delle pagine web è ottenuta usando i moduli LWP di Perl. I link ipertestuali in una pagina web sono riscritti nella URL di Gymn@zilla al fine di consentire lo scorrimento continuo con Gymn@zilla. La URL originale è codificata come parametro CGI. Sono mantenuti i link ai documenti multimediali, quali file audio, video e grafici. Dopo la conversione, la lingua dei documenti viene rilevata e si seleziona la lingua di supporto più idonea (L1). Il testo viene segmentato nei suoi segni, un aspetto non trascurabile per le lingue dell'Asia orientale. Per l'annotazione delle forme flesse si effettua una ricerca per radici usando le tecniche di pattern matching. In base alle preferenze dell'utente, il testo viene quindi annotato con traduzioni e informazioni terminologiche. L'annotazione si effettua inserendo dei tag <a> con descrizioni avanzate dei link in JavaScript, contenenti le informazioni che si visualizzeranno quando l'utente vi passerà sopra con il mouse. I dizionari presenti in Gymn@zilla sono scaricati prevalentemente da Internet (per esempio, il dizionario cedict cinese) o forniti dai nostri partner di ricerca (per esempio, il dizionario russo del laboratorio di linguistica computazionale presso l'IPPI dell'Accademia russa delle scienze). Tutti i dizionari sono trasformati in una struttura XML contenente il lemma e, facoltativamente, gli indicatori grammaticali, la traduzione, la pronuncia e le note. Al fine di migliorare la qualità dell'annotazione, in futuro si cercherà di classificare i documenti confrontando gli n-grammi di caratteri del documento con quelli di dizionari specifici. L'annotazione morfo-sintattica e la risoluzione delle ambiguità semantiche saranno esplorate allo scopo di evitare annotazioni evidentemente scorrette. Ogni utente di Gymn@zilla è associato a una sessione. Queste informazioni sono quindi usate per creare degli elenchi privati di termini modificabili sotto forma di semplici documenti XML. La trasformazione XSLT è poi usata per generare dei questionari d'esercizio.
Per informazioni più dettagliate sugli aspetti tecnologici di Gymn@zilla si prega di consultare le nostre pubblicazioni scientifiche sul progetto.
last update
13.3.2006
|