contatto | site map | colophon           18.5.2008
Logo EURAC  
  ARCHIVIO NEWS    
      Eventi    
      Corsi di formazione    
      Sulla ricerca    
      Novità editoriali    
      Offerte di lavoro    
RICERCA NEL SITO  
 

Ecco il corpus CATEx (Computer Assisted Terminology Extraction) 
Home  |  Focus  |  Dizionari on-line  |  Ecco il corpus CATEx (Computer Assisted Terminology Extraction)  

Codice Civile, codici del diritto processuale, Testo Unico delle Imposte sui Redditi e varie leggi emanate dalla Provincia Autonoma di Bolzano/Alto Adige: questi sono i testi giuridici accessibili, insieme alle rispettive traduzioni, nella raccolta CATEx.

Di cosa si tratta

Con la parola corpus nella linguistica computazionale si intende una raccolta di testi in formato elettronico.
Il corpus italiano-tedesco raccolto con il progetto CATEx (Computer Assisted Terminology Extraction) e disponibile gratuitamente sulla piattaforma di BISTRO è un corpus parallelo che raccoglie i principali testi di legge italiani con le relative traduzioni in tedesco. Tra questi si segnalano: il Codice Civile, i codici del diritto processuale, il Testo Unico delle Imposte sui Redditi e una raccolta di leggi emanate dalla Provincia Autonoma di Bolzano/Alto Adige.
Complessivamente il corpus si compone di circa 5 milioni di parole italiane e tedesche.

A cosa serve
In generale, un corpus serve a condurre ricerche sulla lingua e i suoi usi in contesti concreti e rappresenta così il modo migliore per verificare ipotesi teoriche.
CATEx è uno strumento che, grazie ai moderni strumenti della linguistica computazionale, offre la possibilità di condurre ricerche terminologiche e linguistiche in generale, nonché di operare confronti tra le due lingue (italiano e tedesco) in modo veloce e flessibile.
L'accesso alle informazioni è garantito da un'interfaccia utente che permette di effettuare ricerche mirate all'interno del corpus. Si possono cercare parole semplici o composte e intere collocazioni, ad esempio "colpa", "colpa grave", "dolo o colpa grave", ma è anche possibile combinare la ricerca tra le due lingue in modo da ottenere solo le occorrenze di un termine a cui corrisponda una data traduzione nell'altra lingua. Ad esempio, si possono cercare tutti i casi in cui "colpa" è stato tradotto con "Fahrlässigkeit" piuttosto che con "Schuld".
La ricerca può essere ristretta a una sola parte del corpus, solo al Codice Civile o al Codice Processuale Penale ecc.
Si possono inoltre consultare i singoli documenti per intero o confrontare, paragrafo per paragrafo, la versione di ogni segmento con la corrispondente traduzione nell'altra lingua.
Con l'ausilio di alcuni strumenti appositi è infine possibile estrarre dal corpus liste di possibili termini (cosiddetti termini candidati) appartenenti alle diverse branche del diritto. Le liste dovranno poi essere rielaborate a mano, ma rappresentano in ogni caso un notevole risparmio di tempo per il terminologo.

Come è stato creato
La creazione di un corpus bilingue come CATEx prevede tre fasi fondamentali:
1) la raccolta del materiale,
2) l'elaborazione dello stesso in funzione dell'utilizzo tramite computer (scansione e trasformazione in formato elettronico, markup ecc.) e
3) l'allineamento.
I testi contenuti nel CATEx provengono da una raccolta della legislazione provinciale e dalla cosiddetta "Blaue Reihe", una collana di traduzioni in lingua tedesca dei principali codici di legge italiani. Tali testi sono stati digitalizzati ed elaborati in modo che il computer possa a sua volta "leggere" i dati così da fornire all'utente le informazioni che cerca: è la fase nota come text markup o tagging. Affinché gli strumenti informatici possano gestire il corpus, alcune informazioni devono infatti essere esplicitate, ad esempio, deve essere segnalato se un segmento di testo è un articolo di legge, un titolo, una nota ecc. Non appena terminato questo lavoro di "mappatura" del corpus i testi possono essere allineati, ovvero messi in parallelo e collegati i corrispondenti passaggi nelle due diverse lingue.

Come si usa
Per imparare a usare CATEx e a sfruttarne tutte le sue potenzialità seguite il BISTRO-Tour II.

Approfondimenti
Il progetto CATEx è stato realizzato da Johann Gamper. Per approfondimenti e ulteriori informazioni si rimanda ad alcuni suoi articoli:
http://titus.uni-frankfurt.de/curric/gldv99/paper/gamper/gamperx.pdf
http://www.eurac.edu/Press/Academia/14/Artikel2.asp
http://www.eurac.edu/Press/Academia/18/Art_13.asp

(Elena Chiocchetti; Francesca Maganzi)

07.10.2004


  info box
   


BISTROtour - I tappa

BISTROtour - 2. etappe

 
 
Copyright © EURAC 2008 Invia pagina Stampa pagina Inizio pagina