Ecco il corpus CATEx (Computer Assisted Terminology Extraction)
Home |
Focus |
Dizionari on-line |
Ecco il corpus CATEx (Computer Assisted Terminology Extraction)
 |
Codice Civile, codici del diritto processuale, Testo Unico delle Imposte sui Redditi e varie leggi emanate dalla Provincia Autonoma di Bolzano/Alto Adige: questi sono i testi giuridici accessibili, insieme alle rispettive traduzioni, nella raccolta CATEx. | Di cosa si tratta Con la parola corpus nella linguistica computazionale si intende una raccolta di testi in formato elettronico. Il corpus italiano-tedesco raccolto con il progetto CATEx (Computer Assisted Terminology Extraction) e disponibile gratuitamente sulla piattaforma di BISTRO è un corpus parallelo che raccoglie i principali testi di legge italiani con le relative traduzioni in tedesco. Tra questi si segnalano: il Codice Civile, i codici del diritto processuale, il Testo Unico delle Imposte sui Redditi e una raccolta di leggi emanate dalla Provincia Autonoma di Bolzano/Alto Adige. Complessivamente il corpus si compone di circa 5 milioni di parole italiane e tedesche.
A cosa serve In generale, un corpus serve a condurre ricerche sulla lingua e i suoi usi in contesti concreti e rappresenta così il modo migliore per verificare ipotesi teoriche. CATEx è uno strumento che, grazie ai moderni strumenti della linguistica computazionale, offre la possibilità di condurre ricerche terminologiche e linguistiche in generale, nonché di operare confronti tra le due lingue (italiano e tedesco) in modo veloce e flessibile. L'accesso alle informazioni è garantito da un'interfaccia utente che permette di effettuare ricerche mirate all'interno del corpus. Si possono cercare parole semplici o composte e intere collocazioni, ad esempio "colpa", "colpa grave", "dolo o colpa grave", ma è anche possibile combinare la ricerca tra le due lingue in modo da ottenere solo le occorrenze di un termine a cui corrisponda una data traduzione nell'altra lingua. Ad esempio, si possono cercare tutti i casi in cui "colpa" è stato tradotto con "Fahrlässigkeit" piuttosto che con "Schuld". La ricerca può essere ristretta a una sola parte del corpus, solo al Codice Civile o al Codice Processuale Penale ecc. Si possono inoltre consultare i singoli documenti per intero o confrontare, paragrafo per paragrafo, la versione di ogni segmento con la corrispondente traduzione nell'altra lingua. Con l'ausilio di alcuni strumenti appositi è infine possibile estrarre dal corpus liste di possibili termini (cosiddetti termini candidati) appartenenti alle diverse branche del diritto. Le liste dovranno poi essere rielaborate a mano, ma rappresentano in ogni caso un notevole risparmio di tempo per il terminologo.
Come è stato creato La creazione di un corpus bilingue come CATEx prevede tre fasi fondamentali: 1) la raccolta del materiale, 2) l'elaborazione dello stesso in funzione dell'utilizzo tramite computer (scansione e trasformazione in formato elettronico, markup ecc.) e 3) l'allineamento. I testi contenuti nel CATEx provengono da una raccolta della legislazione provinciale e dalla cosiddetta "Blaue Reihe", una collana di traduzioni in lingua tedesca dei principali codici di legge italiani. Tali testi sono stati digitalizzati ed elaborati in modo che il computer possa a sua volta "leggere" i dati così da fornire all'utente le informazioni che cerca: è la fase nota come text markup o tagging. Affinché gli strumenti informatici possano gestire il corpus, alcune informazioni devono infatti essere esplicitate, ad esempio, deve essere segnalato se un segmento di testo è un articolo di legge, un titolo, una nota ecc. Non appena terminato questo lavoro di "mappatura" del corpus i testi possono essere allineati, ovvero messi in parallelo e collegati i corrispondenti passaggi nelle due diverse lingue.
Come si usa Per imparare a usare CATEx e a sfruttarne tutte le sue potenzialità seguite il BISTRO-Tour II.
Approfondimenti Il progetto CATEx è stato realizzato da Johann Gamper. Per approfondimenti e ulteriori informazioni si rimanda ad alcuni suoi articoli: http://titus.uni-frankfurt.de/curric/gldv99/paper/gamper/gamperx.pdf http://www.eurac.edu/Press/Academia/14/Artikel2.asp http://www.eurac.edu/Press/Academia/18/Art_13.asp
(Elena Chiocchetti; Francesca Maganzi)
07.10.2004
|