 |
Si prenda una parola inglese dallo spelling "insidioso". Qual è l'ortografia corretta, mischievous o mischievious? Se non si ha un dizionario sotto mano, è sufficiente digitare le due forme in un motore di ricerca come Google e si scoprirà che nel Web la prima è circa 10 volte più frequente della seconda. |
Basandosi sull'idea che l'ortografia corretta dovrebbe essere anche la più frequente, e che i risultati forniti dal motore di ricerca siano accurati, si può dunque decidere che mischievous è la forma esatta. Ma questo è solo un esempio di come il Web possa essere utilizzato per scopi linguistici.
Perché usare il Web come corpus?
Il Web possiede numerose caratteristiche che lo rendono una fonte di dati allettante per tutti coloro (linguisti, traduttori, language engineers) che sono interessati a studiare il linguaggio attraverso l'uso che ne viene fatto dai suoi parlanti, che in questo caso sono rappresentati dagli innumerevoli soggetti che ogni giorno pubblicano nuovi contenuti in Rete. Le ragioni di questo interessamento sono molteplici.
Fino a una quindicina di anni fa, raccogliere grandi quantità di testi da includere in un corpus linguistico richiedeva sforzi considerevoli, tra cui la scansione manuale e la conversione in formato elettronico di opere per lo più pubblicate in forma cartacea. Con l'avvento e la crescita esponenziale del Web, tale compito è reso molto più agevole dalla presenza di un'immensa mole di dati testuali che possono essere riuniti in un corpus elettronico richiedendo sforzi decisamente più ridotti.
Alla grande quantità di testi corrisponde anche una notevole varietà di tipologie testuali, di argomenti e di lingue in cui i testi vengono redatti. Per tali ragioni, la Rete è spesso l'unica fonte di dati disponibile per costruire corpora in tempi relativamente brevi, ad esempio quando si vogliono analizzare le convenzioni testuali o i linguaggi specialistici utilizzati in campi ristretti, che possono andare dalla meccanica alla biologia molecolare, oppure quando si dispone di poche risorse da destinare alla costruzione di corpora per lingue "minoritarie", un campo di ricerca che difficilmente riesce ad attirare investimenti da parte, ad esempio, di aziende private.
Non da ultimo, il Web è costantemente aggiornato, e permette così di documentare fenomeni linguistici emersi anche in tempi recenti, che non è pertanto possibile studiare attraverso risorse tradizionali, come il British National Corpus (BNC), un vasto corpus di riferimento divenuto uno standard per lo studio dell'inglese britannico, che è però stato progettato per rimanere stabile, e non è dunque aggiornato dai tempi della sua pubblicazione, nel 1994.
Diversi modi di usare il Web per scopi linguistici.
Una volta stabilito che i dati ottenuti dal Web siano in grado di rispondere alle proprie esigenze di ricerca, rimane tuttavia aperta la questione di come avervi accesso. Le strategie possibili sono principalmente due.
Una consiste nel ricorrere ai motori di ricerca commerciali come Google per raccogliere dati sulla frequenza o sull'uso di determinate parole, come nel caso citato di mischievous vs. mischievious. Tale approccio sembra però limitativo rispetto alle potenzialità del Web come corpus linguistico. Essendo progettato per trovare e presentare contenuti, e non forme linguistiche, Google non permette infatti di compiere ricerche linguistiche complesse. Se, ad esempio, si fosse interessati a studiare quali nomi accompagnano più spesso l'aggettivo mischievous, ci si troverebbe nella condizione frustrante di dover scorrere centinaia di pagine di risultati, di cui molte potrebbero non essere rilevanti ai fini della ricerca, ad esempio perché l'aggettivo compare in fine di frase. Inoltre, quando si ricorre a Google, occorre tenere presente che non vi è un'assoluta garanzia sull'esattezza dei conteggi e che i risultati vengono presentati in base a criteri poco trasparenti, che potrebbero favorire, ad esempio, le pagine che provengono dai siti di grandi imprese commerciali. Può così accadere che a distanza di poche ore i risultati cambino radicalmente (un problema non trascurabile per la ricerca, che dovrebbe essere sempre replicabile), o che le pagine visualizzate per prime provengano da un gruppo ristretto di siti, il che potrebbe sollevare dubbi sull'effettiva validità di generalizzazioni linguistiche basate su dati così instabili.
L'alternativa a tale approccio consiste nel reperire, salvare e manipolare offline dati provenienti dal Web. Questo permette di raccogliere enormi quantità di testi in tempi ridotti, che possono poi essere inclusi in un corpus (più) stabile. Per tali scopi, una delle opzioni più promettenti per la costruzione di corpora dal Web sembra essere quella di eseguire crawl su larga scala della Rete con tecniche simili a quelle utilizzate dai motori di ricerca commerciali. Al contrario di quello che accade quando si ricorre a questi ultimi, un crawl autonomo permette di avere il controllo sull'intera procedura di raccolta dei dati. Questi possono essere successivamente ripuliti (eliminando, ad esempio, le pagine ripetute o generate automaticamente) e annotati per parti del discorso. Corpora ottenuti e codificati in tale maniera possiedono dunque le caratteristiche di un corpus tradizionale, a cui si aggiungono i vantaggi legati all'uso del Web come fonte di dati linguistici, quali le grandi dimensioni e la varietà e contemporaneità dei materiali inclusi.
Un esempio concreto
Un esempio di risorsa costruita attraverso un crawl della Rete è ukWaC, un corpus di inglese generale ottenuto attraverso un campionamento di siti dal dominio .uk, che nella sua versione finale contiene circa due miliardi di parole. Grazie a ukWaC, interrogato attraverso programmi ideati per la ricerca linguistica, è possibile effettuare anche ricerche complesse, come nel caso dei nomi che accompagnano più frequentemente l'aggettivo mischievous. In ukWaC, una ricerca simile produce 680 coppie aggettivo-nome (ad esempio mischievous smile, boy, grin, sprite, behaviour), di cui più di 120 compaiono con una frequenza superiore a tre. Per avere un termine di paragone con un corpus tradizionale, certamente più "controllato" rispetto a ukWaC (poiché costruito attraverso procedure non automatiche), ma di dimensioni considerevolmente minori (100 milioni di parole), si può effettuare la stessa ricerca sul BNC. In questo caso i risultati sono 110, ma solo 10 coppie nome-aggettivo hanno una frequenza superiore a tre.
Per concludere, si può dunque affermare che la Rete presenta un grande potenziale per la ricerca linguistica, oltre che per applicazioni quali ad esmepio la lessicografia e la documentazione terminologica, sebbene molto rimanga ancora da fare, soprattutto per quanto riguarda lo sviluppo di modi sempre più affinati di raccogliere e codificare corpora costruiti dal Web.
10.01.08
Adriano Ferraresi
Scuola Superiore di Lingue Moderne per Interpreti e Traduttori, Università degli Studi di Bologna, Forlì