home  
Utente: guest
Versione Stampabile
Cerca
Home Page

SETTORI DI RICERCA
Disegno di standard e costruzione di risorse linguistiche computazionali
La mancanza di risorse linguistiche (RL) adeguate viene riconosciuta come uno dei principali ostacoli al successo delle attività di ricerca e sviluppo nella LC. Diverse agenzie governative statunitensi (NSF, ARPA, NSA, ecc.) e la CEE hanno indicato RL e standard come i temi di massima priorità. La loro produzione richiede uno sforzo cooperativo di competenze, finanziamenti, soggetti. Per questi motivi, abbiamo promosso attività internazionali (progetti CEE e CEE-NSF) e nazionali (MIUR) attraverso le quali i progetti di questa linea possono contare, oltre che su finanziamenti esterni, sulla cooperazione di molti soggetti pubblici e privati in Italia e all’estero (Europa, America, Giappone, paesi asiatici).

Nel triennio 2003-2005 si porrà l’accento in particolare su aspetti centrali all’interno del 6° PQ, cioè il multilinguismo, le tecnologie della conoscenza, il ‘contenuto’ (‘active digital content’), e la multimodalità. Gli obiettivi principali sono:

Entra nel progetto Definizione di standard per: lessici mono e multilingui, ontologie, risorse testuali e multimodali, formalismi di rappresentazione, metadata; anche per promuovere la cosiddetta "content interoperability"
Entra nel progetto Creazione delle Risorse Linguistiche che costituiscono la infrastruttura necessaria per il TAL:
a) dati mono e multi-lingui (corpora, treebank, lessici computazionali, ontologie, thesauri o reti semantiche, terminologie e “multi-word expressions”, grammatiche, ecc.)
b) una piattaforma di tecnologie linguistiche e strumenti robusti, portabili, estensibili, adattabili, integrabili per la creazione, gestione, codifica, rappresentazione, annotazione, accesso, navigazione, analisi multi-livello (morfo-sintattica, chunking, sintattica, semantica, concettuale, pragmatica).
Entra nel progetto Progettazione e sviluppo di nuovi metodi di acquisizione e “customizzazione” di “conoscenza” linguistica e extra-linguistica (nomi propri e loro classificazione, terminologia specialistica, concetti, repertori di corrispondenze multilingui, esempi testuali o di immagini, ecc.) da corpora e dal web – anche attraverso tecniche di “bootstrapping” , per ottenere RL innovative e “dinamiche” che si auto-arricchiscono e adattano, orientate verso il trattamento del ‘contenuto’ multilingue.
Entra nel progetto Mantenimento e creazione di risorse e strumenti multimediali specifici per la didattica delle lingue, facilmente accessibili anche a soggetti con bisogni speciali.
Entra nel progetto Disegno di un nuovo paradigma per le RL, basato su Infrastrutture Linguistiche integrate, aperte e distribuite, che permettano la collaborazione effettiva e controllata di molti utenti, per creare cooperativamente RL comprensibili dalla macchina e adeguate a fare della visione del Semantic Web una realtà “usabile”.
Entra nel progetto Disegno di protocolli per la validazione e valutazione di RL e strumenti di base, per assicurarne la qualità; partecipazione e preparazione di campagne di valutazione internazionali.(ELRA Validazione e SENSEVAL)
Entra nel progetto Utilizzo e adattamento di risorse e strumenti di base in applicazioni mono e multi-lingui (sommarizzazione, “filtering”, estrazione, classificazione, recupero di informazioni, “text-mining”, “question-answering”, traduzione, editoria, ecc.) (POESIA).
Entra nel progetto Disegno di strategie per la distribuzione, e di “roadmap” per le RL, attraverso la partecipazione al Board di ELRA, a ELSNET IV, ed EUROMAP.
Entra nel progetto Coordinamento di attività nazionali in europa, attraverso ENABLER
Entra nel progetto Corpus e Lessico di Frequenza dell'Italiano Scritto Contemporaneo (CoLFIS)
Modelli e metodi per il trattamento delle lingue naturali e prototipi applicativi mono e multilingui
Questa tematica ha per obiettivo la creazione di un ciclo virtuoso di analisi teorica, progettazione, sperimentazione, prototipazione e metodologia per le principali aree di ricerca e applicazione del TAL. Il ciclo beneficia dell’interazione di due importanti prospettive teoriche. Attraverso lo sviluppo di modelli computazionali simbolici, deterministici o stocastici, il linguaggio è trattato come un insieme relativamente stabile e costante di principi di elaborazione e conoscenze strutturate, da utilizzare per una grande varietà di scopi e applicazioni. D’altro lato, lo sviluppo di modelli computazionali ha come obiettivo lo studio del linguaggio come sistema complesso, soggetto a una dinamica spazio-temporale all’interno della quale principi di strutturazione e interazione locali si ripercuotono in modo incrementale sull’organizzazione globale dei dati e sulle strategie di apprendimento ed uso del linguaggio.
Riassumiamo qui di seguito le attività principali riconducibili a questa tematica:

Entra nel progetto Modelli e metodi per l’apprendimento e la acquisizione automatica di conoscenze linguistiche (“machine learning”), modelli dinamici del linguaggio; induzione di modelli computazionali del linguaggio scritto e parlato.
Entra nel progetto Architetture e sistemi integrati per analisi/generazione della lingua (componenti per parser, grammatiche formali, generatori, transfer tra lingue, ecc.).
Entra nel progetto Implementazione di strumenti didattici multimediali, aperti, flessibili e marcatamente interattivi, per l’integrazione di allievi disabili nella scuola comune.
Entra nel progetto Studio e sviluppo di modelli e prototipi per utilizzi applicativi delle tecnologie linguistiche: “information extraction and filtering”, “document and information retrieval”, interfacce linguistiche per scritto e parlato, comunicazione multimodale, generazione multilingue di documenti, sommarizzazione, traduzione (semi) automatica, correttori automatici, didattica e disabilità, ecc.
Entra nel progetto Metodologie e tecnologie della lingua per ricerche e applicazioni nel settore CLIR (Cross Language Information Retrieval).
Entra nel progetto Ingegnerizzazione di prototipi ed applicativi per realizzare un insieme di risorse e strumenti linguistici integrati da offrire alla comunità nazionale ed internazionale per attività di ricerca, di sviluppo industriale e per attività di commercio.
Modelli e strumenti computazionali per la ricerca umanistica, con particolare riguardo alle discipline linguistiche, filologiche e alla lessicografia
È di estrema importanza coniugare gli aspetti tecnologici derivanti dalle ricerche nel settore Linguistico Computazionale con il vasto dominio della ricerca letteraria, filologica, e linguistico-lessicografica. Il ruolo pionieristico che l’ILC ha ricoperto in questo settore fin dai primissimi anni ’70 si è evoluto conseguentemente allo sviluppo della tecnologia dell’hardware e del software, intervenendo con proposte e con modelli che sono stati seguiti in sede non solo nazionale, ma anche dai maggiori operatori internazionali in questo settore degli studi.
A questa area tematica fanno riferimento le seguenti attività:

Entra nel progetto Disegno e sviluppo di metodi e strumenti di accesso e gestione per basi di dati linguistici e testuali, sia per utilizzazioni in ambito umanistico, sia per applicazioni nell’ambito dell’industria delle lingue.
Entra nel progetto Applicazioni di metodi e tecnologie della lingua nello studio di autori, lingue speciali, varietà linguistiche, socio-linguistiche e dialettali.
Entra nel progetto Creazione di un insieme di modelli, metodi, strumenti software e dati sperimentali tramite l’integrazione di tecnologie della lingua, del trattamento del testo, delle immagini, della multimedialità e dell'intelligenza artificiale , per offrire a ricercatori umanisti, in particolare filologi, un più agevole ed efficace strumento di analisi.
Entra nel progetto Creazione di metodi e strumenti di accesso e gestione per basi di dati integrate nel settore delle biblioteche digitali, nell’ambito dei beni culturali (in primis il settore dei periodici), per fornire nuovi strumenti per la catalogazione, per la salvaguardia del bene librario e per il loro accesso e navigazione.
Entra nel progetto Sviluppo di un sistema di Filologia Computazionale (in versione stand alone e Web based) per la gestione degli apparati critici, sia in ambito papirologico che filologico-medievale, ed integrazione con analizzatori morfologici del latino e del greco classico.
Entra nel progetto Creazione di un modulo OCR (riconoscimento caratteri) per i testi a stampa antichi.
Entra nel progetto Analisi di archivi di immagini di ostraka redatti in caratteri demotici.
Entra nel progetto Continuazione dell’attività relativa all’iniziativa BIBLOS: biblioteca virtuale degli organi umanistici del CNR.
webmaster
24/06/2003