home  
Utente: guest
Versione Stampabile
Cerca
Home Page

ItalWordNet

ItalWordNet (IWN) è un database semantico-lessicale sviluppato nell'ambito di due progetti di ricerca distinti: EuroWordNet (EWN)1 e Sistema Integrato per il Trattamento Automatico del Linguaggio (SI-TAL), un progetto nazionale dedicato alla creazione di ampie risorse linguistiche e di strumenti software per l'elaborazione dell'italiano scritto e parlato.

Tra le risorse sviluppate in SI-TAL, IWN è stato costruito come database semantico di riferimento, estendendo il wordnet italiano sviluppato nel progetto EWN.

Nell'ambito di EWN, è stato progettato un modello linguistico che offre una ricca serie di relazioni semantiche [Alonge et al. 1998] ed è stato codificato il primo nucleo di dati (verbi e sostantivi) [Roventini et al. 1998].

Il wordnet è strutturato nello stesso modo del Princeton WordNet2, vale a dire attorno alla nozione di synset o gruppo di sensi sinonimi tra loro (secondo un concetto di sinonimia molto ampio: i sensi devono essere intercambiabili in almeno un contesto).

Oltre alle relazioni linguistiche interne, sono state codificate anche le relazioni di equivalenza tra i synset italiani e i concetti ad essi più strettamente correlati in un Inter-Lingual Index (ILI), un modulo separato indipendente dalla lingua contenente tutti i synset di WN1.5 ma non le loro interrelazioni.

Durante il progetto SI-TAL, questo wordnet č stato migliorato ed esteso sia con l'aggiunta di sostantivi e verbi non ancora codificati in EWN, sia mediante la codifica di aggettivi, avverbi e nomi propri, identificando anche alcune relazioni aggiuntive, principalmente per codificare dati sugli aggettivi (si veda: [Alonge et al. 2000], [Roventini et al 2000]3, [Marinelli e Roventini 2002]4 e [Roventini et al. 2003].

Nella sua versione generica, il database IWN è ora costituito da:

  • un wordnet contenente circa 47.000 lemmi, 50.000 synset e 130.000 relazioni semantiche (tra le relazioni codificate le più importanti sono le seguenti: iperonimia/iponimia, antonimia, meronimia, relazioni di causa, relazioni di ruolo etc.);
  • un Inter-Lingual Index (ILI), che è una versione non strutturata di WN1.5:
    questo modulo, usato in EWN per collegare wordnet di diverse lingue, è stato mantenuto anche in IWN per rendere la risorsa utilizzabile in applicazioni multilingue;
  • la Top Ontology (TO), una gerarchia di concetti indipendenti dalla lingua, che riflette fondamentali distinzioni semantiche, costruita nell'ambito di EWN e parzialmente modificata in IWN per spiegare gli aggettivi (non trattati in EWN):
    la TO è costituita da aspetti indipendenti dalla lingua, che possono (o non possono) essere lessicalizzati in vari modi, o secondo diversi modelli, in diverse lingue [Rodriguez et al. 1998]; attraverso l'ILI, tutti i concetti del wordnet sono direttamente o indirettamente collegati alla TO.

Dal 2003 è in fase di realizzazione un wordnet terminologico relativo al dominio della navigazione e del trasporto marittimo e collegato al wordnet generico IWN [Marinelli et al. 2004]5.

Il database IWN viene continuamente aggiornato e migliorato presso l'ILC. In particolare, sono stati fatti studi sui nomi propri e le loro estensioni d’uso (metaforico e metonimico) osservabili sul corpus di riferimento dell’Italiano [Marinelli et al. 2005]6.

Per ulteriori informazioni, non esitate a contattare Adriana Roventini o Rita Marinelli.


1 Per ulteriori informazioni su EWN si veda il sito Web del progetto (URL: http://www.illc.uva.nl/EuroWordNet/) e il numero della rivista Computers and Humanities dedicato al progetto (Vol. 32, Nos. 2-3, 1998).

2 Miller G., Beckwith R., Fellbaum C., Gross D., Miller K. (1993), "Introduction to WordNet: an On-Line Lexical Database", ms. (una revisione dell'articolo è apparsa in Fellbaum C. (ed.), Wordnet: a Lexical Reference System and its Applications, Cambridge, Mass., MIT Press, 1998).

3 Roventini A., Alonge A., Calzolari N., Magnini B., Bertagna F. (2000), “ItalWordNet: a Large Semantic Database for Italian”, in Proceedings of the 2nd International Conference on Language Resources and Evaluation (LREC 2000), Athens, Greece, 31 May – 2 June 2000, Volume II, Paris, The European Language Resources Association (ELRA), 783-790.

4 Marinelli R. and Roventini A. (2002), “ Proper Names in a Semantic Database”, in Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC 2002), Las Palmas de Gran Canaria, Spain, 29-30-31 May 2002, Volume II, Paris, The European Language Resources Association (ELRA), 993-997.

5 Marinelli R., Roventini A., Enea A. (2004), “Building a Maritime Domain Lexicon: a Few Considerations on the Database Structure and the Semantic Coding”, in Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC 2004), held in Memory of Antonio Zampolli, Lisbon, Portugal, 26-27-28 May 2004, Volume II, Paris, The European Language Resources Association (ELRA), 465-468.

6 Marinelli R., Bindi R., Roventini A. (2005), “Metonymic and Metaphorical Uses of Proper Names”, in Atti del IX Simposio Internacional de Comunicación Social, Santiago de Cuba, 24-28 de Enero de 2005, 630-634.

Ulteriori Informazioni
Sito Web Progetto (in corso di ristrutturazione)
Database IWN (in corso di aggiornamento)

@

Documenti Progetto
Entra nel progetto
ItalWordNet - Manuale Operativo
[pdf] [zip]
Entra nel progetto
Software di Gestione per ItalWordNet - Manuale per l'Utente
[pdf] [zip]
Entra nel progetto
Risultati della Validazione della Risorsa e del Software ItalWordNet
[pdf] [zip]

@

Staff Progetto
Adriana Roventini
Rita Marinelli
Francesca Bertagna
Alessandro Enea

@

16/02/2007