Tanti testi, lessici e dizionari italiani a portata di click e in grado d’interagire tra loro, un ponte tra parole e sapere che permette di vedere, e quindi prevedere, dove quei termini sono e saranno usati (insomma dove ricorrono: tecnicamente, le loro ‘occorrenze’), una rete che collega le risorse linguistiche italiane, permettendo loro di dialogare e rivelare nuove prospettive, con la possibilità di costruire modelli di intelligenza artificiale specifici per compiere analisi linguistiche avanzate, uno straordinario osservatorio sulla massa dei dati digitali, sia testuali che lessicali, per la lingua italiana: questo e molto altro è il cuore del progetto LiITA (Linking Italian), che si concentra sulla creazione di una base di conoscenza (Knowledge Base, KB) interoperabile per le risorse linguistiche italiane (dai dizionari ai testi, antichi e moderni), seguendo i principi dei dati collegati (Linked Data) utilizzati nel Web Semantico.
Il progetto LiITA è stato presentato a "CLiC-it 2024 – Tenth Italian Conference on Computational Linguistics", la decima conferenza italiana sulla linguistica computazionale che si è svolto a Pisa dal 4 al 6 dicembre 2024. Il progetto sarà anche oggetto di una pubblicazione dal titolo The Lemma Bank of the LiITA Knowledge Base of Interoperable Resources for Italian, che apparirà sui Proceedings della conferenza CLiC-it.
Supportato dal Ministero dell’Università e Ricerca con un finanziamento PRIN-2022 PNRR per un ammontare complessivo di 237.695 euro, il progetto LiITA è condotto dall’Università Cattolica del Sacro Cuore, campus di Milano, con la coordinazione della dottoressa Eleonora Litta e in collaborazione con l’Università di Torino.
«L’architettura della Knowledge Base di LiITA è molto semplice e trasferibile a ogni lingua – spiega il professor Marco Passarotti, professore ordinario di Linguistica Computazionale presso la Facoltà di Scienze Linguistiche e Letterature Straniere della Cattolica –. Il cuore di LiITA è una grande raccolta di lemmi, ovvero forme canoniche di citazione delle parole (come i nomi delle entrate lessicali nei dizionari): a ciascun lemma saranno connesse sul web le sue occorrenze nei vari corpora testuali dell’italiano linkati alla Knowledge Base, così come le sue entrate nei vari lessici e dizionari». «Il risultato sarà un grande grafo di conoscenza fatto di nodi (come, ad esempio, i lemmi e le loro occorrenze) e di relazioni tra essi» – precisa l’esperto.
«Questo grafo potrà, quindi, essere utilizzato non solo per estrarre informazione dalle risorse linguistiche rese interoperabili da LiITA, ma anche per raffinare (fine-tuning) la conoscenza dei modelli di intelligenza artificiale, supportando lo sviluppo di applicazioni specifiche per l’analisi della lingua italiana utili in diversi campi: dalla ricerca all’editoria, dalla medicina al mondo del web» – aggiunge.
«Con progetti di questo tipo, che fanno incontrare dati e tecnologia – sottolinea il professor Passarotti – facciamo fronte a una svolta nella linguistica resa evidente e inevitabile dalla diffusione dell’Intelligenza Artificiale, che è fondata proprio su modelli del funzionamento del linguaggio naturale: stiamo assistendo alla prima rivoluzione industriale-tecnologica che tocca l’oggetto più umanistico di sempre, il linguaggio. La disciplina che lo studia non può ignorarla».
Il nuovo approccio guarda alla didattica di domani e ricorda che è questo il momento di innovare, anche per annullare il pericoloso trend di abbandono dello studio della linguistica. Lo dicono i dati, infatti solo per i corsi di laurea in Mediazione linguistica, Scienze linguistiche; Scienze linguistiche per le relazioni internazionali la riduzione degli iscritti dall’ultimo anno accademico (2023-24) al precedente (2022-23) è stata mediamente del 9,4% negli atenei italiani che da Nord a Sud offrono quei corsi; e riduzioni simili si hanno anche per lingue e letterature moderne e altre discipline umanistiche.
Ma, nell’era dell’intelligenza artificiale, la linguistica è il presente e il futuro: il suo studio aprirà le porte a nuove tecnologie utili in tutti i settori.
IL PROGETTO LILA
Il progenitore di LiITA è stato LiLa (Linking Latin), un progetto analogo ma basato su risorse per la lingua latina. Coordinato dal professor Passarotti, grazie a un finanziamento di 2 milioni di euro da parte del Consiglio Europeo della Ricerca, LiLa ha sviluppato una raccolta di più di 200 mila lemmi e ha reso interoperabili decine di risorse linguistiche per il latino. La Knowledge Base di LiLa è tuttora in continua espansione.
Le risorse linguistiche distribuite per il latino (corpora, dizionari, risorse lessicali) sono state integrate da LiLa in una struttura unificata, utilizzando i lemmi come nodo centrale per collegare dati provenienti da fonti diverse. «A ogni lemma – spiega il professore – occorrenza di parola nei testi ed entrata lessicale nei dizionari è assegnato un identificatore unico e persistente, consentendo così la loro interazione sulla base di relazioni il cui significato è processabile dalle macchine. L’architettura di LiLa è indipendente dalla lingua e può essere adottata per qualsiasi idioma, tutto è fatto a triple: un soggetto un oggetto e una relazione».
«La bellezza di basi di conoscenza come LiLa o LiITA – precisa il professor Passarotti – è che possono essere usate come fonte di dati, metadati e relazioni esplicite tra essi per raffinare modelli di intelligenza artificiale».