I sistemi di intelligenza artificiale, ad esempio ChatGPT, imparano come noi umani il significato delle parole osservando i contesti linguistici in cui sono usate. La scienza che studia tutto questo (e non solo) si chiama semantica distribuzionale, disciplina che ha trovato la sua prima trattazione completa nel volume Distributional Semantics della Cambridge University Press scritto da Alessandro Lenci dell’Università di Pisa e da Magnus Sahlgren di Artificial Intelligence Sweden.
“Come i computer anche noi impariamo molti concetti osservando come le parole sono usate nei contesti linguistici, e questo è uno dei fattori fondamentali del potere creativo della mente umana – spiega Alessandro Lenci -. Questo rende la semantica distribuzionale un’affascinante area di ricerca che combina prospettive teoretiche, computazionali e cognitive per lo studio del linguaggio e la sua applicazione per sviluppare sistemi artificiali intelligenti”.
Ma per capire come funziona il meccanismo del contesto prendiamo l’ipotetica parola “blimp”. Dalla frase “Ho appena bevuto del blimp ghiacciato”, si può capire facilmente che si deve trattare di un qualche tipo di liquido. Se invece la stessa parola si trovasse nella frase “Un blimp ha abbaiato tutta la notte”, è chiaro che “blimp” si riferisce a un animale, molto probabilmente ad un tipo di cane. Questi semplici casi illustrano il principio in base al quale funzionano i modelli computazionali di semantica distribuzionale: imparano il significato delle parole e di altre espressioni linguistiche andando ad analizzare con metodi statistici e matematici i contesti in cui sono usati e le altre parole che ricorrono con esse.
“Questo tipo di metodo distribuzionale – conclude Lenci – fa parte anche del modo con cui bambini e adulti imparano i significati di molte parole arricchendo così il loro lessico, ed è lo stesso principio su cui si basano sistemi come ChatGPT per acquisire le loro conoscenze, che poi usano per rispondere alle nostre domande”.
Alessandro Lenci è professore ordinario di Linguistica computazionale al Dipartimento di Filologia, Letteratura e Linguistica dell’Ateneo pisano e direttore del Laboratorio di Linguistica Computazionale (CoLing Lab). I suoi principali interessi di ricerca riguardano la linguistica computazionale, l’elaborazione del linguaggio naturale, la semantica e le scienze cognitive.
I suoi insegnamenti sono Linguistica Computazionale nel Corso di Laurea in Informatica Umanistica e Linguistica Applicata nel Corso di Laurea Magistrale in Linguistica. E’ inoltre membro del Dottorato in Studi Linguistici e Letterature Straniere (Curriculum in Linguistica).