Introduzione
Il linguaggio è la tecnologia più potente mai creata dall'umanita. Non un'invenzione meccanica, non un algoritmo, ma il sistema simbolico che ci permette di trasmettere pensiero, costruire civilta, coordinare milioni di persone verso obiettivi comuni. Ogni contratto, ogni legge, ogni poesia, ogni formula scientifica esiste prima di tutto come linguaggio.
Il sogno di insegnare alle macchine a comprendere il linguaggio umano è antico quanto l'informatica stessa. Quando Alan Turing, nel 1950, propose il suo celebre test di intelligenza, lo formulo proprio come un problema linguistico: se una macchina può conversare in modo indistinguibile da un essere umano, possiamo considerarla intelligente?
Da allora, tre grandi paradigmi si sono succeduti nell'elaborazione del linguaggio naturale, ciascuno rivoluzionario, ciascuno portatore di intuizioni profonde e di punti ciechi ereditati dal precedente. Questa è la storia di come siamo passati dalle grammatiche formali di Chomsky ai Large Language Models che oggi rispondono alle nostre domande.
Tre paradigmi, un'unica sfida: il passaggio dalle regole scritte a mano (simbolico) alla statistica sui dati (probabilistico) fino alle reti neurali profonde (connessionista) non è stato lineare. Ogni transizione ha portato guadagni enormi, ma anche perdite sottili di comprensione teorica.
Le grammatiche formali: Chomsky e il paradigma simbolico (1950-1990)
Nel 1957, un giovane linguista del MIT pubblico un libro destinato a cambiare sia la linguistica che l'informatica: Syntactic Structures. Noam Chomsky propose che il linguaggio umano non fosse un insieme caotico di abitudini apprese per imitazione, come sosteneva il comportamentismo dominante, ma un sistema governato da regole formali precise, una grammatica generativa in grado di produrre tutte e sole le frasi grammaticali di una lingua.
-- Noam Chomsky, Syntactic Structures, 1957. Una frase grammaticalmente perfetta ma semanticamente assurda, usata per dimostrare che la sintassi è indipendente dal significato.
La gerarchia di Chomsky classifico le grammatiche formali in quattro livelli di complessita crescente: grammatiche regolari, context-free, context-sensitive e ricorsivamente enumerabili. Questa tassonomia divenne fondamentale non solo per la linguistica, ma per l'intera teoria della computazione: i linguaggi di programmazione, i parser, i compilatori -- tutto si fonda su quei concetti.
I primi sistemi NLP
L'entusiasmo per le grammatiche formali genero i primi tentativi concreti di far "parlare" le macchine.
- 1ELIZA (1966) -- Joseph Weizenbaum creo al MIT un programma che simulava uno psicoterapeuta rogersiano. ELIZA funzionava con semplici regole di pattern matching: riconosceva parole chiave e riformulava le frasi dell'utente come domande. Nonostante la sua semplicita, molti utenti si convinsero di parlare con un'entita davvero comprensiva -- un fenomeno che Weizenbaum stesso trovo allarmante.
- 2SHRDLU (1971) -- Terry Winograd costrui un sistema capace di comprendere comandi in inglese riferiti a un "mondo di blocchi" virtuale. SHRDLU poteva capire frasi come "Put the red block on top of the blue one" e eseguire l'azione. Ma funzionava solo in quel micro-mondo: il linguaggio naturale nella sua pienezza restava fuori portata.
- 3Sistemi esperti e NLP simbolico (1970-1990) -- Per due decenni, ricercatori di tutto il mondo tentarono di codificare la conoscenza linguistica in regole esplicite: dizionari semantici, ontologie, grammatiche sempre più complesse. Il progetto Cyc, avviato nel 1984, si proponeva di formalizzare tutto il "buon senso" umano.
La promessa e il fallimento
Il paradigma simbolico aveva una visione nobile: comprendere il linguaggio significava catturarne le regole profonde. Ma il linguaggio naturale si rivelo troppo vasto, troppo ambiguo, troppo dipendente dal contesto per essere domato con regole scritte a mano. Ogni eccezione richiedeva nuove regole, ogni nuova regola creava nuove eccezioni. I sistemi diventavano fragili, costosi da mantenere e incapaci di gestire il linguaggio reale -- quello pieno di errori, slang, ironia, impliciti culturali.
L'eredita del paradigma simbolico: anche se i sistemi basati su regole non scalavano, Chomsky ci lascio un'intuizione fondamentale: il linguaggio ha una struttura, non è rumore casuale. Questa idea -- che sotto la superficie caotica del parlato ci siano pattern regolari -- è esattamente ciò che i modelli statistici e neurali avrebbero poi imparato a catturare in modo diverso.
La svolta statistica (1990-2010)
Alla fine degli anni Ottanta, un cambiamento filosofico radicale investi l'elaborazione del linguaggio. Il motore del cambiamento non furono i linguisti, ma gli ingegneri -- in particolare quelli dei laboratori IBM che lavoravano al riconoscimento vocale.
-- Frederick Jelinek, IBM, anni '80. Una provocazione che sintetizza lo scontro tra linguistica teorica e approccio empirico.
La battuta di Jelinek, per quanto provocatoria, conteneva una verita profonda: invece di cercare di capire il linguaggio, bastava modellarne le statistiche. Se un sistema poteva prevedere quale parola veniva dopo quale con sufficiente accuratezza, il risultato pratico era eccellente -- anche senza alcuna "comprensione" linguistica.
I modelli fondamentali
La rivoluzione statistica porto con se una serie di strumenti matematici che dominarono il campo per vent'anni.
La probabilita delle sequenze
Un modello n-gram stima la probabilita di una parola in base alle n-1 parole precedenti. Un bigramma guarda una parola indietro, un trigramma due. Semplice, ma sorprendentemente efficace per il riconoscimento vocale e la correzione ortografica.
Stati nascosti del linguaggio
Gli HMM modellano il linguaggio come una sequenza di stati nascosti (ad esempio categorie grammaticali) che generano osservazioni (parole). Fondamentali per il POS tagging e il riconoscimento vocale.
Il testo come sacco di parole
Bag-of-words ignora l'ordine delle parole e rappresenta un documento come la frequenza dei suoi termini. TF-IDF pesa ogni termine per la sua rilevanza nel corpus. Alla base della ricerca documentale per decenni.
Da IBM alla prima Google Translate
I modelli IBM (1990-1993) e poi le prime versioni di Google Translate (2006) usavano allineamenti statistici tra frasi parallele. Non capivano la grammatica, ma producevano traduzioni usabili sfruttando enormi corpora bilingui.
Il cambio di filosofia
La svolta statistica non fu solo un cambiamento tecnico: fu un cambio di paradigma epistemologico. Si passo da "comprendi il linguaggio e poi lo elaborerai" a "modella i pattern del linguaggio e l'elaborazione verra da se". Questa filosofia -- lasciar parlare i dati, rinunciare alla comprensione esplicita in favore della predizione -- avrebbe raggiunto la sua espressione più estrema con i Large Language Models di oggi.
Il trade-off fondamentale: i metodi statistici guadagnarono in copertura e robustezza ciò che persero in eleganza teorica. Un modello n-gram non sa cos'è un verbo, ma prevede la parola successiva meglio di qualsiasi grammatica formale applicata al linguaggio reale. È nella pratica ingegneristica, la performance vinse sulla teoria.
Word embeddings: le parole diventano numeri
Per decenni, un problema fondamentale aveva afflitto tutti i modelli NLP: come rappresentare le parole in modo che una macchina possa elaborarle? Nel modello bag-of-words, "cane" e "gatto" sono tanto diversi quanto "cane" e "democrazia" -- ogni parola è un indice in un vocabolario, senza alcuna relazione semantica con le altre.
Nel 2013, un team di ricercatori di Google guidato da Tomas Mikolov pubblico Word2Vec, un metodo per apprendere rappresentazioni vettoriali delle parole -- i cosiddetti word embeddings. L'idea era elegante nella sua semplicita: addestra una rete neurale poco profonda a prevedere una parola dal suo contesto (o viceversa), e usa i pesi interni della rete come rappresentazione della parola.
-- John Rupert Firth, 1957. L'ipotesi distribuzionale: il significato di una parola è determinato dalle parole che le stanno intorno.
Il risultato fu sorprendente. Le parole venivano mappate in uno spazio vettoriale dove la vicinanza geometrica rifletteva la vicinanza semantica. "Re" e "regina" erano vicini. "Parigi" e "Francia" erano vicini. Ma il fenomeno più stupefacente era un altro: le relazioni tra parole venivano catturate come direzioni nello spazio.
L'aritmetica del significato
La scoperta che catapulto Word2Vec nell'immaginario collettivo fu l'aritmetica vettoriale delle parole:
King - Man + Woman = Queen
Sottraendo il vettore "uomo" da "re" e aggiungendo "donna", il risultato più vicino era "regina". Il modello aveva catturato la relazione di genere come una direzione nello spazio semantico -- senza che nessuno glielo avesse insegnato esplicitamente.
Questa proprieta valeva per molte relazioni: capitale-nazione (Parigi:Francia = Roma:Italia), tempo verbale (camminare:camminato = nuotare:nuotato), comparativi (buono:migliore = grande:maggiore).
Oltre Word2Vec
Word2Vec apri un'ondata di ricerca sugli embeddings:
- GloVe (Pennington et al., 2014) -- sviluppato a Stanford, combinava le statistiche globali di co-occorrenza con l'apprendimento locale, producendo embeddings spesso superiori a Word2Vec.
- FastText (Bojanowski et al., 2016) -- sviluppato da Facebook AI, lavorava a livello di sotto-parole (n-grammi di caratteri), consentendo di gestire parole mai viste e lingue morfologicamente ricche come l'italiano.
Il limite fondamentale di tutti questi modelli era pero lo stesso: ogni parola aveva un unico vettore, indipendentemente dal contesto. La parola "banco" aveva la stessa rappresentazione in "il banco di scuola" e "il banco di Napoli". Superare questo limite sarebbe stato il passo successivo.
La rivoluzione delle reti neurali (2010-2017)
Mentre i word embeddings insegnavano alle macchine che le parole hanno relazioni geometriche, un'altra rivoluzione prendeva forma: il deep learning -- l'uso di reti neurali con molti strati -- stava trasformando la visione artificiale e il riconoscimento vocale. Era solo questione di tempo prima che investisse anche il NLP.
RNN: leggere parola per parola
Le Reti Neurali Ricorrenti (RNN) furono il primo tentativo di applicare il deep learning alle sequenze di testo. A differenza delle reti tradizionali, una RNN elabora il testo parola per parola, mantenendo uno "stato nascosto" che funge da memoria delle parole precedenti. In teoria, questo permetteva di catturare dipendenze a lungo raggio nel testo.
In pratica, le RNN soffrivano del problema del vanishing gradient: durante l'addestramento, il segnale di errore si dissolveva attraverso i passaggi temporali, rendendo impossibile apprendere relazioni tra parole distanti.
LSTM e GRU: la memoria selettiva
La soluzione arrivo con le LSTM (Long Short-Term Memory, Hochreiter e Schmidhuber, 1997) e le GRU (Gated Recurrent Unit, Cho et al., 2014). Queste architetture introdussero meccanismi di "porte" (gates) che controllavano quali informazioni conservare e quali dimenticare, consentendo alla rete di mantenere informazioni rilevanti attraverso sequenze lunghe.
- 1Forget gate: decide quali informazioni dello stato precedente eliminare
- 2Input gate: decide quali nuove informazioni incorporare
- 3Output gate: decide cosa dello stato interno rendere visibile all'uscita
Sequence-to-sequence e attenzione
Nel 2014, Sutskever, Vinyals e Le proposero l'architettura sequence-to-sequence (seq2seq): un encoder LSTM legge la frase di input e la comprime in un vettore, un decoder LSTM genera la frase di output a partire da quel vettore. Questo modello divenne la base della traduzione automatica neurale.
Ma c'era un collo di bottiglia: tutta l'informazione della frase sorgente doveva passare attraverso un singolo vettore. Nel 2014, Bahdanau, Cho e Bengio proposero il meccanismo di attenzione: invece di comprimere tutto in un vettore, il decoder poteva "guardare indietro" a tutte le posizioni della frase sorgente, pesando dinamicamente quali parti fossero più rilevanti per ogni parola da generare.
L'attenzione fu la svolta decisiva. Liberando il modello dal collo di bottiglia del vettore singolo, l'attenzione migliorava sia l'accuratezza delle traduzioni sia la capacita del modello di gestire frasi lunghe. Ma soprattutto, l'attenzione conteneva il seme di una rivoluzione molto più grande.
ELMo: il contesto cambia tutto
Nel 2018, Peters et al. introdussero ELMo (Embeddings from Language Models). A differenza di Word2Vec, ELMo generava rappresentazioni contestuali: la stessa parola otteneva vettori diversi in frasi diverse. "Banco" in "il banco di scuola" e "il banco ti presta denaro" avrebbero finalmente avuto rappresentazioni distinte. ELMo utilizzo LSTM bidirezionali addestrate come modello di linguaggio, e segno il tramonto degli embeddings statici.
Transformer e la rivoluzione del 2017
Il 12 giugno 2017, un team di Google Brain e Google Research pubblico un paper dal titolo provocatoriamente semplice: Attention Is All You Need. Vaswani, Shazeer, Parmar e colleghi proposero un'architettura che eliminava completamente le reti ricorrenti, basandosi unicamente sul meccanismo di attenzione. La chiamarono Transformer.
-- Vaswani et al., 2017. Il titolo del paper più influente dell'ultimo decennio di AI.
L'intuizione chiave: invece di elaborare il testo sequenzialmente (parola dopo parola, come le RNN), il Transformer elabora tutte le parole in parallelo, usando la self-attention per calcolare le relazioni tra ogni coppia di parole nella sequenza. Ogni parola "guarda" tutte le altre e decide a quali prestare attenzione.
Perché il Transformer vinse
- Parallelismo: l'elaborazione parallela sfruttava le GPU moderne in modo massimamente efficiente, riducendo drasticamente i tempi di addestramento.
- Dipendenze a lungo raggio: la self-attention collegava direttamente parole distanti nella frase, senza dover "passare attraverso" tutte le parole intermedie come nelle RNN.
- Scalabilita: l'architettura si prestava naturalmente a essere ingrandita: più strati, più teste di attenzione, più parametri. E con più scala arrivava più capacita.
BERT: comprendere in entrambe le direzioni
Nell'ottobre 2018, Google pubblico BERT (Bidirectional Encoder Representations from Transformers). BERT usava solo la parte encoder del Transformer e veniva pre-addestrato con un obiettivo ingegnoso: masked language modeling. Si mascheravano parole casuali in una frase e il modello doveva prevederle, usando il contesto sia a sinistra che a destra. Questo lo rendeva bidirezionale, a differenza dei modelli di linguaggio tradizionali che leggevano solo da sinistra a destra.
BERT stabili nuovi record su praticamente tutti i benchmark NLP esistenti e introdusse il paradigma pre-train / fine-tune: prima si pre-addestra un grande modello su enormi quantita di testo non etichettato, poi lo si specializza (fine-tune) su un compito specifico con pochi dati etichettati.
GPT: generare parola dopo parola
Quasi contemporaneamente, OpenAI imbocco la strada opposta con la serie GPT (Generative Pre-trained Transformer). GPT usava solo la parte decoder del Transformer, addestrata con un obiettivo più semplice: prevedere la prossima parola. Un modello autoregressivo che generava testo una parola alla volta, condizionato su tutto il testo precedente.
Encoder bidirezionale
Legge il testo in entrambe le direzioni. Eccelle nella comprensione: classificazione, estrazione di informazioni, question answering. Pre-addestrato con masked language modeling.
Decoder autoregressivo
Legge da sinistra a destra e genera la parola successiva. Eccelle nella generazione: scrittura, conversazione, ragionamento. Pre-addestrato con next-token prediction.
Una rivoluzione silenziosa: il Transformer non ha semplicemente migliorato le prestazioni sui benchmark. Ha reso quasi obsolete, nel giro di mesi, tutte le tecniche NLP precedenti: regole manuali, n-grammi, HMM, RNN, LSTM. Non era un miglioramento incrementale, era un cambio di paradigma che ha ridisegnato l'intero campo.
I Large Language Models
A partire dal 2020, un fenomeno inaspettato comincio a emergere: non solo i Transformer funzionavano bene, ma funzionavano sempre meglio man mano che diventavano più grandi. Più parametri, più dati di addestramento, più compute -- e le prestazioni salivano in modo prevedibile, seguendo quelle che i ricercatori di OpenAI battezzarono scaling laws.
La corsa alla scala
- 1GPT-2 (2019): 1.5 miliardi di parametri. OpenAI lo considero "troppo pericoloso" per rilasciarlo integralmente, temendo usi malevoli nella generazione di disinformazione.
- 2GPT-3 (2020): 175 miliardi di parametri. Mostro capacita sorprendenti di in-context learning: poteva eseguire compiti nuovi semplicemente a partire da pochi esempi nel prompt, senza fine-tuning.
- 3ChatGPT (2022): basato su GPT-3.5, ottimizzato con RLHF (Reinforcement Learning from Human Feedback). Raggiunse 100 milioni di utenti in due mesi, il lancio più rapido della storia.
- 4GPT-4 (2023): multimodale (testo e immagini), prestazioni vicine al livello umano su molti test professionali.
- 5Claude, Llama, Gemini (2023-2025): Anthropic, Meta e Google entrarono nella competizione con modelli di pari livello, dimostrando che l'approccio scalava indipendentemente dal laboratorio.
Emergenza e in-context learning
Il fenomeno più discusso e controverso dei LLM è l'emergenza: capacita che appaiono solo oltre una certa scala, assenti nei modelli più piccoli. La catena di ragionamento (chain-of-thought), la capacita di programmare, la traduzione tra lingue mai viste esplicitamente -- queste abilita sembravano "emergere" spontaneamente con l'aumento dei parametri.
L'in-context learning è altrettanto sorprendente: un LLM può "imparare" un nuovo compito semplicemente vedendo alcuni esempi nel prompt, senza modificare i propri pesi. È come se il modello avesse appreso non solo il linguaggio, ma un meta-algoritmo per apprendere da pochi esempi.
Il paradosso dei LLM: l'obiettivo di addestramento è disarmante nella sua semplicita -- prevedere il prossimo token. Eppure, da questo obiettivo elementare, emergono comportamenti complessi: ragionamento, creativita, capacita di seguire istruzioni articolate. Come sia possibile che la "semplice" predizione statistica produca competenze così sofisticate resta una delle domande più profonde dell'AI contemporanea.
Il pendolo tra linguistica e statistica
Guardando i sessant'anni di storia dell'elaborazione del linguaggio, emerge un pattern affascinante: il campo ha oscillato come un pendolo tra due poli filosofici opposti.
Approccio simbolico e linguistico
Le regole vengono prima. Il linguaggio ha una struttura formale che va scoperta e codificata. La comprensione precede l'elaborazione. Chomsky, grammatiche formali, sistemi esperti, ontologie.
Approccio statistico e neurale
I dati vengono prima. Il linguaggio è un fenomeno empirico i cui pattern vanno estratti automaticamente. La performance precede la comprensione. N-grammi, word embeddings, Transformer, LLM.
Negli anni '50-'80, il pendolo era al polo simbolico. Negli anni '90, oscillo verso la statistica. Con i Transformer e i LLM, è ora completamente al polo empirico-neurale. Ma siamo sicuri che restera li?
I segnali di una nuova oscillazione
Diversi segnali suggeriscono che il pendolo potrebbe tornare verso il centro:
- Approcci neuro-simbolici: sistemi che combinano reti neurali con ragionamento simbolico, cercando di unire la flessibilita del deep learning con la rigore della logica formale.
- Interpretabilita: la crescente domanda di capire perché un modello produce una certa risposta sta riportando l'attenzione sulla struttura interna dei modelli.
- Grammatiche indotte: ricerche recenti mostrano che i Transformer apprendono implicitamente strutture grammaticali simili a quelle di Chomsky -- forse la linguistica formale non era sbagliata, solo prematura.
- Limiti dello scaling: l'aumento indefinito della scala incontra limiti pratici (costi, energia, dati disponibili) che potrebbero richiedere approcci più strutturati.
-- La sfida degli approcci neuro-simbolici contemporanei.
Domande aperte
Nonostante i progressi spettacolari, il NLP contemporaneo ha limiti profondi che è importante riconoscere. I LLM sono straordinariamente capaci, ma ci sono cose che ancora non sanno fare -- e forse non possono fare con la sola predizione del token successivo.
Comprensione vs. performance
Un LLM può superare l'esame di avvocato, ma capisce davvero il concetto di giustizia? Può scrivere una poesia, ma sa cosa significa la malinconia? La distinzione tra performance su un compito e comprensione genuina resta una delle questioni più dibattute in filosofia dell'AI.
Il ragionamento di buon senso
Il Winograd Schema Challenge (Levesque, 2011) illustra bene il problema. Consideriamo: "Il trofeo non entrava nella valigia perché era troppo grande." Cosa era troppo grande? Il trofeo, ovviamente. Ma per una macchina che non ha esperienza fisica del mondo, la disambiguazione richiede un "buon senso" che nessun modello possiede davvero in modo robusto.
Cio che manca ancora
- Pragmatica: capire non solo cosa le parole dicono, ma cosa il parlante intende. L'ironia, il sarcasmo, le implicature conversazionali restano fragili.
- Contesto culturale: una battuta che funziona in italiano può essere incomprensibile in giapponese. I LLM tendono a omogeneizzare le culture.
- Composizionalita: combinare significati elementari in significati complessi. I LLM faticano con istruzioni composte che richiedono più passi logici concatenati.
- Causalita: distinguere correlazione da causazione. I modelli catturano co-occorrenze, non meccanismi causali.
- Ragionamento matematico profondo: nonostante i progressi, il ragionamento formale multi-passo resta fragile e inaffidabile.
Il divario tra performance e comprensione è forse la domanda più profonda del campo. Se un sistema produce risposte corrette il 95% delle volte senza "capire" nulla, quel 5% di errore è casuale e incorreggibile -- oppure è il segnale che serve un tipo fondamentalmente diverso di approccio?
Il futuro dell'elaborazione del linguaggio
Dove sta andando il NLP? Alcune direzioni sembrano già tracciate, altre restano aperte e piene di incognite.
Modelli multimodali
Il linguaggio non esiste in isolamento. Parliamo del mondo che vediamo, tocchiamo, sentiamo. I modelli multimodali (GPT-4V, Gemini, LLaVA) integrano testo, immagini, audio e video, avvicinandosi a una comprensione più ricca e situata del linguaggio. Il futuro potrebbe vedere modelli embodied, che apprendono il linguaggio non solo dai testi ma dall'interazione con ambienti fisici o simulati.
Lingue a basse risorse
I LLM attuali funzionano magnificamente in inglese, bene in italiano, discretamente in portoghese -- e male o per nulla nelle migliaia di lingue parlate da comunita piccole. L'NLP per le lingue a basse risorse (low-resource languages) è una sfida tecnica ed etica: come evitare che l'AI amplifichi le disuguaglianze linguistiche?
Sostenibilita
Addestrare GPT-4 ha consumato energia equivalente al fabbisogno annuale di centinaia di abitazioni. I costi computazionali e ambientali dei grandi modelli pongono domande serie: è sostenibile continuare a scalare? La ricerca su modelli più efficienti (distillazione, pruning, architetture alternative come Mamba e gli SSM) cerca risposte a questo problema.
Il ruolo della conoscenza linguistica umana
Nell'era dei foundation models, che ruolo resta per la linguistica umana? Paradossalmente, potrebbe essere più importante che mai. La linguistica ci aiuta a formulare le domande giuste: cos'è la composizionalita? Come funziona la pragmatica? Cosa significa "capire"? Domande che i modelli non possono porsi da soli, ma che sono essenziali per guidare il progresso del campo.
Il futuro dell'NLP non è solo tecnico: è un intreccio di scelte ingegneristiche, linguistiche, etiche, economiche e ambientali. La direzione che prenderemo dipendera tanto dalle innovazioni architetturali quanto dalle decisioni su quali lingue supportare, quanto investire in comprensione vs. scala, e come bilanciare performance e sostenibilita.
Glossario
I termini fondamentali dell'elaborazione del linguaggio naturale, dalla linguistica formale ai modelli generativi.