La domanda fondamentale: comprendere o memorizzare?
Un modello linguistico con 70 miliardi di parametri, addestrato su trilioni di token estratti da libri, siti web, articoli scientifici e conversazioni online, produce risposte che sembrano il frutto di una comprensione profonda del linguaggio. Scrive poesie, risolve problemi di logica, traduce tra lingue che non ha mai studiato esplicitamente. Ma sta davvero capendo qualcosa, oppure sta replicando con straordinaria precisione pattern statistici che ha incontrato durante l'addestramento?
Questa non è una domanda filosofica astratta. Ha conseguenze concrete e immediate: sulla sicurezza dei sistemi AI, sulla privacy dei dati utilizzati per il training, sulla validità delle risposte che riceviamo e, in ultima analisi, sulla fiducia che riponiamo in queste tecnologie.
Se un LLM "memorizza" piuttosto che "comprendere", allora le sue risposte corrette su un determinato argomento non garantiscono che sappia generalizzare a situazioni nuove. E le sue risposte sbagliate potrebbero non essere errori casuali, ma il sintomo di un problema strutturale: l'overfitting.
In questo articolo esploriamo il fenomeno dell'overfitting nel contesto specifico dei Large Language Models, analizzando come si manifesta, perché è diverso dall'overfitting dei modelli tradizionali, e quali strategie la ricerca sta sviluppando per costruire sistemi che generalizzano autenticamente.
Cos'è l'overfitting: le basi del problema
Nel machine learning, l'overfitting si verifica quando un modello impara troppo bene i dati di addestramento, al punto da catturare non solo i pattern generali ma anche il rumore, le eccezioni e le particolarità specifiche di quel dataset. Il risultato è un modello che performa eccellentemente sui dati che ha già visto, ma fallisce miseramente quando incontra dati nuovi.
Training error vs test error
Il modo classico per diagnosticare l'overfitting è confrontare due metriche:
- Training error (errore di addestramento): quanto il modello sbaglia sui dati con cui è stato addestrato. Nell'overfitting, questo valore scende fino quasi a zero.
- Test error (errore di test): quanto il modello sbaglia su dati mai visti prima. Nell'overfitting, questo valore inizia a salire dopo un certo punto, anche se il training error continua a scendere.
La forbice tra queste due metriche è il segnale d'allarme: quando il training error scende ma il test error sale, il modello sta memorizzando invece di apprendere.
Il tradeoff bias-varianza
Al cuore del problema c'è un compromesso fondamentale noto come bias-variance tradeoff:
Modello troppo semplice
Il modello non riesce a catturare la complessità dei dati. Sbaglia sia sui dati di training che su quelli di test. Non ha abbastanza capacità rappresentativa.
Modello troppo complesso
Il modello cattura ogni dettaglio dei dati di training, incluso il rumore. Performa benissimo sul training set ma crolla su dati nuovi.
L'analogia dello studente. Immagina due studenti che si preparano per un esame di matematica. Il primo memorizza tutte le soluzioni degli esercizi del libro: se l'esame contiene esattamente quegli esercizi, prende il massimo dei voti. Ma se il professore cambia i numeri o la formulazione, lo studente è perso. Il secondo studente capisce i principi sottostanti: potrebbe non ricordare ogni singola soluzione, ma sa affrontare problemi nuovi. L'overfitting è il comportamento del primo studente applicato ai modelli di machine learning.
Overfitting nei modelli classici vs LLM
Nei modelli di machine learning tradizionali, l'overfitting è relativamente facile da identificare e gestire. Si divide il dataset in training set e test set, si monitora la divergenza tra le due curve di errore, e si applicano tecniche di regolarizzazione quando necessario. Ma con i Large Language Models, le regole del gioco cambiano radicalmente.
Quando il training set è (quasi) tutto internet
Un modello classico di classificazione potrebbe essere addestrato su 10.000 immagini di gatti e cani. Il confine tra dati di training e dati di test è netto. Un LLM come GPT-4, invece, è stato addestrato su centinaia di miliardi di token provenienti da libri, siti web, articoli scientifici, forum, codice sorgente e molto altro. In pratica, una porzione significativa del testo disponibile su internet è finita nel training set.
Questo pone una domanda concettuale profonda: se il modello ha visto quasi tutto il testo esistente, cosa resta come "dato di test"? Come possiamo misurare la sua capacità di generalizzazione se non esiste quasi nulla che non abbia già visto?
Il fenomeno del double descent
Nella teoria classica del machine learning, la curva dell'errore di test ha una forma a "U": scende inizialmente, raggiunge un minimo e poi risale con l'aumentare della complessità del modello (overfitting). Ma nel 2019, i ricercatori hanno scoperto un fenomeno sorprendente nei modelli molto grandi: il double descent.
- 1Prima discesa: il test error scende man mano che il modello diventa più capace, comportamento classico atteso.
- 2Picco di overfitting: il test error sale quando il modello raggiunge il cosiddetto "interpolation threshold", il punto in cui ha esattamente abbastanza parametri per memorizzare perfettamente il training set.
- 3Seconda discesa: sorprendentemente, quando il modello diventa ancora più grande, il test error ricomincia a scendere. I modelli sovra-parametrizzati generalizzano meglio.
Perché il double descent è importante. Questo fenomeno sfida l'intuizione classica secondo cui "più parametri = più overfitting". I LLM, con i loro miliardi di parametri, operano nel regime della seconda discesa, dove essere enormemente sovra-parametrizzati sembra paradossalmente aiutare la generalizzazione. È una delle ragioni per cui modelli sempre più grandi tendono a funzionare sempre meglio, anche se la teoria classica prevederebbe il contrario.
Questo non significa che i LLM siano immuni dall'overfitting. Significa che il fenomeno si manifesta in modi più sottili e meno prevedibili rispetto ai modelli tradizionali, richiedendo strumenti di analisi diversi.
Memorizzazione verbatim: quando il modello ricorda troppo
Una delle prove più concrete che i LLM non si limitano a "comprendere" pattern generali è la loro capacità di riprodurre passaggi esatti dai dati di addestramento. Non parafrasi, non rielaborazioni: copie letterali, parola per parola, di testi che hanno visto durante il training.
Le ricerche di Carlini et al.
Nel 2021, un team di ricercatori guidato da Nicholas Carlini (Google DeepMind) ha pubblicato uno studio fondamentale intitolato "Extracting Training Data from Large Language Models". Il loro esperimento era tanto semplice quanto rivelatorio: hanno interrogato GPT-2 con prompt specifici e sono riusciti a fargli generare centinaia di passaggi memorizzati verbatim dal training set.
Tra i dati estratti c'erano:
- Nomi, indirizzi email e numeri di telefono di persone reali
- Frammenti di codice sorgente con commenti originali
- Passaggi di articoli di notizie riprodotti parola per parola
- Contenuti di pagine web specifiche, inclusi URL
La scoperta più allarmante: la quantità di dati memorizzati cresceva proporzionalmente alla dimensione del modello. Modelli più grandi non solo generalizzano meglio, ma memorizzano di più.
Il problema della "rigurgitazione"
Il fenomeno della memorizzazione verbatim, spesso chiamato "regurgitation" nella letteratura scientifica, non è un bug marginale. È una proprietà intrinseca dei modelli di grandi dimensioni e ha implicazioni su più livelli:
- Privacy: se dati personali sono finiti nel training set (email, conversazioni, dati medici), il modello potrebbe rivelarliin risposta a prompt specifici.
- Sicurezza: informazioni sensibili come password, chiavi API o configurazioni di sistema presenti nel codice sorgente di training possono essere estratte.
- Proprietà intellettuale: la riproduzione di testi protetti da copyright solleva questioni legali complesse che esamineremo nella sezione sul dilemma etico.
Un esperimento rivelatore. Studi successivi hanno dimostrato che è possibile estrarre dati di training anche da modelli con allineamento RLHF. La memorizzazione non viene eliminata dal fine-tuning o dall'allineamento: viene solo resa più difficile da attivare. Con i prompt giusti, anche i modelli "sicuri" possono rivelare dati memorizzati.
Generalizzazione emergente: quando la memorizzazione diventa conoscenza
Se i LLM memorizzano porzioni dei dati di training, come spieghiamo le loro capacita che vanno chiaramente oltre la memorizzazione? Un modello che ha memorizzato testi in inglese e in francese non dovrebbe, in teoria, saper tradurre. Eppure lo fa. E non solo: risolve analogie, completa ragionamenti logici, scrive codice in linguaggi che ha visto pochissimo. Queste sono capacita emergenti che non possono essere ridotte a semplice memorizzazione.
In-context learning e zero-shot reasoning
Una delle proprieta più affascinanti dei LLM è l'in-context learning: la capacita di apprendere nuovi compiti semplicemente a partire da pochi esempi forniti nel prompt, senza alcun aggiornamento dei parametri. Nessuno ha esplicitamente insegnato al modello a "imparare da esempi nel prompt". Questa capacita emerge spontaneamente quando il modello raggiunge una certa scala.
Ancora più sorprendente è lo zero-shot reasoning: la capacita di eseguire compiti mai visti durante il training senza alcun esempio. Il modello generalizza le strutture apprese in un dominio per applicarle a un dominio completamente diverso.
Le leggi di scala: Kaplan et al. e Chinchilla
Nel 2020, un team di OpenAI guidato da Jared Kaplan ha pubblicato le scaling laws per i modelli linguistici: leggi empiriche che predicono come le prestazioni di un modello migliorano al crescere di tre variabili.
- 1Numero di parametri (N): più parametri significano più capacita di rappresentazione e, sorprendentemente, anche migliore generalizzazione.
- 2Dimensione del dataset (D): più dati di training riducono sia la memorizzazione che l'errore di generalizzazione.
- 3Compute budget (C): la quantita di calcolo disponibile per il training influenza direttamente la qualità finale.
Nel 2022, il team di DeepMind ha raffinato queste leggi con lo studio Chinchilla, dimostrando che molti modelli esistenti erano "undertrained": avevano troppi parametri rispetto alla quantità di dati su cui erano stati addestrati. Il rapporto ottimale, secondo Chinchilla, prevede circa 20 token di training per ogni parametro del modello.
Quando la memorizzazione diventa utile? La risposta della ricerca attuale è sfumata. La memorizzazione di fatti specifici (capitali, date, formule) è essenziale per un modello utile. La memorizzazione di passaggi verbatim è problematica. La zona grigia sta nel mezzo: un modello che ha "memorizzato" migliaia di esempi di ragionamento deduttivo ha effettivamente imparato a ragionare, o sta solo completando pattern? La distinzione potrebbe essere meno netta di quanto vorremmo.
Tecniche di regolarizzazione per i LLM
La regolarizzazione comprende tutte le tecniche che impediscono a un modello di adattarsi troppo ai dati di training, favorendo invece la generalizzazione. Nei LLM, queste tecniche assumono forme sia tradizionali che completamente nuove.
Tecniche classiche adattate alla scala
Disattivazione casuale dei neuroni
Durante il training, una percentuale casuale di neuroni viene "spenta" ad ogni iterazione. Questo impedisce al modello di dipendere troppo da specifici percorsi neurali, forzando una rappresentazione più distribuita e robusta.
Penalizzazione dei pesi grandi
Si aggiunge una penalità alla funzione di loss proporzionale alla magnitudine dei pesi. Questo scoraggia il modello dal creare connessioni troppo forti verso pattern specifici, favorendo soluzioni più "semplici" e generalizzabili.
Variazione dei dati di training
I dati vengono modificati con trasformazioni (parafrasando testi, cambiando ordini, aggiungendo rumore) per ridurre la possibilità che il modello memorizzi formulazioni specifiche piuttosto che pattern generali.
Interruzione del training al momento giusto
Il training viene interrotto quando il test error smette di migliorare, anche se il training error potrebbe ancora scendere. Semplice ma efficace per evitare la memorizzazione eccessiva.
RLHF come regolarizzazione implicita
Il Reinforcement Learning from Human Feedback (RLHF) è il processo mediante il quale i LLM vengono allineati alle preferenze umane dopo il pre-training. Sebbene il suo scopo primario non sia la regolarizzazione, l'RLHF ha un effetto regolarizzante significativo.
Quando i valutatori umani preferiscono risposte che parafrasano piuttosto che copiano, che ragionano piuttosto che recitano, il modello impara implicitamente a evitare la riproduzione verbatim. Il modello viene "spinto" verso una rappresentazione più astratta e generalizzata della conoscenza.
Deduplicazione dei dati di training
Una delle strategie più efficaci contro la memorizzazione è la deduplicazione dei dati di training. Se un testo appare 100 volte nel dataset, il modello ha 100 volte più probabilita di memorizzarlo. Studi hanno dimostrato che la rimozione dei duplicati riduce significativamente la memorizzazione verbatim senza degradare le prestazioni generali.
Il ruolo della diversità dei dati. La ricerca ha dimostrato che la diversità dei dati di training è almeno altrettanto importante della loro quantità. Un modello addestrato su 1 trilione di token provenienti da fonti diverse generalizza meglio di uno addestrato su 2 trilioni di token da fonti omogenee. La varietà di stili, domini, lingue e formati agisce come una potente forma di regolarizzazione naturale.
Benchmark e valutazione: misurare la vera generalizzazione
Come facciamo a sapere se un LLM sta davvero generalizzando o sta semplicemente ricordando le risposte giuste? Questa domanda è al centro di uno dei problemi più pressanti della ricerca attuale: la valutazione affidabile dei modelli linguistici.
Perplexity e i suoi limiti
La metrica tradizionale per valutare i modelli linguistici è la perplexity: una misura di quanto il modello è "sorpreso" dal testo che incontra. Una perplexity bassa significa che il modello prevede bene il testo; una perplexity alta significa che il testo è inaspettato per il modello.
Il problema: la perplexity non distingue tra un modello che prevede bene perché ha compreso i pattern linguistici e uno che prevede bene perché ha memorizzato il testo. Se il test set contiene frammenti presenti nel training set, la perplexity sarà artificialmente bassa senza riflettere una vera capacità di generalizzazione.
Il problema della contaminazione dei benchmark
I benchmark standard (MMLU, HellaSwag, ARC, GSM8K e molti altri) sono dataset pubblici utilizzati per confrontare le prestazioni dei modelli. Ma la loro natura pubblica li rende vulnerabili a un problema grave: la data contamination.
Se le domande e le risposte di un benchmark finiscono nei dati di training del modello (tramite pagine web che le discutono, paper che le riportano, forum dove vengono condivise), il modello può ottenere punteggi elevati semplicemente ricordando le risposte, senza alcuna capacità di ragionamento.
- 1Il benchmark viene pubblicato come dataset pubblico per la valutazione dei modelli.
- 2Viene discusso online: blog, paper, forum, tutorial lo citano e ne riportano esempi.
- 3Finisce nel training set: il web crawl successivo cattura queste discussioni.
- 4Il modello "ricorda" le risposte: durante la valutazione, il punteggio è inflazionato dalla memorizzazione.
Verso benchmark dinamici
La comunità scientifica sta sviluppando approcci per superare il problema della contaminazione:
- Benchmark privati: dataset mai resi pubblici, utilizzati solo per la valutazione interna.
- Benchmark dinamici: test che vengono rigenerati periodicamente con nuove domande, rendendo impossibile la memorizzazione (come il progetto Dynabench).
- Test out-of-distribution: domande deliberatamente costruite per essere diverse da qualsiasi cosa nel training set.
- Compiti di ragionamento novel: problemi che richiedono combinazioni creative di conoscenze, impossibili da risolvere con la sola memorizzazione.
L'importanza dei benchmark onesti. Quando un modello dichiara di raggiungere il 90% su un benchmark, la prima domanda da porsi è: quanto di quel punteggio riflette vera comprensione, e quanto è frutto di contaminazione? Senza questa consapevolezza, rischiamo di sovrastimare sistematicamente le capacità dei modelli e di costruire sistemi che falliscono in modo imprevedibile nel mondo reale.
Il dilemma etico: copyright e memorizzazione
La capacità dei LLM di memorizzare e riprodurre contenuti dai dati di training non è solo un problema tecnico. È diventata una delle questioni legali ed etiche più significative dell'era dell'intelligenza artificiale.
Il caso New York Times vs OpenAI
Alla fine del 2023, il New York Times ha intentato una causa legale contro OpenAI e Microsoft, sostenendo che i modelli GPT sono in grado di riprodurre interi articoli del quotidiano quasi parola per parola. La causa ha presentato numerosi esempi in cui, con prompt appropriati, ChatGPT generava passaggi sostanzialmente identici ad articoli pubblicati dal NYT.
Questo caso ha portato alla luce una tensione fondamentale:
Violazione del copyright
I LLM hanno copiato milioni di articoli protetti da copyright per il training. La capacità di riprodurli dimostra che non è avvenuta una "trasformazione" del contenuto. Il modello compete direttamente con la fonte originale, riducendone il traffico e i ricavi.
Fair use e trasformazione
Il training su dati pubblici rientra nel fair use. Il modello non "copia" ma apprende pattern statistici. La memorizzazione verbatim è un effetto collaterale raro, non lo scopo del sistema. L'output è trasformativo per natura.
Le implicazioni più ampie
Il caso NYT vs OpenAI è solo la punta dell'iceberg. Numerosi autori, artisti, programmatori e creatori di contenuti hanno sollevato obiezioni simili. Le questioni centrali sono:
- Consenso: gli autori dei testi di training hanno dato il loro consenso all'utilizzo da parte dei modelli AI?
- Compensazione: se il modello ha imparato (e potenzialmente memorizzato) il lavoro di milioni di autori, questi autori hanno diritto a una compensazione?
- Attribuzione: quando il modello genera testo basato su conoscenze apprese da fonti specifiche, dovrebbe attribuirne la provenienza?
- Concorrenza: se un modello può rispondere a una domanda usando informazioni tratte da un articolo, l'utente non ha più motivo di visitare il sito originale. Chi paga per la produzione di conoscenza?
Il dibattito sul fair use. Negli Stati Uniti, la dottrina del fair use permette l'uso di materiale protetto da copyright per scopi trasformativi, educativi o di ricerca. La domanda legale cruciale è: il training di un LLM è un uso "trasformativo"? Il modello crea qualcosa di nuovo a partire dai dati, oppure li riproduce (anche parzialmente) in una forma che compete con l'originale? Questa questione definirà il futuro legale dell'intera industria AI.
Verso modelli che generalizzano davvero
La ricerca attuale non si limita a diagnosticare il problema dell'overfitting nei LLM. Sta attivamente esplorando architetture e metodi di addestramento che favoriscano una generalizzazione più autentica e profonda.
Mixture of Experts (MoE)
I modelli Mixture of Experts rappresentano un cambio di paradigma nell'architettura dei LLM. Invece di attivare tutti i parametri per ogni input (come nei modelli "densi" tradizionali), un modello MoE attiva solo un sottoinsieme specializzato di "esperti" a seconda del contesto.
Questo approccio ha diversi vantaggi per la generalizzazione:
- Ogni esperto si specializza su un dominio specifico, riducendo la memorizzazione indiscriminata
- Il modello complessivo può avere molti parametri (grande capacità) ma usarne pochi per ogni inferenza (efficienza)
- La specializzazione forza una rappresentazione più strutturata della conoscenza
Modelli sparsi e curriculum learning
I modelli sparsi estendono l'idea dei MoE: non solo gli esperti, ma intere porzioni della rete possono essere attivate o disattivate dinamicamente. Questo crea un modello che "sceglie" quali conoscenze utilizzare per ogni input, riducendo il rischio di memorizzazione e favorendo la generalizzazione.
Il curriculum learning è un altro approccio promettente: invece di presentare tutti i dati in ordine casuale, il modello viene addestrato prima su dati semplici e progressivamente su dati più complessi, imitando il modo in cui gli esseri umani apprendono. Ricerche recenti hanno dimostrato che questa strategia può migliorare sia l'efficienza del training che la qualità della generalizzazione.
Cosa significa "comprendere" per un sistema statistico?
Al cuore della questione c'è una domanda profondamente filosofica: quando un sistema che opera su basi puramente statistiche può essere considerato capace di "comprensione"?
Esistono almeno due prospettive:
- 1Prospettiva funzionalista: se un sistema produce output indistinguibili da quelli di un agente che "comprende", allora comprende a tutti gli effetti pratici. La comprensione non è una proprietà mistica, ma una capacità funzionale.
- 2Prospettiva simbolica: la vera comprensione richiede modelli interni del mondo, rappresentazioni causali e la capacità di ragionare su controfattuali. La previsione statistica, per quanto sofisticata, non è comprensione.
La ricerca più recente suggerisce che la verità possa stare nel mezzo. I LLM di grandi dimensioni sembrano sviluppare rappresentazioni interne che assomigliano a "modelli del mondo" rudimentali, ma la loro natura è ancora oggetto di intensa indagine.
Il futuro della generalizzazione. Le direzioni più promettenti della ricerca includono: architetture che separano esplicitamente memorizzazione e ragionamento, modelli che possono "citare le proprie fonti" distinguendo fatti memorizzati da inferenze, e sistemi ibridi che combinano la potenza statistica dei LLM con motori di ragionamento simbolico. L'obiettivo non è eliminare la memorizzazione, ma controllarla e renderla trasparente.
Glossario
Definizioni dei termini tecnici principali utilizzati in questo articolo.