Introduzione

Il linguaggio è la tecnologia più potente mai creata dall'umanita. Non un'invenzione meccanica, non un algoritmo, ma il sistema simbolico che ci permette di trasmettere pensiero, costruire civilta, coordinare milioni di persone verso obiettivi comuni. Ogni contratto, ogni legge, ogni poesia, ogni formula scientifica esiste prima di tutto come linguaggio.

Il sogno di insegnare alle macchine a comprendere il linguaggio umano è antico quanto l'informatica stessa. Quando Alan Turing, nel 1950, propose il suo celebre test di intelligenza, lo formulo proprio come un problema linguistico: se una macchina può conversare in modo indistinguibile da un essere umano, possiamo considerarla intelligente?

Da allora, tre grandi paradigmi si sono succeduti nell'elaborazione del linguaggio naturale, ciascuno rivoluzionario, ciascuno portatore di intuizioni profonde e di punti ciechi ereditati dal precedente. Questa è la storia di come siamo passati dalle grammatiche formali di Chomsky ai Large Language Models che oggi rispondono alle nostre domande.

Tre paradigmi, un'unica sfida: il passaggio dalle regole scritte a mano (simbolico) alla statistica sui dati (probabilistico) fino alle reti neurali profonde (connessionista) non è stato lineare. Ogni transizione ha portato guadagni enormi, ma anche perdite sottili di comprensione teorica.

Le grammatiche formali: Chomsky e il paradigma simbolico (1950-1990)

Nel 1957, un giovane linguista del MIT pubblico un libro destinato a cambiare sia la linguistica che l'informatica: Syntactic Structures. Noam Chomsky propose che il linguaggio umano non fosse un insieme caotico di abitudini apprese per imitazione, come sosteneva il comportamentismo dominante, ma un sistema governato da regole formali precise, una grammatica generativa in grado di produrre tutte e sole le frasi grammaticali di una lingua.

"Colorless green ideas sleep furiously."
-- Noam Chomsky, Syntactic Structures, 1957. Una frase grammaticalmente perfetta ma semanticamente assurda, usata per dimostrare che la sintassi è indipendente dal significato.

La gerarchia di Chomsky classifico le grammatiche formali in quattro livelli di complessita crescente: grammatiche regolari, context-free, context-sensitive e ricorsivamente enumerabili. Questa tassonomia divenne fondamentale non solo per la linguistica, ma per l'intera teoria della computazione: i linguaggi di programmazione, i parser, i compilatori -- tutto si fonda su quei concetti.

I primi sistemi NLP

L'entusiasmo per le grammatiche formali genero i primi tentativi concreti di far "parlare" le macchine.

  1. 1ELIZA (1966) -- Joseph Weizenbaum creo al MIT un programma che simulava uno psicoterapeuta rogersiano. ELIZA funzionava con semplici regole di pattern matching: riconosceva parole chiave e riformulava le frasi dell'utente come domande. Nonostante la sua semplicita, molti utenti si convinsero di parlare con un'entita davvero comprensiva -- un fenomeno che Weizenbaum stesso trovo allarmante.
  2. 2SHRDLU (1971) -- Terry Winograd costrui un sistema capace di comprendere comandi in inglese riferiti a un "mondo di blocchi" virtuale. SHRDLU poteva capire frasi come "Put the red block on top of the blue one" e eseguire l'azione. Ma funzionava solo in quel micro-mondo: il linguaggio naturale nella sua pienezza restava fuori portata.
  3. 3Sistemi esperti e NLP simbolico (1970-1990) -- Per due decenni, ricercatori di tutto il mondo tentarono di codificare la conoscenza linguistica in regole esplicite: dizionari semantici, ontologie, grammatiche sempre più complesse. Il progetto Cyc, avviato nel 1984, si proponeva di formalizzare tutto il "buon senso" umano.

La promessa e il fallimento

Il paradigma simbolico aveva una visione nobile: comprendere il linguaggio significava catturarne le regole profonde. Ma il linguaggio naturale si rivelo troppo vasto, troppo ambiguo, troppo dipendente dal contesto per essere domato con regole scritte a mano. Ogni eccezione richiedeva nuove regole, ogni nuova regola creava nuove eccezioni. I sistemi diventavano fragili, costosi da mantenere e incapaci di gestire il linguaggio reale -- quello pieno di errori, slang, ironia, impliciti culturali.

L'eredita del paradigma simbolico: anche se i sistemi basati su regole non scalavano, Chomsky ci lascio un'intuizione fondamentale: il linguaggio ha una struttura, non è rumore casuale. Questa idea -- che sotto la superficie caotica del parlato ci siano pattern regolari -- è esattamente ciò che i modelli statistici e neurali avrebbero poi imparato a catturare in modo diverso.

La svolta statistica (1990-2010)

Alla fine degli anni Ottanta, un cambiamento filosofico radicale investi l'elaborazione del linguaggio. Il motore del cambiamento non furono i linguisti, ma gli ingegneri -- in particolare quelli dei laboratori IBM che lavoravano al riconoscimento vocale.

"Every time I fire a linguist, the performance of the speech recognizer goes up."
-- Frederick Jelinek, IBM, anni '80. Una provocazione che sintetizza lo scontro tra linguistica teorica e approccio empirico.

La battuta di Jelinek, per quanto provocatoria, conteneva una verita profonda: invece di cercare di capire il linguaggio, bastava modellarne le statistiche. Se un sistema poteva prevedere quale parola veniva dopo quale con sufficiente accuratezza, il risultato pratico era eccellente -- anche senza alcuna "comprensione" linguistica.

I modelli fondamentali

La rivoluzione statistica porto con se una serie di strumenti matematici che dominarono il campo per vent'anni.

Modelli N-gram

La probabilita delle sequenze

Un modello n-gram stima la probabilita di una parola in base alle n-1 parole precedenti. Un bigramma guarda una parola indietro, un trigramma due. Semplice, ma sorprendentemente efficace per il riconoscimento vocale e la correzione ortografica.

Limite: non cattura dipendenze a lungo raggio
Hidden Markov Models

Stati nascosti del linguaggio

Gli HMM modellano il linguaggio come una sequenza di stati nascosti (ad esempio categorie grammaticali) che generano osservazioni (parole). Fondamentali per il POS tagging e il riconoscimento vocale.

Un detective che inferisce le cause dagli effetti
Bag-of-Words e TF-IDF

Il testo come sacco di parole

Bag-of-words ignora l'ordine delle parole e rappresenta un documento come la frequenza dei suoi termini. TF-IDF pesa ogni termine per la sua rilevanza nel corpus. Alla base della ricerca documentale per decenni.

Sacrifica la struttura per la scalabilita
Traduzione automatica statistica

Da IBM alla prima Google Translate

I modelli IBM (1990-1993) e poi le prime versioni di Google Translate (2006) usavano allineamenti statistici tra frasi parallele. Non capivano la grammatica, ma producevano traduzioni usabili sfruttando enormi corpora bilingui.

Tradurre senza capire, usando milioni di esempi

Il cambio di filosofia

La svolta statistica non fu solo un cambiamento tecnico: fu un cambio di paradigma epistemologico. Si passo da "comprendi il linguaggio e poi lo elaborerai" a "modella i pattern del linguaggio e l'elaborazione verra da se". Questa filosofia -- lasciar parlare i dati, rinunciare alla comprensione esplicita in favore della predizione -- avrebbe raggiunto la sua espressione più estrema con i Large Language Models di oggi.

Il trade-off fondamentale: i metodi statistici guadagnarono in copertura e robustezza ciò che persero in eleganza teorica. Un modello n-gram non sa cos'è un verbo, ma prevede la parola successiva meglio di qualsiasi grammatica formale applicata al linguaggio reale. È nella pratica ingegneristica, la performance vinse sulla teoria.

Word embeddings: le parole diventano numeri

Per decenni, un problema fondamentale aveva afflitto tutti i modelli NLP: come rappresentare le parole in modo che una macchina possa elaborarle? Nel modello bag-of-words, "cane" e "gatto" sono tanto diversi quanto "cane" e "democrazia" -- ogni parola è un indice in un vocabolario, senza alcuna relazione semantica con le altre.

Nel 2013, un team di ricercatori di Google guidato da Tomas Mikolov pubblico Word2Vec, un metodo per apprendere rappresentazioni vettoriali delle parole -- i cosiddetti word embeddings. L'idea era elegante nella sua semplicita: addestra una rete neurale poco profonda a prevedere una parola dal suo contesto (o viceversa), e usa i pesi interni della rete come rappresentazione della parola.

"You shall know a word by the company it keeps."
-- John Rupert Firth, 1957. L'ipotesi distribuzionale: il significato di una parola è determinato dalle parole che le stanno intorno.

Il risultato fu sorprendente. Le parole venivano mappate in uno spazio vettoriale dove la vicinanza geometrica rifletteva la vicinanza semantica. "Re" e "regina" erano vicini. "Parigi" e "Francia" erano vicini. Ma il fenomeno più stupefacente era un altro: le relazioni tra parole venivano catturate come direzioni nello spazio.

L'aritmetica del significato

La scoperta che catapulto Word2Vec nell'immaginario collettivo fu l'aritmetica vettoriale delle parole:

King - Man + Woman = Queen

Sottraendo il vettore "uomo" da "re" e aggiungendo "donna", il risultato più vicino era "regina". Il modello aveva catturato la relazione di genere come una direzione nello spazio semantico -- senza che nessuno glielo avesse insegnato esplicitamente.

Questa proprieta valeva per molte relazioni: capitale-nazione (Parigi:Francia = Roma:Italia), tempo verbale (camminare:camminato = nuotare:nuotato), comparativi (buono:migliore = grande:maggiore).

Oltre Word2Vec

Word2Vec apri un'ondata di ricerca sugli embeddings:

Il limite fondamentale di tutti questi modelli era pero lo stesso: ogni parola aveva un unico vettore, indipendentemente dal contesto. La parola "banco" aveva la stessa rappresentazione in "il banco di scuola" e "il banco di Napoli". Superare questo limite sarebbe stato il passo successivo.

La rivoluzione delle reti neurali (2010-2017)

Mentre i word embeddings insegnavano alle macchine che le parole hanno relazioni geometriche, un'altra rivoluzione prendeva forma: il deep learning -- l'uso di reti neurali con molti strati -- stava trasformando la visione artificiale e il riconoscimento vocale. Era solo questione di tempo prima che investisse anche il NLP.

RNN: leggere parola per parola

Le Reti Neurali Ricorrenti (RNN) furono il primo tentativo di applicare il deep learning alle sequenze di testo. A differenza delle reti tradizionali, una RNN elabora il testo parola per parola, mantenendo uno "stato nascosto" che funge da memoria delle parole precedenti. In teoria, questo permetteva di catturare dipendenze a lungo raggio nel testo.

In pratica, le RNN soffrivano del problema del vanishing gradient: durante l'addestramento, il segnale di errore si dissolveva attraverso i passaggi temporali, rendendo impossibile apprendere relazioni tra parole distanti.

LSTM e GRU: la memoria selettiva

La soluzione arrivo con le LSTM (Long Short-Term Memory, Hochreiter e Schmidhuber, 1997) e le GRU (Gated Recurrent Unit, Cho et al., 2014). Queste architetture introdussero meccanismi di "porte" (gates) che controllavano quali informazioni conservare e quali dimenticare, consentendo alla rete di mantenere informazioni rilevanti attraverso sequenze lunghe.

  1. 1Forget gate: decide quali informazioni dello stato precedente eliminare
  2. 2Input gate: decide quali nuove informazioni incorporare
  3. 3Output gate: decide cosa dello stato interno rendere visibile all'uscita

Sequence-to-sequence e attenzione

Nel 2014, Sutskever, Vinyals e Le proposero l'architettura sequence-to-sequence (seq2seq): un encoder LSTM legge la frase di input e la comprime in un vettore, un decoder LSTM genera la frase di output a partire da quel vettore. Questo modello divenne la base della traduzione automatica neurale.

Ma c'era un collo di bottiglia: tutta l'informazione della frase sorgente doveva passare attraverso un singolo vettore. Nel 2014, Bahdanau, Cho e Bengio proposero il meccanismo di attenzione: invece di comprimere tutto in un vettore, il decoder poteva "guardare indietro" a tutte le posizioni della frase sorgente, pesando dinamicamente quali parti fossero più rilevanti per ogni parola da generare.

L'attenzione fu la svolta decisiva. Liberando il modello dal collo di bottiglia del vettore singolo, l'attenzione migliorava sia l'accuratezza delle traduzioni sia la capacita del modello di gestire frasi lunghe. Ma soprattutto, l'attenzione conteneva il seme di una rivoluzione molto più grande.

ELMo: il contesto cambia tutto

Nel 2018, Peters et al. introdussero ELMo (Embeddings from Language Models). A differenza di Word2Vec, ELMo generava rappresentazioni contestuali: la stessa parola otteneva vettori diversi in frasi diverse. "Banco" in "il banco di scuola" e "il banco ti presta denaro" avrebbero finalmente avuto rappresentazioni distinte. ELMo utilizzo LSTM bidirezionali addestrate come modello di linguaggio, e segno il tramonto degli embeddings statici.

Transformer e la rivoluzione del 2017

Il 12 giugno 2017, un team di Google Brain e Google Research pubblico un paper dal titolo provocatoriamente semplice: Attention Is All You Need. Vaswani, Shazeer, Parmar e colleghi proposero un'architettura che eliminava completamente le reti ricorrenti, basandosi unicamente sul meccanismo di attenzione. La chiamarono Transformer.

"Attention Is All You Need"
-- Vaswani et al., 2017. Il titolo del paper più influente dell'ultimo decennio di AI.

L'intuizione chiave: invece di elaborare il testo sequenzialmente (parola dopo parola, come le RNN), il Transformer elabora tutte le parole in parallelo, usando la self-attention per calcolare le relazioni tra ogni coppia di parole nella sequenza. Ogni parola "guarda" tutte le altre e decide a quali prestare attenzione.

Perché il Transformer vinse

BERT: comprendere in entrambe le direzioni

Nell'ottobre 2018, Google pubblico BERT (Bidirectional Encoder Representations from Transformers). BERT usava solo la parte encoder del Transformer e veniva pre-addestrato con un obiettivo ingegnoso: masked language modeling. Si mascheravano parole casuali in una frase e il modello doveva prevederle, usando il contesto sia a sinistra che a destra. Questo lo rendeva bidirezionale, a differenza dei modelli di linguaggio tradizionali che leggevano solo da sinistra a destra.

BERT stabili nuovi record su praticamente tutti i benchmark NLP esistenti e introdusse il paradigma pre-train / fine-tune: prima si pre-addestra un grande modello su enormi quantita di testo non etichettato, poi lo si specializza (fine-tune) su un compito specifico con pochi dati etichettati.

GPT: generare parola dopo parola

Quasi contemporaneamente, OpenAI imbocco la strada opposta con la serie GPT (Generative Pre-trained Transformer). GPT usava solo la parte decoder del Transformer, addestrata con un obiettivo più semplice: prevedere la prossima parola. Un modello autoregressivo che generava testo una parola alla volta, condizionato su tutto il testo precedente.

BERT (2018)

Encoder bidirezionale

Legge il testo in entrambe le direzioni. Eccelle nella comprensione: classificazione, estrazione di informazioni, question answering. Pre-addestrato con masked language modeling.

Un lettore attento che comprende il testo completo
GPT (2018-2024)

Decoder autoregressivo

Legge da sinistra a destra e genera la parola successiva. Eccelle nella generazione: scrittura, conversazione, ragionamento. Pre-addestrato con next-token prediction.

Uno scrittore che compone una parola alla volta

Una rivoluzione silenziosa: il Transformer non ha semplicemente migliorato le prestazioni sui benchmark. Ha reso quasi obsolete, nel giro di mesi, tutte le tecniche NLP precedenti: regole manuali, n-grammi, HMM, RNN, LSTM. Non era un miglioramento incrementale, era un cambio di paradigma che ha ridisegnato l'intero campo.

I Large Language Models

A partire dal 2020, un fenomeno inaspettato comincio a emergere: non solo i Transformer funzionavano bene, ma funzionavano sempre meglio man mano che diventavano più grandi. Più parametri, più dati di addestramento, più compute -- e le prestazioni salivano in modo prevedibile, seguendo quelle che i ricercatori di OpenAI battezzarono scaling laws.

La corsa alla scala

  1. 1GPT-2 (2019): 1.5 miliardi di parametri. OpenAI lo considero "troppo pericoloso" per rilasciarlo integralmente, temendo usi malevoli nella generazione di disinformazione.
  2. 2GPT-3 (2020): 175 miliardi di parametri. Mostro capacita sorprendenti di in-context learning: poteva eseguire compiti nuovi semplicemente a partire da pochi esempi nel prompt, senza fine-tuning.
  3. 3ChatGPT (2022): basato su GPT-3.5, ottimizzato con RLHF (Reinforcement Learning from Human Feedback). Raggiunse 100 milioni di utenti in due mesi, il lancio più rapido della storia.
  4. 4GPT-4 (2023): multimodale (testo e immagini), prestazioni vicine al livello umano su molti test professionali.
  5. 5Claude, Llama, Gemini (2023-2025): Anthropic, Meta e Google entrarono nella competizione con modelli di pari livello, dimostrando che l'approccio scalava indipendentemente dal laboratorio.

Emergenza e in-context learning

Il fenomeno più discusso e controverso dei LLM è l'emergenza: capacita che appaiono solo oltre una certa scala, assenti nei modelli più piccoli. La catena di ragionamento (chain-of-thought), la capacita di programmare, la traduzione tra lingue mai viste esplicitamente -- queste abilita sembravano "emergere" spontaneamente con l'aumento dei parametri.

L'in-context learning è altrettanto sorprendente: un LLM può "imparare" un nuovo compito semplicemente vedendo alcuni esempi nel prompt, senza modificare i propri pesi. È come se il modello avesse appreso non solo il linguaggio, ma un meta-algoritmo per apprendere da pochi esempi.

Il paradosso dei LLM: l'obiettivo di addestramento è disarmante nella sua semplicita -- prevedere il prossimo token. Eppure, da questo obiettivo elementare, emergono comportamenti complessi: ragionamento, creativita, capacita di seguire istruzioni articolate. Come sia possibile che la "semplice" predizione statistica produca competenze così sofisticate resta una delle domande più profonde dell'AI contemporanea.

Il pendolo tra linguistica e statistica

Guardando i sessant'anni di storia dell'elaborazione del linguaggio, emerge un pattern affascinante: il campo ha oscillato come un pendolo tra due poli filosofici opposti.

Polo 1: Comprendere

Approccio simbolico e linguistico

Le regole vengono prima. Il linguaggio ha una struttura formale che va scoperta e codificata. La comprensione precede l'elaborazione. Chomsky, grammatiche formali, sistemi esperti, ontologie.

Top-down: dalla teoria ai dati
Polo 2: Modellare

Approccio statistico e neurale

I dati vengono prima. Il linguaggio è un fenomeno empirico i cui pattern vanno estratti automaticamente. La performance precede la comprensione. N-grammi, word embeddings, Transformer, LLM.

Bottom-up: dai dati alla struttura

Negli anni '50-'80, il pendolo era al polo simbolico. Negli anni '90, oscillo verso la statistica. Con i Transformer e i LLM, è ora completamente al polo empirico-neurale. Ma siamo sicuri che restera li?

I segnali di una nuova oscillazione

Diversi segnali suggeriscono che il pendolo potrebbe tornare verso il centro:

"Forse la domanda non è 'regole o dati?' ma 'come far emergere le regole giuste dai dati giusti?'"
-- La sfida degli approcci neuro-simbolici contemporanei.

Domande aperte

Nonostante i progressi spettacolari, il NLP contemporaneo ha limiti profondi che è importante riconoscere. I LLM sono straordinariamente capaci, ma ci sono cose che ancora non sanno fare -- e forse non possono fare con la sola predizione del token successivo.

Comprensione vs. performance

Un LLM può superare l'esame di avvocato, ma capisce davvero il concetto di giustizia? Può scrivere una poesia, ma sa cosa significa la malinconia? La distinzione tra performance su un compito e comprensione genuina resta una delle questioni più dibattute in filosofia dell'AI.

Il ragionamento di buon senso

Il Winograd Schema Challenge (Levesque, 2011) illustra bene il problema. Consideriamo: "Il trofeo non entrava nella valigia perché era troppo grande." Cosa era troppo grande? Il trofeo, ovviamente. Ma per una macchina che non ha esperienza fisica del mondo, la disambiguazione richiede un "buon senso" che nessun modello possiede davvero in modo robusto.

Cio che manca ancora

Il divario tra performance e comprensione è forse la domanda più profonda del campo. Se un sistema produce risposte corrette il 95% delle volte senza "capire" nulla, quel 5% di errore è casuale e incorreggibile -- oppure è il segnale che serve un tipo fondamentalmente diverso di approccio?

Il futuro dell'elaborazione del linguaggio

Dove sta andando il NLP? Alcune direzioni sembrano già tracciate, altre restano aperte e piene di incognite.

Modelli multimodali

Il linguaggio non esiste in isolamento. Parliamo del mondo che vediamo, tocchiamo, sentiamo. I modelli multimodali (GPT-4V, Gemini, LLaVA) integrano testo, immagini, audio e video, avvicinandosi a una comprensione più ricca e situata del linguaggio. Il futuro potrebbe vedere modelli embodied, che apprendono il linguaggio non solo dai testi ma dall'interazione con ambienti fisici o simulati.

Lingue a basse risorse

I LLM attuali funzionano magnificamente in inglese, bene in italiano, discretamente in portoghese -- e male o per nulla nelle migliaia di lingue parlate da comunita piccole. L'NLP per le lingue a basse risorse (low-resource languages) è una sfida tecnica ed etica: come evitare che l'AI amplifichi le disuguaglianze linguistiche?

Sostenibilita

Addestrare GPT-4 ha consumato energia equivalente al fabbisogno annuale di centinaia di abitazioni. I costi computazionali e ambientali dei grandi modelli pongono domande serie: è sostenibile continuare a scalare? La ricerca su modelli più efficienti (distillazione, pruning, architetture alternative come Mamba e gli SSM) cerca risposte a questo problema.

Il ruolo della conoscenza linguistica umana

Nell'era dei foundation models, che ruolo resta per la linguistica umana? Paradossalmente, potrebbe essere più importante che mai. La linguistica ci aiuta a formulare le domande giuste: cos'è la composizionalita? Come funziona la pragmatica? Cosa significa "capire"? Domande che i modelli non possono porsi da soli, ma che sono essenziali per guidare il progresso del campo.

Il futuro dell'NLP non è solo tecnico: è un intreccio di scelte ingegneristiche, linguistiche, etiche, economiche e ambientali. La direzione che prenderemo dipendera tanto dalle innovazioni architetturali quanto dalle decisioni su quali lingue supportare, quanto investire in comprensione vs. scala, e come bilanciare performance e sostenibilita.

Glossario

I termini fondamentali dell'elaborazione del linguaggio naturale, dalla linguistica formale ai modelli generativi.

Linguistica Computazionale
Disciplina interdisciplinare che studia il linguaggio umano con metodi formali e computazionali. Comprende sia lo sviluppo di modelli teorici del linguaggio sia la costruzione di sistemi pratici per l'elaborazione del testo e del parlato.
NLP (Natural Language Processing)
Elaborazione del Linguaggio Naturale. Ramo dell'intelligenza artificiale dedicato all'interazione tra computer e linguaggio umano. Include compiti come traduzione automatica, analisi del sentimento, estrazione di informazioni, generazione di testo e comprensione del linguaggio.
Grammatica Formale
Sistema di regole matematicamente definite che descrivono la struttura di un linguaggio. Una grammatica formale specifica quali sequenze di simboli sono "ben formate" (grammaticali). Alla base sia della linguistica teorica che dei compilatori informatici.
Gerarchia di Chomsky
Classificazione delle grammatiche formali in quattro livelli di complessita crescente: regolari (Tipo 3), context-free (Tipo 2), context-sensitive (Tipo 1) e ricorsivamente enumerabili (Tipo 0). Ogni livello include il precedente e descrive un insieme più ampio di linguaggi possibili.
Modello Statistico
Modello matematico che rappresenta il linguaggio in termini di distribuzioni di probabilita. Invece di regole esplicite, un modello statistico impara la probabilita di sequenze di parole a partire da grandi quantita di dati. Include n-grammi, HMM, modelli log-lineari.
Word Embedding
Rappresentazione vettoriale di una parola in uno spazio multidimensionale. Le parole semanticamente simili occupano posizioni vicine. La rivoluzione degli embeddings (Word2Vec, GloVe, FastText) ha permesso alle macchine di catturare relazioni semantiche come vicinanza geometrica.
Word2Vec
Metodo per l'apprendimento di word embeddings proposto da Mikolov et al. (Google, 2013). Usa reti neurali poco profonde per apprendere vettori di parole dal contesto. Disponibile in due varianti: CBOW (prevede la parola dal contesto) e Skip-gram (prevede il contesto dalla parola).
RNN (Recurrent Neural Network)
Architettura di rete neurale progettata per elaborare sequenze. A ogni passo temporale, la rete aggiorna uno stato nascosto che funge da memoria. Fondamentale per il NLP prima dei Transformer, ma limitata dal vanishing gradient nelle sequenze lunghe.
LSTM (Long Short-Term Memory)
Variante avanzata di RNN proposta da Hochreiter e Schmidhuber (1997). Introduce meccanismi di "porte" (gates) che controllano il flusso di informazione, risolvendo il problema del vanishing gradient e permettendo di catturare dipendenze a lungo raggio nel testo.
Transformer
Architettura di rete neurale introdotta nel 2017 ("Attention Is All You Need"). Elimina la ricorrenza e si basa interamente sulla self-attention per elaborare sequenze in parallelo. Ha rivoluzionato l'NLP ed è alla base di BERT, GPT e di tutti i modelli linguistici moderni.
BERT
Bidirectional Encoder Representations from Transformers (Google, 2018). Modello basato sull'encoder del Transformer, pre-addestrato con masked language modeling. Legge il testo in entrambe le direzioni, eccellendo nella comprensione del linguaggio e stabilendo nuovi record su molteplici benchmark NLP.
GPT
Generative Pre-trained Transformer (OpenAI, 2018-2024). Famiglia di modelli autoregressivi basati sul decoder del Transformer. Pre-addestrati a prevedere il prossimo token, si sono dimostrati straordinariamente capaci nella generazione di testo, nel ragionamento e nel seguire istruzioni complesse.
Fine-tuning
Processo di specializzazione di un modello pre-addestrato. Dopo il pre-training su grandi quantita di testo generico, il modello viene ulteriormente addestrato su dati specifici di un dominio o compito, adattando i pesi appresi al nuovo obiettivo con un costo computazionale ridotto.
Pre-training
Fase iniziale di addestramento di un modello su grandi quantita di dati non etichettati. Il modello apprende rappresentazioni generali del linguaggio (sintassi, semantica, conoscenza del mondo) che possono poi essere specializzate tramite fine-tuning su compiti specifici.
Tokenizzazione
Processo di suddivisione del testo in unita elementari (token) che il modello può elaborare. I metodi moderni (BPE, WordPiece, SentencePiece) creano un vocabolario di sotto-parole che bilancia efficienza e capacita di rappresentare qualsiasi parola, incluse quelle mai viste.