Ciao Giuseppe, On Thu, 14 May 2026 11:45:37 +0000 Giuseppe Attardi wrote:
In altri termini, ci sono indizi per ritenere che i modelli costruiscano una rappresentazione della conoscenza acquisita dai testi, compresa una forma di word model (David Chalmers fa l’esempio di un modello che risponde sui percorsi della metro di NY), astratta e indipendente dal processo di generazione di risposte un token alla volta. Questo è un effetto secondario del processo di ottimizzazione durante l’apprendimentonto.
Scusa ma non mi è chiaro cosa ci sia di sorprendente nel fatto che diverse zone (sparse) delle matrici che costituiscono il software eseguito dal "motore inferenziale" codifichino sequenze di token (non token, ma _sequenze_ di token) fra loro affini. E' chiaro _almeno_ dall'articolo di Google del 2017 [1] che la compressione statistica del testo operata dal LLM non si basa sul singolo token ma sulle relazioni statistiche delle sequenze che entrano nella context window nel loro complesso. Per questo nella definizione che hai definito semplicistica [2] avevo scritto "sono archivi compressi con perdita di sequenze testuali di cui è possibile decomprimere _approssimazioni_di_alcune_zone_ fornendo in input una sequenza testuale prossima a quelle presenti nei testi sorgente". Le zone di attivazione non rappresentano "conoscenza acquisita", o "rappresentazioni astratte", bensì sequenze di token che si comprimono meglio insieme rispetto che separatamente. In altri termini, non si tratta di "un effetto secondario del processo di ottimizzazione durante l’apprendimentonto", ma del meccanismo di funzionamento del processo di compressione con perdita di _sequenze_ di token in atto. Giacomo [1] non credo sia necessario citarlo esplicitamente, ma comunque è qui https://en.wikipedia.org/wiki/Attention_Is_All_You_Need