Re: Pappagalli stocastici: Alberto Puliafito sulle precisazioni di Emily Bender in merito.
A me pare che la lettura dell’articolo di Anthropic sulle attivazioni negli LLM con gli autoencoders [1] stia portando a rivedere la posizione di chi finora sosteneva si trattasse di semplici modelli matematico-statistici (attenzione, tecnicamente lo sono). Ad esempio, nel suo commento al blog di Benfer, Quattrociocchi dice: “Nel frattempo gli LLM sono diventati sistemi enormemente più sofisticati rispetto alla caricatura che spesso ne fanno sia gli entusiasti sia i detrattori. Oggi osserviamo rappresentazioni latenti complesse, strutture interne relativamente stabili, capacità composizionali, forme di pianificazione statistica e geometrie ad alta dimensionalità che comprimono enormi quantità di regolarità linguistiche.” Che riprende il suo commento all’articolo succitato: "Il lavoro mostra che i modelli molto grandi sviluppano rappresentazioni interne sofisticate mentre generano testo. Per esempio: mantengono coerenza narrativa, tengono traccia del contesto, “preparano” statisticamente una rima futura, coordinano informazioni distribuite lungo la frase.” [ndr tralascio ogni commento sull’uso di termini antropomorfi] Un altro articolo, Mathematics is all you need 2 [2], mostra la presenza di due componenti, una che costruisce queste rappresentazioni astratte dal contesto e dalla conoscenza acquisita ed una che genera la risposta da queste con la next-token prediction: "frozen language models compute behavioral self-state in a channel that is geometrically routed away from the speaking channel — the model knows before it speak”. Non solo, ma queste strutture si trasferiscono tra modelli diversi: "this work measures it geometrically, demonstrates it transfers across architectures”. Disclaimer: non ho approfondito i dettagli matematici dell’articolo. Se aggiungiamo un terzo elemento, ossia che le strutture astratte possono essere estratte da un modello ed usate per altri compiti, si può arrivare a ritenere che quelle rappresentino la conoscenza astratta del modello. Questo fenomeno era noto fin dall’inizio a chi usava il Deep Learning in NLP: i word embeddings calcolati con un LM venivano estratti ed usati come rappresentazione del senso delle parole in altri task, quali classificazione, sommarizzazione, l’attention veniva usata nella traduzione e nel parsing. Ossia, l’obiettivo di apprendere la distribuzione di probabilità del next token, ha un effetto laterale non previsto, una costruzione di astrazioni che non sono direttamente necessarie all’obiettivo, come sostiene anche David Chalmers. In altri termini, ci sono indizi per ritenere che i modelli costruiscano una rappresentazione della conoscenza acquisita dai testi, compresa una forma di word model (David Chalmers fa l’esempio di un modello che risponde sui percorsi della metro di NY), astratta e indipendente dal processo di generazione di risposte un token alla volta. Questo è un effetto secondario del processo di ottimizzazione durante l’apprendimentonto. Naturalmente non spero di convincere nessuno, perché alcune sono speculazioni, ma la ricerca si alimenta con ipotesi che qualcuno si impegna a verificare. [1] https://transformer-circuits.pub/2026/nla/ [2] https://zenodo.org/records/20102939 On 14 May 2026, at 08:08, nexa-request@server-nexa.polito.it wrote: From: Massimo Ghisalberti <zairik@zohomail.eu<mailto:zairik@zohomail.eu>> Subject: [nexa] Pappagalli stocastici: Alberto Puliafito sulle precisazioni di Emily Bender in merito. To: nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it> Message-ID: <1f987337-a589-41ea-834e-0e4316693ced@zohomail.eu<mailto:1f987337-a589-41ea-834e-0e4316693ced@zohomail.eu>> Content-Type: multipart/alternative; boundary="----=_Part_4_176739338.1778736313006" Come detto moltissime volte e dall'inizio (non qui ma chi mi conosce sa) le argomentazioni comuni sia a favore che contro non hanno fatto altro che portare acqua al mulino AI. Pappagalli stocastici era una falsità dall'inizio. Siccome però noi tutti siamo inclini alla fuffa ci è piaciuta la definizione come le tante altre pro o contro. Sono quelle definizioni che ci fanno sentire intelligenti e non esclusi dalla materia. -- massimo
Ciao Giuseppe, On Thu, 14 May 2026 11:45:37 +0000 Giuseppe Attardi wrote:
In altri termini, ci sono indizi per ritenere che i modelli costruiscano una rappresentazione della conoscenza acquisita dai testi, compresa una forma di word model (David Chalmers fa l’esempio di un modello che risponde sui percorsi della metro di NY), astratta e indipendente dal processo di generazione di risposte un token alla volta. Questo è un effetto secondario del processo di ottimizzazione durante l’apprendimentonto.
Scusa ma non mi è chiaro cosa ci sia di sorprendente nel fatto che diverse zone (sparse) delle matrici che costituiscono il software eseguito dal "motore inferenziale" codifichino sequenze di token (non token, ma _sequenze_ di token) fra loro affini. E' chiaro _almeno_ dall'articolo di Google del 2017 [1] che la compressione statistica del testo operata dal LLM non si basa sul singolo token ma sulle relazioni statistiche delle sequenze che entrano nella context window nel loro complesso. Per questo nella definizione che hai definito semplicistica [2] avevo scritto "sono archivi compressi con perdita di sequenze testuali di cui è possibile decomprimere _approssimazioni_di_alcune_zone_ fornendo in input una sequenza testuale prossima a quelle presenti nei testi sorgente". Le zone di attivazione non rappresentano "conoscenza acquisita", o "rappresentazioni astratte", bensì sequenze di token che si comprimono meglio insieme rispetto che separatamente. In altri termini, non si tratta di "un effetto secondario del processo di ottimizzazione durante l’apprendimentonto", ma del meccanismo di funzionamento del processo di compressione con perdita di _sequenze_ di token in atto. Giacomo [1] non credo sia necessario citarlo esplicitamente, ma comunque è qui https://en.wikipedia.org/wiki/Attention_Is_All_You_Need
Scusate, [2] era semplicemente un riferimento a questa mail di Giuseppe in risposta ad Antonio e me: <https://server-nexa.polito.it/hyperkitty/list/nexa@server-nexa.polito.it/mes...> (meglio leggibile nell'allegato html) Giacomo Il 14 Maggio 2026 13:01:27 UTC, Giacomo Tesio via nexa <nexa@server-nexa.polito.it> ha scritto:
Ciao Giuseppe, [...] Per questo nella definizione che hai definito semplicistica [2] avevo scritto "sono archivi compressi con perdita di sequenze testuali di cui è possibile decomprimere _approssimazioni_di_alcune_zone_ fornendo in input una sequenza testuale prossima a quelle presenti nei testi sorgente".
Le zone di attivazione non rappresentano "conoscenza acquisita", o "rappresentazioni astratte", bensì sequenze di token che si comprimono meglio insieme rispetto che separatamente.
In altri termini, non si tratta di "un effetto secondario del processo di ottimizzazione durante l’apprendimentonto", ma del meccanismo di funzionamento del processo di compressione con perdita di _sequenze_ di token in atto.
Giacomo
[1] non credo sia necessario citarlo esplicitamente, ma comunque è qui https://en.wikipedia.org/wiki/Attention_Is_All_You_Need
Il giorno gio, 14/05/2026 alle 11.45 +0000, Giuseppe Attardi via nexa ha scritto:
A me pare che la lettura dell’articolo di Anthropic sulle attivazioni negli LLM con gli autoencoders [1] stia portando a rivedere la posizione di chi finora sosteneva si trattasse di semplici modelli matematico-statistici (attenzione, tecnicamente lo sono).
Che la struttura di un sistema generativo sia complessa non credo che sia discutibile, il punto non è quello. Quando mi riferisco alle "basi" spiegabili in forme matematicamente semplici mi riferisco alla base su cui poggia una volta l'intero sistema e oggi più strati del sistema. Chiaramente ci sono diverse problematiche prime tra tutte la "velocità" nel produrre una risposta. Algoritmi classici che come spiegazione possono andare bene, non vanno più per un uso reale: non posso stare ad aspettare attese bibliche tra una domanda e una risposta. Ritengo utile questa spiegazione di "bassa lega" per far comprendere come non ci sia magia dietro ma solo un meccanicismo che data una domanda trova un risposta che potremmo definire plausibile. Questo non fa di una macchina una "macchina pensante". Che poi possano essere strumenti davvero utili, forse si e forse no, vedremo in futuro. Quando si parla di "tecnologie software" mi metto sempre dalla parte del povero utente, quello che se le beve tutte, quello che abbocca a ogni presunto avanzamento tecnologico proposto da markettari astuti. L'abile venditore di fumo mi potrebbe convincere di qualunque cosa portandomi a una alienazione socio- culturale senza precedenti. Qualunque cosa sia questa famigerata AI, di una cosa è certo: è la tecnologia informatica più pericolosa mai concepita fino ad adesso. Può portare l'uomo a una tale regressione intellettuale, non chi conosce e sa sfruttare, ma la massa, la stessa massa di persone che in tutte le maniere una classe dominante ha cercato di sottomettere. Anni fa c'era la mania del "coding" e tutti a ballare nei teatri con le magliette di avanti->avanti->sinistra->avanti. Il "pensiero computazionale" instillato in bambini a colpi di blocchetti colorati. Pur con quell'atteggiamento naive alla programmazione si cercava di insegnare le "basi" costringendo i ragazzi a pensare. Che pensiero critico potranno mai acquisire attingendo soltanto alle risposte? Con l'Ai da "produttori" li stiamo rendendo o mantenendo "utenti" più meno passivi se non passivi del tutto. Talvolta mi crea sgomento quando persone che sono o potrebbero essere addentro, contribuiscono anche loro malgrado o in perfetta ingenuità o peggio in dolo, alla retorica da marketing commerciale che aleggia attorno a questi sistemi. Sistemi opachi, prodotti da aziende il cui scopo è il lucro puro e semplice. Quale visione di miglioramento del genere umano hanno mai questi individui? Sono in pieno delirio di onnipotenza con una visione del mondo miope ed esclusivamente a loro vantaggio. Ragionando "di pancia" a sapere che anche un solo bambino al mondo è deceduto per un bombardamento AI-mediato la vieterei, che progresso sarebbe mai questo? Penso che più o meno siamo tutti d'accordo che la sperimentazione genetica sull'uomo sia una cosa da controllare molto seriamente se non da vietare. In senso molto lato non sarebbe più o meno la stessa cosa per AI? Comunque, mi sono ricordati di un testo decente e abbastanza equilibrato che è liberamente scaricabile poi che faccia scienza o meno è ininfluente. Demystifying Artificial Intelligence Symbolic, Data-Driven, Statistical and Ethical AI https://www.degruyterbrill.com/document/doi/10.1515/9783111426143/html -- massimo
participants (3)
-
Giacomo Tesio -
Giuseppe Attardi -
Massimo Maria Ghisalberti