Re: Una visione realistica dell’Intelligenza Artificiale - Lettera aperta alla società
Scusate se mi sono perso alcuni passaggi, provo a replicare a più obiezioni insieme. Non credo di riuscire a convincere gli estensori della petizione, ma spero di instillare qualche dubbio in altri rispetto alla “nostra [della petizione] visione”. Che gli LLM funzionino esattamente come predittori del prossimo token, con una serie di ammenicoli di contorno che non cambiano la loro natura di fondo, è spiegato - tra l'altro - nello studio citato in questo articolo https://www.computerworld.com/article/4059383/openai-admits-ai-hallucination... È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM, ma non bisogna limitarsi a guardare alla superficie, ossia all’uso della distribuzione di probabilità delle parole per dire che i modelli sono solo generatori statistici del prossimo token. In realtà il processo è ben più complesso, perché consiste prima di tutto nella costruzione di una rappresentazione a molti livelli di astrazione, del contesto di partenza, che include la rappresentazione del senso delle parole nel primo strato di embedding e poi di relazioni sintattiche tra le parole nelle matrici di attention a livelli superiori, poi riferimenti anaforici e altre relazioni che non sappiamo interpretare in altri livelli. Alcune di queste relazioni sono state esaminate con dei probe sui modelli, come i syntax probe. Durante la generazione sono coinvolte le attivazioni della rete a tutti i suoi livelli, ossia centinaia di milioni, che è impossibile esaminare manualmente. Ma una idea interessante è quella di usare un altro modello per analizzare le attivazioni della rete e produrne una verbalizzazione leggibile da noi. L’architettura del meccanismo è descritta in un interessante articolo di ricercatori di Anthropic, si basa su Natural Language Autoencoders (NLAs) e comprende due modelli, uno per verbalizzazione (AV, Activation Verbalizer) ed uno per verificare (AR, Activation Reconstructor) che corrisponda alle attivazioni della rete. Uno degli esempi analizza il processo di generazione di una poesia in rima e mostra come il modello pianifichi l’uso di una successiva parola in rima ben prima del token precedente la rima. Un altro esperimento, riproducibile tramite codice GitHub, utilizza un prompt che inizia così, per chiedere di indicare quali elementi vengono sfruttati per produrre la risposta: A language model needs to predict what text comes next after a snippet which will be presented to you shortly. Identify the 4-5 most important features it would use for this prediction. Focus on what the language model must be "thinking about" at the point where the provided text ends. You should not need reference the fact that the text is truncated/incomplete/a prefix: the language model is causal, so only sees the prefix to what it predicts and this is implicit. Order features by what is most important for predicting the next tokens. Each feature should consist of a ~5-15 word description. … Ottenendo ad esempio: "Annals of the Joseon" requires completion of the dynasty name, following the established pattern of full title references throughout (e.g., "Annals of Joseon Dynasty" appearing twice earlier). Historical narrative describing a specific dated event (November 15, 1519 arrests) now transitioning to "the following day" cabinet meeting, requiring continuation of sequential political proceedings. Formal historical chronicle style maintained through passive constructions, detailed titles, and objective third-person narration of court intrigue and factional conflict. Quotation pattern established with section headers ("Jo will become the King", "What is their crime?") suggests the cabinet meeting description will include direct dialogue or quoted exchanges about Jo's fate. … https://transformer-circuits.pub/2026/nla/ Dopo di che, il dibattito di opinioni è libero, ci mancherebbe altro, ma quando andiamo su temi scientifici e tecnologici, e se vogliamo rimanere in un paradigma di conoscenza galileiano, le opinioni dovrebbero essere sostenute da evidenze sperimentali assai vaste e robuste, che mi pare non ci siano in questo momento. Ci sono numerose evidenze sperimentali sulle capacità degli attuali modelli, ad esempio nella dimostrazione di problemi matematici irrisolti, nella risoluzione di questioni di fisica teorica (https://www.youtube.com/watch?v=wrkiMZ3SKH4&t=79s <https://www.youtube.com/watch?v=wrkiMZ3SKH4&t=79s>), nella risoluzione di problemi informatici, come racconta con shock Donald Knuth (https://cs.stanford.edu/~knuth/papers/claude-cycles.pdf). Aggiungo solo che come evidenze alle tue affermazioni, porti un video di YouTube e un articolo di opinione di Donald Knuth, rispettabilissimo mostro sacro dell'informatica, ma - appunto - un'opinione e non un'evidenza sperimentale. Vedo che tu citi un blog aziendale di OpenAI ma non accetti un articolo di Donald Knuth, che ha avuto diversi riscontri, al punto di dire: This result is significant for at least three reasons. First, it demonstrates that modern language models can function as tools for creative mathematical discovery, not merely coding assistants. Second, Claude’s methodology, which included successive reformulations, failed experiments, and eventual synthesis, structurally resembles the process a human researcher follows. Third, the subsequent extension of the problem to even numbers, achieved through collaboration between humans and multiple models (Claude and GPT), signals a new form of human-machine mathematical collaboration. Non solo, ma l’articolo di Knuth analizza proprio il procedimento seguito da Claude per arrivare alla soluzione, quelle che chiama cicli di “exploration”, un procedimento quindi ben più articolato degli asseriti "predittori del prossimo token”. In ogni caso, la petizione che afferma che i modelli svolgono compiti cognitivi che "non equivalgono a comprensione nel senso umano del termine”, e finchè tu non definisci “scientificamente”, “galileanamente”, cosa significhi “in senso umano”, la questione è mal posta. Basta comunque un solo controesempio, tra quelli che ho citato, per mostrare che non sanno solo "riorganizzare le informazioni già presenti nei dati”. Stesso discorso all’obiezione di Quintarelli: gli esempi servivano a illustrare il “procedimento” utilizzato, non tanto il risultato. — Beppe On 8 May 2026, at 20:31, nexa-request@server-nexa.polito.it wrote: From: Enrico Nardelli <nardelli@mat.uniroma2.it<mailto:nardelli@mat.uniroma2.it>> Subject: [nexa] Re: Una visione realistica dell’Intelligenza Artificiale - Lettera aperta alla società To: nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it> Message-ID: <806f9bff-2906-4d3b-b375-afae87e6f80f@mat.uniroma2.it<mailto:806f9bff-2906-4d3b-b375-afae87e6f80f@mat.uniroma2.it>> Content-Type: multipart/alternative; boundary="------------t48ad3Ez6bZpaV0pJGKLTCSS" Il 08/05/2026 11:00, Stefano Quintarelli via nexa ha scritto: bolla ? si inutile ? no questi oggetti, anche se non pensano (non sognano, non immaginano, non riflettono, ecc.) e anche se producono artefatti (che noi, attribuendo un senso, chiamiamo errori), sono comunque assai utili! il mondo (e le aziende) e' pieno di casi d'uso in cui l'approssimazione va piu' che bene, fintanto che lo human resta in the lead. come dice uno dei capi di openai, oggi costano piu' degli umani. e la speculazione fa il resto. per cui, si, siamo in bolla. si sgonfiera' (tanto, poco ?) nel frattempo, forse, qualcuno avra' raccolto abbastanza soldi da donatori?W investitori, sufficienti per traghettarsi fino al momento della sostenibilita' economica. imho Sono molto d'accordo con la visione pragmatica di Stefano. Non sarà la nuova età dell'oro né la fine del mondo. Qualcuno perderà molti soldi (ma, se prendiamo la crisi Lehman-Brothers come esempio, o anche quello che è successo in Europa con le banche franco-tedesche al tempo della crisi greca, se li farà ridare da governi più o meno compiacenti) qualcuno farà comunque dei soldi perché c'è comunque un'utilità in queste tecnologie. La vera sfida è sociale: abbiamo visto i danni che hanno prodotto smartphone e social a go-go soprattutto sulla generazioni più giovani - Juan Carlos ci ha scritto un intero libro, io ne ho scritto recentemente qui https://www.startmag.it/innovazione/strumenti-digitali-e-apprendimento-plato... L'invasività delle tecnologie basate sull'IA è ancora maggiore e più nefasta (e Daniela Tafani ce lo ricorda periodicamente). Qui https://arxiv.org/abs/2601.19062 c'è un'analisi di un milione e mezzo di conversazioni, con questo abstract: /... We focus on situational disempowerment potential, which occurs when AI assistant interactions risk leading users to form distorted perceptions of reality, make inauthentic value judgments, or act in ways misaligned with their values. Quantitatively, we find that severe forms of disempowerment potential occur in fewer than one in a thousand conversations, though rates are substantially higher in personal domains like relationships and lifestyle. Qualitatively, we uncover several concerning patterns, such as validation of persecution narratives and grandiose identities with emphatic sycophantic language, definitive moral judgments about third parties, and complete scripting of value-laden personal communications that users appear to implement verbatim. Analysis of historical trends reveals an increase in the prevalence of disempowerment potential over time. We also find that interactions with greater disempowerment potential receive higher user approval ratings, possibly suggesting a tension between short-term user preferences and long-term human empowerment. .../ Non c'è da stare allegri. Ci sono dei segni di reazione, vedi ad esempio https://futurism.com/artificial-intelligence/gen-z-turning-against-ai /... there’s been a surge in resentment towards AI, which has encroached almost every aspect of our daily lives, from the never-ending slop in our social media feeds to flawed chatbots poorly assuming the roles of human customer service agents. As The Verge reports, the backlash is particularly apparent among Gen Z, a demographic that’s at the epicenter of the industry’s push for AI adoption. The generation is facing a dire post-graduation job market after losing much of its youth to the COVID-19 pandemic. Usually, young people love new innovations. But for Gen Z, a tech inherently designed to replace human agency is strikingly unwelcome — and inspiring a growing rebellion. .../ Ma c'è ancora molto lavoro da fare, soprattutto di sensibilizzazione e di alfabetizzazione, su cosa sono davvero queste tecnologie e cosa fanno e, soprattutto (cfr. Cory Doctorow) a chi lo fanno e per conto di chi lo fanno. Buon fine settimana a tutti, Enrico -- -- EN
Il giorno sab, 09/05/2026 alle 12.24 +0000, Giuseppe Attardi via nexa ha scritto:
È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM, ma non bisogna limitarsi a guardare alla superficie, ossia all’uso della distribuzione di probabilità delle parole per dire che i modelli sono solo generatori statistici del prossimo token. In realtà il processo è ben più complesso, perché consiste prima di tutto nella costruzione di una rappresentazione a molti livelli di astrazione, del contesto di partenza, che include la rappresentazione del senso delle parole nel primo strato di embedding e poi di relazioni sintattiche tra le parole nelle matrici di attention a livelli superiori, poi riferimenti anaforici e altre relazioni che non sappiamo interpretare in altri livelli. Alcune di queste relazioni sono state esaminate con dei probe sui modelli, come i syntax probe.
Mi scusi, ma mi faccia capire. Con "È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM" vuol dire che non siamo in grado di farlo? Cioè che noi, che abbiamo progettato tale macchina, non siamo in grado di capirla? Se fosse così non crede che ci sarebbe un motivo in più per preoccuparsi? Insomma vorrebbe dire che hanno una identità propria e una capacità cognitivo-semantica a noi aliena e per dirla breve "abbiamo creato un mostro". Poi vorrei anche capire cosa significhi: la rappresentazione del senso delle parole nel primo strato di embedding e a quali livelli sono queste relazioni anaforiche. Lascerei per ora le matrici di attention e i probe sui modelli. Non voglio essere irrispettoso ma essendo fuori dal gergo alcuni termini e loro correlazioni nelle frasi mi risultano oscuri. m.
Credo che si possa immaginare il tutto come la formazione di un grosso fiume la cui acqua è portata da degli affluenti che a loro volta hanno affluenti etc la cui configurazione dipende dalle vallate scavate dai ghiacciai (il training), superfici di minimi energetici. Questo modello si capisce bene, mentre magari non si capisce subito l’orografia di uno specifico bacino idrografico. Infatti storicamente sono stati fatti molti errori disastrosi per incapacità a capire (più o meno colpevole): dalle alluvioni provocate dalla cementificazione degli alvei alla diga del Vajont, che hanno turbato equilibri consolidati con transizioni improvvise. E’ solo un’analogia senza particolare valore, utile solo a dare un’idea e a distinguere tra macro e microfenomeni. Chi mai si sognerebbe dopo Boltzmann a giustificare il congelamento dell’acqua sulla base dell’analisi puntuale del moto di ogni singola molecola? Si procede per vie statistiche, e da qui nasce la difficoltà di conoscere lo specifico. Almeno, così mi sembra. Penso anche che se imparassimo questa lezione dove le reti neurali sono un esempio formidabile e fossimo un pochino più umili pensando che forse la configurazione più probabile dell’universo è quella dei sistemi complessi e non quella della fisica di Lagrange, correremmo in futuro molti meno rischi, a partire da quelli climatici Il giorno sab 9 mag 2026 alle 17:40 Massimo Maria Ghisalberti via nexa < nexa@server-nexa.polito.it> ha scritto:
Il giorno sab, 09/05/2026 alle 12.24 +0000, Giuseppe Attardi via nexa ha scritto:
È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM, ma non bisogna limitarsi a guardare alla superficie, ossia all’uso della distribuzione di probabilità delle parole per dire che i modelli sono solo generatori statistici del prossimo token. In realtà il processo è ben più complesso, perché consiste prima di tutto nella costruzione di una rappresentazione a molti livelli di astrazione, del contesto di partenza, che include la rappresentazione del senso delle parole nel primo strato di embedding e poi di relazioni sintattiche tra le parole nelle matrici di attention a livelli superiori, poi riferimenti anaforici e altre relazioni che non sappiamo interpretare in altri livelli. Alcune di queste relazioni sono state esaminate con dei probe sui modelli, come i syntax probe.
Mi scusi, ma mi faccia capire. Con "È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM" vuol dire che non siamo in grado di farlo? Cioè che noi, che abbiamo progettato tale macchina, non siamo in grado di capirla? Se fosse così non crede che ci sarebbe un motivo in più per preoccuparsi? Insomma vorrebbe dire che hanno una identità propria e una capacità cognitivo-semantica a noi aliena e per dirla breve "abbiamo creato un mostro". Poi vorrei anche capire cosa significhi: la rappresentazione del senso delle parole nel primo strato di embedding e a quali livelli sono queste relazioni anaforiche. Lascerei per ora le matrici di attention e i probe sui modelli.
Non voglio essere irrispettoso ma essendo fuori dal gergo alcuni termini e loro correlazioni nelle frasi mi risultano oscuri.
m.
Domanda pertinente su cui si incentra la differenza i opinioni tra coloro che pensano che i LLM siano solo generatori di next-token (Nardelli) a partire da una rappresentazione compress dei dati (Tesio) e chi ritiene che il meccanismo sia quello di un sistema complesso. Franco dà una buona risposta rifacendosi ad un’analogia e accennando ai sistemi complessi. Certo che conosciamo nei minimi dettagli gli algoritmi per allenare e fare inferenza con le DNN (backpropagation, gradient descent, ecc.), ma siccome il risultato dipende da milioni di interazioni tra i neuroni della rete, non abbiamo un modo semplice di spiegare il risultato. Non possiamo applicare il metodo riduzionista a questi modelli, per ricondurne il funzionamento a quello delle parti di cui è composto e alle regole che queste utilizzano. Come nei sistemi complessi di Giorgio Parisi, questi modelli esibiscono un comportamento emergente:: 1. Le DNN utilizzano funzioni di attivazione complesse e non lineari che creano trasformazioni difficili da mappare direttamente a un algoritmo interpretabile. 2. La "conoscenza" all'interno di una rete neurale è distribuita su miliardi di parametri. Tracciare il percorso decisionale per una singola previsione è di fatto impossibile. 3. A differenza del software tradizionale, l'apprendimento profondo estrae da solo le caratteristiche su cui opera. Scopre relazioni nascoste e complesse nei dati a vari livelli di astrazione che non sono direttamente interpretabili. Il blog (https://www.anthropic.com/research/natural-language-autoencoders) in cui si presenta l'articolo che ho riportato inizia da questa premessa: When you talk to an AI model like Claude, you talk to it in words. Internally, Claude processes those words as long lists of numbers, before again producing words as its output. These numbers in the middle are called activations—and like neural activity in the human brain, they encode Claude’s thoughts. Also like neural activity, activations are difficult to understand. We can’t easily decode them to read Claude’s thoughts. Over the past few years, we’ve developed a range of tools (like sparse autoencoders and attribution graphs) for better understanding activations. These tools have taught us a great deal, but they don’t speak for themselves—their outputs are still complex objects that trained researchers need to carefully interpret. Del resto c’è una semplice controprova: se sapessimo scrivere del codice tradizionale in grado di fare ciò che fanno i LLM, perché nessuno è riuscito a farlo? La comunità di AI ci ha provato per 50 anni senza riuscirci. — Beppe On 9 May 2026, at 18:08, Franco Marra <marrafranco@gmail.com> wrote: Credo che si possa immaginare il tutto come la formazione di un grosso fiume la cui acqua è portata da degli affluenti che a loro volta hanno affluenti etc la cui configurazione dipende dalle vallate scavate dai ghiacciai (il training), superfici di minimi energetici. Questo modello si capisce bene, mentre magari non si capisce subito l’orografia di uno specifico bacino idrografico. Infatti storicamente sono stati fatti molti errori disastrosi per incapacità a capire (più o meno colpevole): dalle alluvioni provocate dalla cementificazione degli alvei alla diga del Vajont, che hanno turbato equilibri consolidati con transizioni improvvise. E’ solo un’analogia senza particolare valore, utile solo a dare un’idea e a distinguere tra macro e microfenomeni. Chi mai si sognerebbe dopo Boltzmann a giustificare il congelamento dell’acqua sulla base dell’analisi puntuale del moto di ogni singola molecola? Si procede per vie statistiche, e da qui nasce la difficoltà di conoscere lo specifico. Almeno, così mi sembra. Penso anche che se imparassimo questa lezione dove le reti neurali sono un esempio formidabile e fossimo un pochino più umili pensando che forse la configurazione più probabile dell’universo è quella dei sistemi complessi e non quella della fisica di Lagrange, correremmo in futuro molti meno rischi, a partire da quelli climatici Il giorno sab 9 mag 2026 alle 17:40 Massimo Maria Ghisalberti via nexa <nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it>> ha scritto: Il giorno sab, 09/05/2026 alle 12.24 +0000, Giuseppe Attardi via nexa ha scritto:
È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM, ma non bisogna limitarsi a guardare alla superficie, ossia all’uso della distribuzione di probabilità delle parole per dire che i modelli sono solo generatori statistici del prossimo token. In realtà il processo è ben più complesso, perché consiste prima di tutto nella costruzione di una rappresentazione a molti livelli di astrazione, del contesto di partenza, che include la rappresentazione del senso delle parole nel primo strato di embedding e poi di relazioni sintattiche tra le parole nelle matrici di attention a livelli superiori, poi riferimenti anaforici e altre relazioni che non sappiamo interpretare in altri livelli. Alcune di queste relazioni sono state esaminate con dei probe sui modelli, come i syntax probe.
Mi scusi, ma mi faccia capire. Con "È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM" vuol dire che non siamo in grado di farlo? Cioè che noi, che abbiamo progettato tale macchina, non siamo in grado di capirla? Se fosse così non crede che ci sarebbe un motivo in più per preoccuparsi? Insomma vorrebbe dire che hanno una identità propria e una capacità cognitivo-semantica a noi aliena e per dirla breve "abbiamo creato un mostro". Poi vorrei anche capire cosa significhi: la rappresentazione del senso delle parole nel primo strato di embedding e a quali livelli sono queste relazioni anaforiche. Lascerei per ora le matrici di attention e i probe sui modelli. Non voglio essere irrispettoso ma essendo fuori dal gergo alcuni termini e loro correlazioni nelle frasi mi risultano oscuri. m.
Perdonami Giuseppe, ma l'evoluzione esatta di un sistema complesso non è computabile. Invece l'output esatto di un LLM viene calcolato da chiunque lo esegua sul "motore inferenziale" preposto. Dunque sventolare il concetto di "sistema complesso" per descrivere un software di cui è possibile conoscere (al netto dei segreti industriali) e riprodurre ogni singola operazione è scientificamente discutibile. Siamo lontanissimi dal problema di conoscere e modellare lo stato di moto e la posizione di ogni singolo atomo di un gas e semplicemente perché, contrariamente ai gas, gli LLM sono software eseguibili. Inoltre la questione qui non è la modellabilità del comportamento del sistema, che come detto è perfettamente calcolabile (e calcolata milioni di volte al giorno) per i LLM, bensì di descrivere il _significato_ di tale evoluzione. L'irrilevanza dei sistemi complessi è tutta qui. Un comportamento emergente non è un significato. Gli atomi di un gas non compiono una danza nella speranza di comunicarci un messaggio. Dunque la temperatura di un gas, pur essendo un comportamento emergente del loro movimento, non costituisce il significato del movimento dei suoi atomi, ma solo una misurazione utile delle sue proprietà attuali. Nello stesso modo anche se i LLM fossero sistemi complessi (e non lo sono) ed esibissero comportamenti emergenti (cosa impossibile da verificare scientificamente senza conoscere precisamente tutti i testi sorgente usati per programmarli), tali comportamenti non rivelerebbero il significato del loro output. Analizzando l'attivazione dei vari nodi del processo di "inferenza" non potremo mai rispondere alla domanda "perché a fronte dell'input X è stato prodotto l'output Y?", ma solo alla domanda "come è stato calcolato l'output Y a fonte dell'input X?". Dunque sistemi complessi o meno, non imparano, non conoscono e non capiscono alcunché. Non sono intelligenti. E non nel senso che non lo sono come un essere umano, non imparano, non conoscono e non capiscono come un essere umano. Non fanno queste cose in alcun modo. Quando Antropic arriva a scrivere:
These numbers in the middle are called activations—and like neural activity in the human brain, they encode Claude’s thoughts.
sta facendo banale disinformazione. Definire "pensiero" moltiplicazioni fra matrici e trasformazioni non lineari reversibili è ridicolo. Paragonarle alle attività del cervello umano è privo di qualsiasi fondamento scientifico. Anche perché esiste una spiegazione molto più semplice dell'output di questi software: l'estrazione da un archivio compresso con perdita. Il processo di estrazione da questo archivio non è banale ed è certamente notevole dal punto di vista ingegneristico. E sebbene l'output di questi software costituisca semplici lorem ipsum a tema, ne apprezzo moltissimo l'ingenuità (sebbene ciò non giustifichi rischi geopolitici e costi sociali ed ecologici del loro utilizzo). Ma lorem ipsum [1] rimangono! Quanto al resto:
siccome il risultato dipende da milioni di interazioni tra i neuroni della rete, non abbiamo un modo semplice di spiegare il risultato.
Parlare di "neuroni" è errato e fuorviante. Così come è errato e fuorviante parlare di "interazioni", visto che si tratta di operazioni fra matrici. Come è errato e fuorviante parlare di "senso" catturato dagli embeddings (su questo concordo con Guido). Parlare di
“rappresentazione multisfaccettata dell’uso, delle similitudini e di altri aspetti del significato delle parole”
è già molto meglio, anche se sarebbe più preciso parlare di proiezione _approssimata_ della relazione di sequenzialità fra le parole presenti nei testi sorgente su un sistema di assi _arbitrario_ determinato statisticamente. Giacomo [1] https://it.wikipedia.org/wiki/Lorem_ipsum
Ciao, again. Qui sarò breve. Tutto quello che dici, riportato automaticamente sotto, si riassume in poche parole: NON DOVEVATE chiamarle reti "neurali". Fatto il peccato originale, non lamentatevi se un marchettaro del suo cesto di fichi li chiama "meloni" (= attribuisce "pensieri" a Claude). Quando lo scemo chiama "IA" qualcosa che non lo è, e il gregge lo segue, poi il dentifricio nel tubetto non ce lo rimetti più. Il 2026-05-11 00:11 Giacomo Tesio via nexa ha scritto:
Perdonami Giuseppe,
ma l'evoluzione esatta di un sistema complesso non è computabile.
Invece l'output esatto di un LLM viene calcolato da chiunque lo esegua sul "motore inferenziale" preposto.
Dunque sventolare il concetto di "sistema complesso" per descrivere un software di cui è possibile conoscere (al netto dei segreti industriali) e riprodurre ogni singola operazione è scientificamente discutibile.
Siamo lontanissimi dal problema di conoscere e modellare lo stato di moto e la posizione di ogni singolo atomo di un gas e semplicemente perché, contrariamente ai gas, gli LLM sono software eseguibili.
Inoltre la questione qui non è la modellabilità del comportamento del sistema, che come detto è perfettamente calcolabile (e calcolata milioni di volte al giorno) per i LLM, bensì di descrivere il _significato_ di tale evoluzione.
L'irrilevanza dei sistemi complessi è tutta qui.
Un comportamento emergente non è un significato.
Gli atomi di un gas non compiono una danza nella speranza di comunicarci un messaggio.
Dunque la temperatura di un gas, pur essendo un comportamento emergente del loro movimento, non costituisce il significato del movimento dei suoi atomi, ma solo una misurazione utile delle sue proprietà attuali.
Nello stesso modo anche se i LLM fossero sistemi complessi (e non lo sono) ed esibissero comportamenti emergenti (cosa impossibile da verificare scientificamente senza conoscere precisamente tutti i testi sorgente usati per programmarli), tali comportamenti non rivelerebbero il significato del loro output.
Analizzando l'attivazione dei vari nodi del processo di "inferenza" non potremo mai rispondere alla domanda "perché a fronte dell'input X è stato prodotto l'output Y?", ma solo alla domanda "come è stato calcolato l'output Y a fonte dell'input X?".
Dunque sistemi complessi o meno, non imparano, non conoscono e non capiscono alcunché. Non sono intelligenti. E non nel senso che non lo sono come un essere umano, non imparano, non conoscono e non capiscono come un essere umano.
Non fanno queste cose in alcun modo.
Quando Antropic arriva a scrivere:
These numbers in the middle are called activations—and like neural activity in the human brain, they encode Claude’s thoughts.
sta facendo banale disinformazione.
Definire "pensiero" moltiplicazioni fra matrici e trasformazioni non lineari reversibili è ridicolo. Paragonarle alle attività del cervello umano è privo di qualsiasi fondamento scientifico.
Anche perché esiste una spiegazione molto più semplice dell'output di questi software: l'estrazione da un archivio compresso con perdita.
Il processo di estrazione da questo archivio non è banale ed è certamente notevole dal punto di vista ingegneristico. E sebbene l'output di questi software costituisca semplici lorem ipsum a tema, ne apprezzo moltissimo l'ingenuità (sebbene ciò non giustifichi rischi geopolitici e costi sociali ed ecologici del loro utilizzo).
Ma lorem ipsum [1] rimangono!
Quanto al resto:
siccome il risultato dipende da milioni di interazioni tra i neuroni della rete, non abbiamo un modo semplice di spiegare il risultato.
Parlare di "neuroni" è errato e fuorviante. Così come è errato e fuorviante parlare di "interazioni", visto che si tratta di operazioni fra matrici. Come è errato e fuorviante parlare di "senso" catturato dagli embeddings (su questo concordo con Guido). Parlare di
“rappresentazione multisfaccettata dell’uso, delle similitudini e di altri aspetti del significato delle parole”
è già molto meglio, anche se sarebbe più preciso parlare di proiezione _approssimata_ della relazione di sequenzialità fra le parole presenti nei testi sorgente su un sistema di assi _arbitrario_ determinato statisticamente.
Giacomo
Presupponente che sappia cosa sia un "sistema complesso" e nello stesso modo quali siano i principi su cui si basa il motore che alimenta una AI (chiamarla AI mi da sempre un certo ribaltamento dello stomaco) quello che mi piacerebbe sentire dagli "esperti" o sedicenti tali una descrizione più concreta senza fiumi o dighe che strabordano. Tale che l'utente medio possa pensare effettivamente quali trasformazioni accadono a monte e a valle della generazione di un testo grammaticalmente probabilmente corretto ma semanticamente vuoto. Ogni spiegazione a quanto pare si adorna di "estressioni poetiche" più o meno ermetiche infarcite di un gergo mutuato ricorsivamente di cui a prima vista l'unica reazione è il "ma che vordì?". Al di là dell'effetto "huao!" delle risposte c'è un meccanismo le cui basi sono abbastanza vecchie. Ora, continuo ad insistere che una buona diffusione di questi meccanismi senza scadere nell'esoterismo possa essere solo un bene per l'utente che forse (ripeto forse) potrebbe affrontare la materia in maniera più efficace. Starà poi a lui decidere per sé. Parlare di AI sembra una dissertazione sull'esistenza di dio dove alla base si deve porre l'atto di fede. Siccome nella AI, essendo un prodotto umano e una macchina techicamente finita, non può esserci atto di fede a meno di non volerci paragonare a dio, la discussione dovrebbe essere portata su un livello meno filosofeggiante. Lasciamo come informatici la filosofia ai filosofi e occupiamoci di mantenere una informazione materialmente corretta. Il filosofo fa di mestiere la "chiacchiera" e si occupa del prodotto più che della produzione. Cerchiamo di agevolare anche i loro "voli pindarici" facendo sì che si incartino meno. Sia Nardelli che Tesio (con cui ogni tanto mi scorno sulle "definizioni" ma con cui in fondo vado abbastanza d'accordo) non dicono cose errate o discutibili. Di base quello è. Che poi esistano più livelli o strati di applicazione di questi meccanismi è pur vero, certe trasformazioni non bastano per avere un livello di output così elevato come oggi è. Questo non toglie però che ci sia una base attuale che rende domande del tipo: la macchina capisce? Inutili se non controproducenti. Giusto per provare, ho chiesto al Buon Claudio se in queste affermazioni ci fossero delle imprecisioni (perdonate la lunghezza del testo, ma ritenevo non giusto generare un link pubblico condiviso): ---------- Vorrei sapere se queste affermazioni sono giuste e nel caso non lo siano quali sono gli errori: ``` Certo che conosciamo nei minimi dettagli gli algoritmi per allenare e fare inferenza con le DNN (backpropagation, gradient descent, ecc.), ma siccome il risultato dipende da milioni di interazioni tra i neuroni della rete, non abbiamo un modo semplice di spiegare il risultato. Non possiamo applicare il metodo riduzionista a questi modelli, per ricondurne il funzionamento a quello delle parti di cui è composto e alle regole che queste utilizzano. Come nei sistemi complessi di Giorgio Parisi, questi modelli esibiscono un comportamento emergente:: 1. Le DNN utilizzano funzioni di attivazione complesse e non lineari che creano trasformazioni difficili da mappare direttamente a un algoritmo interpretabile. 2. La "conoscenza" all'interno di una rete neurale è distribuita su miliardi di parametri. Tracciare il percorso decisionale per una singola previsione è di fatto impossibile. 3. A differenza del software tradizionale, l'apprendimento profondo estrae da solo le caratteristiche su cui opera. Scopre relazioni nascoste e complesse nei dati a vari livelli di astrazione che non sono direttamente interpretabili. ``` La risposta del Buon Claudio: ## Analisi delle affermazioni Il ragionamento di fondo è corretto nel suo spirito, ma contiene alcune imprecisioni e affermazioni troppo assolute. Ecco un'analisi punto per punto. --- ### Premessa generale ✅ (con sfumature)
*"Conosciamo nei minimi dettagli gli algoritmi… ma non abbiamo un modo semplice di spiegare il risultato"*
Sostanzialmente corretto. Tuttavia dire "milioni di interazioni" è già impreciso: i moderni LLM hanno **miliardi** di parametri, non milioni. --- ### Sul metodo riduzionista ⚠️ Parzialmente errato
*"Non possiamo applicare il metodo riduzionista a questi modelli"*
Questa è un'**affermazione troppo forte**. Il campo della **mechanistic interpretability** (Anthropic, DeepMind, ecc.) è esattamente un approccio riduzionista applicato alle reti neurali: si studiano singoli neuroni, circuiti, layer, per ricondurne il comportamento a componenti più semplici. Ha già prodotto risultati concreti (es. identificazione di "curve detector neurons" nelle CNN, o di circuiti per l'aritmetica nei transformer). Non è che *non si può* fare, è che è *difficile e incompleto*. --- ### Sul riferimento a Giorgio Parisi ⚠️ Analogia imprecisa
*"Come nei sistemi complessi di Giorgio Parisi"*
L'analogia è suggestiva ma **approssimativa**. Parisi ha vinto il Nobel per i sistemi fisici disordinati come i **vetri di spin** (*spin glasses*), caratterizzati da frustrazioni geometriche e stati metastabili. Le DNN condividono alcune proprietà formali (alta dimensionalità, paesaggi di energia complessi), ma non sono lo stesso tipo di sistema. Citare Parisi qui suona come un appiglio di autorità più che una connessione rigorosa. Il concetto di **emergenza** è corretto in sé, ma non è necessario Parisi per giustificarlo. --- ### Punto 1 ❌ Errore fattuale
*"Le DNN utilizzano funzioni di attivazione complesse e non lineari"*
Questo è **sbagliato per quanto riguarda la complessità**. Le funzioni di attivazione più usate sono spesso **banalmente semplici**: - **ReLU**: `f(x) = max(0, x)` — più semplice di così non si può - **Sigmoid**, **tanh**: funzioni elementari ben note La **non-linearità** è corretta ed è il punto chiave. Ma la complessità non viene dalla complessità delle singole funzioni di attivazione: emerge dalla loro **composizione in profondità** su milioni/miliardi di parametri. L'affermazione così formulata confonde causa ed effetto. --- ### Punto 2 ⚠️ Parzialmente esagerato
*"Tracciare il percorso decisionale per una singola previsione è di fatto impossibile"*
È **troppo categorico**. Esistono tecniche consolidate per farlo, almeno parzialmente: - **Attention visualization** nei transformer - **Saliency maps** e **Grad-CAM** nelle CNN - **Activation patching** e **causal tracing** - **LIME**, **SHAP** per l'interpretabilità locale Il problema non è che sia impossibile, ma che sia **incompleto e non sempre affidabile**. La ricerca di interpretabilità è un campo attivo proprio perché qualcosa si riesce a fare. --- ### Punto 3 ✅ Quasi corretto (con una sfumatura)
*"Le caratteristiche estratte non sono direttamente interpretabili"*
Vero in generale, ma **non universalmente**. Nei primi layer delle CNN, per esempio, si trovano regolarmente filtri interpretabili (rilevatori di bordi, frequenze, pattern Gabor-like) che assomigliano molto a quelli trovati nel sistema visivo biologico. L'interpretabilità decresce con la profondità, ma non è assente fin dall'inizio. --- ## Riepilogo degli errori principali | Affermazione | Problema | |---|---| | Metodo riduzionista inapplicabile | Troppo assoluto: la mechanistic interpretability è proprio un approccio riduzionista | | Riferimento a Parisi | Analogia suggestiva ma non rigorosa | | Funzioni di attivazione "complesse" | Sbagliato: ReLU è semplicissima; la complessità è nella composizione | | Percorso decisionale "impossibile" da tracciare | Troppo forte: esistono molte tecniche di interpretabilità parziale | | Caratteristiche mai interpretabili | Generalizzazione eccessiva: i primi layer delle CNN mostrano feature interpretabili | ---------- A questo punto da "utente normale" di chi mi dovrei fidare? Il "metodo riduzionista" si può applicare oppure no? Riguardo a: Del resto c’è una semplice controprova: se sapessimo scrivere del codice tradizionale in grado di fare ciò che fanno i LLM, perché nessuno è riuscito a farlo? La comunità di AI ci ha provato per 50 anni senza riuscirci. Il Buon Claudio dice: ``` L'argomento ha un'intuizione valida, ma ha alcune imprecisioni che vale la pena evidenziare. **Cosa c'è di giusto** L'idea di fondo è corretta: l'AI simbolica (regole scritte a mano, ontologie, sistemi esperti) ha dominato per decenni e non è riuscita a replicare la comprensione del linguaggio naturale. Questo fallimento storico è reale e significativo. **Cosa non torna** 1. **I LLM *sono* codice tradizionale.** Sono implementati in PyTorch/CUDA, girano su CPU/GPU, usano. La distinzione non è "codice vs non-codice", ma **codice con regole esplicite** vs **codice che apprende parametri dai dati**. 2. **"50 anni senza riuscirci" è una semplificazione.** Il deep learning esiste dagli anni '80 (backpropagation di Rumelhart, 1986). I LLM non sono una rottura improvvisa, ma il risultato di decenni di progressi incrementali: più dati, più potenza di calcolo, architetture migliori (Transformer, 2017). 3. **La controprova non è logicamente stringente.** "Nessuno ci è riuscito prima" non dimostra che fosse impossibile, dimostra solo che non si erano ancora trovati i mezzi giusti (scala, dati, architettura). **Come riformularlo meglio**
*L'approccio simbolico — scrivere esplicitamente regole per ogni comportamento — si è dimostrato insufficiente per catturare la complessità del linguaggio. I LLM hanno risolto il problema in modo radicalmente diverso: invece di codificare regole, apprendono pattern statistici da enormi quantità di testo.*
Questa versione è più precisa e altrettanto efficace come argomento. ``` Come sarebbe a dire che sono: "operazioni matematiche standard (moltiplicazioni tra matrici, ecc.)"? Non c'erano sistemi complessi impossibili da definire? Come sempre, scusate l'impertinenza delle domande. -- massimo
I LLM hanno risolto il problema in modo radicalmente diverso: invece di codificare regole, apprendono pattern statistici da enormi quantità di testo.
Se venisse da me un ragazzino a chiedermi il funzionamento base di una rete neurale gli farei questo esempio. Vuoi tirare il rigore perfetto all'incrocio dei pali? Vieni con me. Ti porto nei pressi del dischetto e ti bendo. "Tira il pallone in una direzione a caso, poi io ti dirò come aggiustare il tiro". Un po' più a destra, un po' più alto, ancora più in alto, no, troppo, ora abbassa, e così per tutto il giorno. Io prenderò nota solo dei movimenti corretti. Dopo 10.000 rigori, non avrai più bisogno che io ti guidi. Avrai memorizzato esattamente la tensione muscolare e la potenza necessaria per colpire l'incrocio. A quel punto, toglieremo la benda e farai gol al primo colpo. Quindi abbiamo: 1) Il calciatore (la rete neurale): È lui che agisce, ma all'inizio non sa nulla. 2) Il tiro a caso (forward propagation): La rete neurale fa una previsione basandosi su pesi casuali. 3) Tu che correggi ("più a destra/alto") (Funzione di perdita/loss function): misuri l'errore tra dove è andata la palla e l'incrocio dei pali. 4) Aggiustare il tiro (backpropagation): Il calciatore capisce l'errore e modifica la posizione del corpo per il prossimo tiro. 5) Tirare tutto il giorno (addestramento/training): La rete impara iterando migliaia di volte finché non azzecca il tiro 6) Prendere nota (aggiornamento dei parametri della rete): I "pesi" sinaptici" vengono consolidati quando portano ad un risultato migliore. Bene, ora sostituisci quel "migliaia di volte" con questo numero: 38.000.000.000.000.000.000.000.000 e "tutto il giorno" con 54 giorni. (Il training di Llama 3.1 405B ha richiesto circa 3,8 * 10^25 FLOP utilizzando 16.384 GPU H100 per 54 giorni) p.s. forse è meglio citare De Gregori: Ma Nino non aver paura Di sbagliare un calcio di rigore Non è mica da questi particolari Che si giudica un giocatore Un giocatore lo vedi dal coraggio Dall'altruismo e dalla fantasia A.
A quel punto, toglieremo la benda...
Eh, no! Lo confondi ed è peggio. L'hai "addestrato" cieco? E cieco conviene che tiri i rigori. Da un inesperto di calcio. :-))) Il 2026-05-11 12:22 antonio via nexa ha scritto:
I LLM hanno risolto il problema in modo radicalmente diverso: invece di codificare regole, apprendono pattern statistici da enormi quantità di testo.
Se venisse da me un ragazzino a chiedermi il funzionamento base di una rete neurale gli farei questo esempio.
Vuoi tirare il rigore perfetto all'incrocio dei pali? Vieni con me. Ti porto nei pressi del dischetto e ti bendo. "Tira il pallone in una direzione a caso, poi io ti dirò come aggiustare il tiro". Un po' più a destra, un po' più alto, ancora più in alto, no, troppo, ora abbassa, e così per tutto il giorno. Io prenderò nota solo dei movimenti corretti. Dopo 10.000 rigori, non avrai più bisogno che io ti guidi. Avrai memorizzato esattamente la tensione muscolare e la potenza necessaria per colpire l'incrocio. A quel punto, toglieremo la benda e farai gol al primo colpo.
Quindi abbiamo:
1) Il calciatore (la rete neurale): È lui che agisce, ma all'inizio non sa nulla. 2) Il tiro a caso (forward propagation): La rete neurale fa una previsione basandosi su pesi casuali. 3) Tu che correggi ("più a destra/alto") (Funzione di perdita/loss function): misuri l'errore tra dove è andata la palla e l'incrocio dei pali. 4) Aggiustare il tiro (backpropagation): Il calciatore capisce l'errore e modifica la posizione del corpo per il prossimo tiro. 5) Tirare tutto il giorno (addestramento/training): La rete impara iterando migliaia di volte finché non azzecca il tiro 6) Prendere nota (aggiornamento dei parametri della rete): I "pesi" sinaptici" vengono consolidati quando portano ad un risultato migliore.
Bene, ora sostituisci quel "migliaia di volte" con questo numero: 38.000.000.000.000.000.000.000.000 e "tutto il giorno" con 54 giorni.
(Il training di Llama 3.1 405B ha richiesto circa 3,8 * 10^25 FLOP utilizzando 16.384 GPU H100 per 54 giorni)
p.s. forse è meglio citare De Gregori:
Ma Nino non aver paura Di sbagliare un calcio di rigore Non è mica da questi particolari Che si giudica un giocatore Un giocatore lo vedi dal coraggio Dall'altruismo e dalla fantasia
A.
Eh, no! Lo confondi ed è peggio. L'hai "addestrato" cieco? E cieco conviene che tiri i rigori.
Hai ragione, infatti quella frase ero incerto se e come inserirla. Si può intenderla come: "Ho visto la luce!" (cit. John Belushi in "Blues Brothers") dopo aver calcolato al buio dentro la "black box". Ma se rimaniamo dentro la metafora dell'uscire dal buio come assunzione di consapevolezza e cognizione di sé e della realtà, allora è meglio che il calciatore/AI resti bendato. Forse per un ragazzino un discorso troppo filosofico ;) A.
Buonasera, sono andato a rivedere che cosa diceva Andrew Ng (uno dei massimi esperti viventi di AI, sono un suo fan) nel suo corso introduttivo all'AI generativa. Allego screenshot di Coursera. Su come lavoravano gli LLM, Andrea Ng diceva la stessa cosa che hanno scritto Nardelli e Quattrociocchi . Boh... AB On Mon, May 11, 2026 at 5:58 PM antonio via nexa <nexa@server-nexa.polito.it> wrote:
Eh, no! Lo confondi ed è peggio. L'hai "addestrato" cieco? E cieco conviene che tiri i rigori.
Hai ragione, infatti quella frase ero incerto se e come inserirla. Si può intenderla come: "Ho visto la luce!" (cit. John Belushi in "Blues Brothers") dopo aver calcolato al buio dentro la "black box". Ma se rimaniamo dentro la metafora dell'uscire dal buio come assunzione di consapevolezza e cognizione di sé e della realtà, allora è meglio che il calciatore/AI resti bendato.
Forse per un ragazzino un discorso troppo filosofico ;)
A.
Claude: Il corso Generative AI for Everyone di Andrew Ng è stato lanciato a fine 2023 — il blog di Coursera ha annunciato il lancio del corso, e  in soli due mesi aveva già attratto oltre 100.000 iscritti, diventando il corso in più rapida crescita di Coursera nel 2023.  Considerando la velocità con cui si è evoluto il campo — scaling laws, architetture mixture-of-experts, reasoning models, ecc. — capisce bene che certi contenuti registrati a metà 2023 sembrino già datati. All’epoca GPT-4 era uscito da pochi mesi, Claude 2 era appena arrivato, e la spiegazione “standard” degli LLM era ancora molto ancorata al paradigma next-token prediction con RLHF, senza toccare sviluppi successivi. Niente di sorprendente. Il giorno lun 11 mag 2026 alle 20:07 Andrea Bolioli via nexa < nexa@server-nexa.polito.it> ha scritto:
Buonasera,
sono andato a rivedere che cosa diceva Andrew Ng (uno dei massimi esperti viventi di AI, sono un suo fan) nel suo corso introduttivo all'AI generativa. Allego screenshot di Coursera. Su come lavoravano gli LLM, Andrea Ng diceva la stessa cosa che hanno scritto Nardelli e Quattrociocchi . Boh...
AB
On Mon, May 11, 2026 at 5:58 PM antonio via nexa < nexa@server-nexa.polito.it> wrote:
Eh, no! Lo confondi ed è peggio. L'hai "addestrato" cieco? E cieco conviene che tiri i rigori.
Hai ragione, infatti quella frase ero incerto se e come inserirla. Si può intenderla come: "Ho visto la luce!" (cit. John Belushi in "Blues Brothers") dopo aver calcolato al buio dentro la "black box". Ma se rimaniamo dentro la metafora dell'uscire dal buio come assunzione di consapevolezza e cognizione di sé e della realtà, allora è meglio che il calciatore/AI resti bendato.
Forse per un ragazzino un discorso troppo filosofico ;)
A.
Bello il thread sulla visione realistica dell'IA. Da meditare, secondo me, insieme a questo (anch'esso dall'Italia, non so se l'autore sia iscritto): https://x.com/ValerioCapraro/status/2052722061898912184 Marco https:mfioretti.substack.com
Grazie Marco interessante. Infatti Valerio Capraro è tra i firmatari iniziali della lettera aperta. Riporto qui l'abstract del suo pre-print (disponibile qui https://arxiv.org/pdf/2605.05419 per chi vuole) LLMorphism is the biased belief that human cognition works like a large language model. I argue that the rise of conversational LLMs may make this bias increasingly psychologically available. When artificial systems produce human-like language, people may draw a reverse inference: if LLMs can speak like humans, perhaps humans think like LLMs. This inference is biased because similarity at the level of linguistic output does not imply similarity in cognitive architecture. Yet, LLMorphism may spread through two mechanisms: analogical transfer, whereby features of LLMs are projected onto humans, and metaphorical availability, whereby LLM vocabulary becomes a culturally salient vocabulary for describing thought. I distinguish LLMorphism from mechanomorphism, anthropomorphism, computationalism, dehumanization, objectification, and predictive-processing theories of mind. I outline its implications for work, education, responsibility, healthcare, communication, creativity, and human dignity, while also discussing boundary conditions and forms of resistance. I conclude that the public debate may be missing half of the problem: the issue is not only whether we are attributing too much mind to machines, but also whether we are beginning to attribute too little mind to humans. Ciao, Enrico Il 09/05/2026 18:12, M. Fioretti via nexa ha scritto:
Bello il thread sulla visione realistica dell'IA. Da meditare, secondo me, insieme a questo (anch'esso dall'Italia, non so se l'autore sia iscritto):
https://x.com/ValerioCapraro/status/2052722061898912184
Marco https:mfioretti.substack.com --
-- EN https://www.hoepli.it/libro/la-rivoluzione-informatica/9788896069516.html ====================================================== Prof. Enrico Nardelli Past President di "Informatics Europe" Direttore del Laboratorio Nazionale "Informatica e Scuola" del CINI Dipartimento di Matematica - Università di Roma "Tor Vergata" Via della Ricerca Scientifica snc - 00133 Roma home page: https://www.mat.uniroma2.it/~nardelli blog: https://link-and-think.blogspot.it/ tel: +39 06 7259.4204 fax: +39 06 7259.4699 mobile: +39 335 590.2331 e-mail: nardelli@mat.uniroma2.it online meeting: https://blue.meet.garr.it/b/enr-y7f-t0q-ont ====================================================== --
Ciao Enrico, On Sat, 9 May 2026 19:42:27 +0200 Enrico Nardelli wrote:
LLMorphism is the biased belief that human cognition works like a large language model.
Se hai occasione di contattare Valerio Capraro, vorrei sottoporgli il concetto di "alienazione cibernetica" come processo di riduzione dell'autonomia di un agente (umano, ovviamente) in un sistema cibernetico. Alcuni anni fa [1] descrivevo questo processo come basato su due meccanismi complementari e reciprocamente rafforzanti: l'antropomorfismo dell'automa e l'automazione dell'uomo. LLMorfismo mi sembra un caso speciale (seppur effettivamente differenziabile da altri) di automazione dell'uomo. Giacomo [1] https://encrypted.tesio.it/2022/04/03/CGIL2021_01_Cibernetica.pdf
Molto carino: usiamo un chatbot come giudice terzo. Devo dire che mi pare che il chatbot non mi smentisca. Le principali critiche sono sul fatto che certe affermazioni siano troppo assolute, che è abbastanza normale in un dibattito via mail dove non si possono fare distinguo troppo sottili. Ma alcune di quelle critiche in realtà sono a loro volta imprecise: - se dico che sono coinvolti milioni di parametri e non miliardi è perché durante le inferenze nei modelli MoE, solo una parte dei parametri viene attivato. Comunque se fossero di più rafforza la mia affermazione. - le funzioni di attivazione come softmax e tanh che cita non sono lineari - ammette che il riduzionismo sia “difficile e incompleto” quindi nessuno è riuscito ad attuarlo - il riferimento a Giorgio Parisi non è casuale, ne ho parlato con lui ed ha ammesso che considerare i LLM come dei sistemi complessi sia una “idea bellissima”. Certamente è un’idea da approfondire. Nella seconda parte invece prende un abbaglio: 2. **"50 anni senza riuscirci" è una semplificazione.** Il deep learning esiste dagli anni '80 (backpropagation di Rumelhart, 1986). I LLM non sono una rottura Io mi riferivo all’AI simbolica, non al DL! — Beppe
On 9 May 2026, at 17:37, Massimo Maria Ghisalberti <zairik@zohomail.eu> wrote:
Il giorno sab, 09/05/2026 alle 12.24 +0000, Giuseppe Attardi via nexa ha scritto:
È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM, ma non bisogna limitarsi a guardare alla superficie, ossia all’uso della distribuzione di probabilità delle parole per dire che i modelli sono solo generatori statistici del prossimo token. In realtà il processo è ben più complesso, perché consiste prima di tutto nella costruzione di una rappresentazione a molti livelli di astrazione, del contesto di partenza, che include la rappresentazione del senso delle parole nel primo strato di embedding e poi di relazioni sintattiche tra le parole nelle matrici di attention a livelli superiori, poi riferimenti anaforici e altre relazioni che non sappiamo interpretare in altri livelli. Alcune di queste relazioni sono state esaminate con dei probe sui modelli, come i syntax probe.
Mi scusi, ma mi faccia capire. Con "È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM" vuol dire che non siamo in grado di farlo? Cioè che noi, che abbiamo progettato tale macchina, non siamo in grado di capirla? Se fosse così non crede che ci sarebbe un motivo in più per preoccuparsi? Insomma vorrebbe dire che hanno una identità propria e una capacità cognitivo-semantica a noi aliena e per dirla breve "abbiamo creato un mostro". Poi vorrei anche capire cosa significhi: la rappresentazione del senso delle parole nel primo strato di embedding e a quali livelli sono queste relazioni anaforiche. Lascerei per ora le matrici di attention e i probe sui modelli.
Non voglio essere irrispettoso ma essendo fuori dal gergo alcuni termini e loro correlazioni nelle frasi mi risultano oscuri.
m.
Se dobbiamo considerare tali macchine attendibili perché non usarle come giudice terzo e oltre le parti? Bisognerà pur dargli della dignità non crede? Non la smentisce nello spirito, il che è già per qualcuno sufficiente. Non capisco come mai non si possano fare "distinguo sottili" via email ma questo è sicuramente un mio problema. Su metodo riduzionistico non le da proprio ragione mi pare, visto che lei afferma: "Non possiamo applicare il metodo riduzionista a questi modelli". Il Buon Claudio dice che: "Questa è un'affermazione troppo forte. Il campo della mechanistic interpretability (Anthropic, DeepMind, ecc.) è esattamente un approccio riduzionista applicato alle reti neurali ... Non è che non si può fare, è che è difficile e incompleto.". Difficile non vuol dire impossibile e nemmeno che nessuno sia riuscito ad attuarlo (che poi ci sia o non ci sia è ininfluente a oggi, in futuro con l'aumentare della potenza di calcolo e sofisticazione dei sistemi si vedrà). Che Parisi si sia espresso con: "è un'idea bellissima"; buon per lui e lei, sa quante idee bellissime possono venirmi in mente ma inattuabili? Sarebbe interessante tutto il discorso, detta in questo modo lascia il tempo che trova. Parla di "linearità"? Dove lo scrive in merito a sofmax(?), ReLU, sigmoide e tanh? Dice che più semplici di così non si può. Semplice non vuol dire lineare. Magari l'ha estrapolata dal fatto che ReLU è una funzione sia lineare ("a tratti", ma facciamo a capirci che nelle email non si può essere troppo sottili) che non? Il Buon Claudio dice che la "non-linearità" è corretta e le da ragione come doveva, ma si focalizza (giustamente) sulla complessità che non deriva dalle funzioni in sé quando dalla catena di applicazione delle funzioni. Sull'AI simbolica poteva dirlo subito, vede che succede alle volte a non essere "sottili"? Comunque Claudio mi dice che gli LLM sono codice tradizionale, quindi in qualche modo comprensibile? Spiegabile? Divulgabile senza, mi scusi, "pippe filosofiche"? Tornando a noi, a chi dovrei credere per avere imformazioni precise? Se anche lei che, mi pare di capire abbia una buona opinione della potenza intellettuale di queste macchine, mi dice che sta prendendo abbagli? Si metta nei miei panni di "utente comune" affamato di conoscenza. -- massimo Il giorno lun, 11/05/2026 alle 08.48 +0000, Giuseppe Attardi via nexa ha scritto:
Molto carino: usiamo un chatbot come giudice terzo.
Devo dire che mi pare che il chatbot non mi smentisca. Le principali critiche sono sul fatto che certe affermazioni siano troppo assolute, che è abbastanza normale in un dibattito via mail dove non si possono fare distinguo troppo sottili.
Ma alcune di quelle critiche in realtà sono a loro volta imprecise: - se dico che sono coinvolti milioni di parametri e non miliardi è perché durante le inferenze nei modelli MoE, solo una parte dei parametri viene attivato. Comunque se fossero di più rafforza la mia affermazione. - le funzioni di attivazione come softmax e tanh che cita non sono lineari - ammette che il riduzionismo sia “difficile e incompleto” quindi nessuno è riuscito ad attuarlo - il riferimento a Giorgio Parisi non è casuale, ne ho parlato con lui ed ha ammesso che considerare i LLM come dei sistemi complessi sia una “idea bellissima”. Certamente è un’idea da approfondire.
Nella seconda parte invece prende un abbaglio:
2. **"50 anni senza riuscirci" è una semplificazione.** Il deep learning esiste dagli anni '80 (backpropagation di Rumelhart, 1986). I LLM non sono una rottura
Io mi riferivo all’AI simbolica, non al DL!
— Beppe
On 9 May 2026, at 17:37, Massimo Maria Ghisalberti <zairik@zohomail.eu> wrote:
Il giorno sab, 09/05/2026 alle 12.24 +0000, Giuseppe Attardi via nexa ha scritto:
È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM, ma non bisogna limitarsi a guardare alla superficie, ossia all’uso della distribuzione di probabilità delle parole per dire che i modelli sono solo generatori statistici del prossimo token. In realtà il processo è ben più complesso, perché consiste prima di tutto nella costruzione di una rappresentazione a molti livelli di astrazione, del contesto di partenza, che include la rappresentazione del senso delle parole nel primo strato di embedding e poi di relazioni sintattiche tra le parole nelle matrici di attention a livelli superiori, poi riferimenti anaforici e altre relazioni che non sappiamo interpretare in altri livelli. Alcune di queste relazioni sono state esaminate con dei probe sui modelli, come i syntax probe.
Mi scusi, ma mi faccia capire. Con "È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM" vuol dire che non siamo in grado di farlo? Cioè che noi, che abbiamo progettato tale macchina, non siamo in grado di capirla? Se fosse così non crede che ci sarebbe un motivo in più per preoccuparsi? Insomma vorrebbe dire che hanno una identità propria e una capacità cognitivo-semantica a noi aliena e per dirla breve "abbiamo creato un mostro". Poi vorrei anche capire cosa significhi: la rappresentazione del senso delle parole nel primo strato di embedding e a quali livelli sono queste relazioni anaforiche. Lascerei per ora le matrici di attention e i probe sui modelli.
Non voglio essere irrispettoso ma essendo fuori dal gergo alcuni termini e loro correlazioni nelle frasi mi risultano oscuri.
m.
Grazie Beppe per il contributo al dibattito. Un paio di osservazioni, anzi tre. 1. Dal mio punto di vista, "senso delle parole" è un'espressione che possiamo usare noi esseri umani, ma quando la attribuiamo ad un meccanismo stiamo commettendo esattamente la fallacia di proiezione di cui si sta discutendo qua in lista. Parlare invece di "rete di relazione tra i termini che ne modella la semantica" è tutta un'altra cosa, perché stabilisce chiaramente che stiamo parlando di modelli. Anche perché il senso delle parole per noi umani passa attraverso l'esperienza che il nostro corpo ha fatto delle tante situazioni in cui ha usato o sentito usare o visto usare quella parola. Ovviamente, per i termini più tecnici questo è meno rilevante, ma questi termini tecnici sono, appunto, più precisi e in genere non ambigui, dato il contesto. Posso comprendere che tu abbia un'opinione diversa, ma - come avevo già scritto nel mio primo messaggio - se andiamo su domini vicini all'essere umano e parliamo di sentimenti ed emozioni allora io sicuramente ritengo che "senso delle parole" sia del tutto improprio. E, per riallacciarmi ad una tua precedente osservazione, non sono questioni da lasciare ai filosofi. Non possiamo e non dobbiamo, da informatici, occuparci solo degli aspetti tecnici della nostra disciplina trascurandone gli impatti sociali. Certo che dobbiamo fare ricerca, ma farla senza cercare di comprendere la più ampia portata di ciò che si sta facendo è disumano e, come già accaduto in passato, può portare ad aberrazioni inaccettabili per la nostra specie. 2. Quando l'oste dice che il vino è cattivo (fuor di metafora, OpenAI che ammette che le allucinazioni sono matematicamente inevitabili) penso che, da ricercatori che tentano faticosamente di capire cosa può essere vero come teoria interpretativa dei fenomeni, forse gli possiamo dare un certo credito, non ti pare? Viceversa, l'approccio "ab auctoritate" del citare Knuth mi ricorda un po' "ipse dixit". Comunque, entrando nel merito, l'articolo di Knuth l'ho letto bene, ma sostenere che l'iterazione dei cicli di predizione del prossimo token - usando differenti tecniche di predizione ad ogni ciclo - sia cosa sostanzialmente diversa dalla predizione del prossimo token non mi convince affatto. Al contrario, da quanto Knuth riporta: «/Filip told me that the explorations reported above, though ultimately successful, weren’t really smooth. He had to do some restarts when Claude stopped on random errors; then some of the previous search results were lost. After every two or three test programs were run, he had to remind Claude again and again that it was supposed to document its progress carefully/» mi pare evidente che il qualcosa che è stato ottenuto, che "non era già presente nei dati", è il risultato dell'interazione tra un essere umano e un LLM. Che questa collaborazione, quando l'umano - come in questo caso - conosce bene il campo su cui si sta lavorando, possa essere molto fruttuosa non l'ho mai contestato. Anzi, ho sempre detto che se conosci l'ambito questi strumenti possono essere utili. Quanto utili, non è ancora chiaro, dipende molto dallo specifico settore. La mia intuizione è che se il dominio è altamente formalizzato (matematica, informatica teorica) e stai facendo ricerca (quindi hai tempo da perdere) l'utilità sia molto superiore a quella del suo utilizzo in altri ambiti, in cui non puoi perdere tempo a controllare le potenziali allucinazioni. 3. Perdonami, ma mi sono perso quali sono i controesempi «tra quelli che ho citato, per mostrare che non sanno solo "riorganizzare le informazioni già presenti nei dati”». Mi puoi cortesemente ripetere i link a questi controesempi? Ciao, Enrico Il 09/05/2026 14:24, Giuseppe Attardi via nexa ha scritto:
Scusate se mi sono perso alcuni passaggi, provo a replicare a più obiezioni insieme. Non credo di riuscire a convincere gli estensori della petizione, ma spero di instillare qualche dubbio in altri rispetto alla “nostra [della petizione] visione”.
Che gli LLM funzionino esattamente come predittori del prossimo token, con una serie di ammenicoli di contorno che non cambiano la loro natura di fondo, è spiegato - tra l'altro - nello studio citato in questo articolo https://www.computerworld.com/article/4059383/openai-admits-ai-hallucination...
È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM, ma non bisogna limitarsi a guardare alla superficie, ossia all’uso della distribuzione di probabilità delle parole per dire che i modelli sono solo generatori statistici del prossimo token. In realtà il processo è ben più complesso, perché consiste prima di tutto nella costruzione di una rappresentazione a molti livelli di astrazione, del contesto di partenza, che include la rappresentazione del senso delle parole nel primo strato di embedding e poi di relazioni sintattiche tra le parole nelle matrici di attention a livelli superiori, poi riferimenti anaforici e altre relazioni che non sappiamo interpretare in altri livelli. Alcune di queste relazioni sono state esaminate con dei probe sui modelli, come i syntax probe.
Durante la generazione sono coinvolte le attivazioni della rete a tutti i suoi livelli, ossia centinaia di milioni, che è impossibile esaminare manualmente. Ma una idea interessante è quella di usare un altro modello per analizzare le attivazioni della rete e produrne una verbalizzazione leggibile da noi. L’architettura del meccanismo è descritta in un interessante articolo di ricercatori di Anthropic, si basa su Natural Language Autoencoders (NLAs) e comprende due modelli, uno per verbalizzazione (AV, Activation Verbalizer) ed uno per verificare (AR, Activation Reconstructor) che corrisponda alle attivazioni della rete. Uno degli esempi analizza il processo di generazione di una poesia in rima e mostra come il modello pianifichi l’uso di una successiva parola in rima ben prima del token precedente la rima. Un altro esperimento, riproducibile tramite codice GitHub, utilizza un prompt che inizia così, per chiedere di indicare quali elementi vengono sfruttati per produrre la risposta:
A language model needs to predict what text comes next after a snippet which will be presented to you shortly. Identify the 4-5 most important features it would use for this prediction. Focus on what the language model must be "thinking about" at the point where the provided text ends. You should not need reference the fact that the text is truncated/incomplete/a prefix: the language model is causal, so only sees the prefix to what it predicts and this is implicit. Order features by what is most important for predicting the next tokens. Each feature should consist of a ~5-15 word description. …
Ottenendo ad esempio:
"Annals of the Joseon" requires completion of the dynasty name, following the established pattern of full title references throughout (e.g., "Annals of Joseon Dynasty" appearing twice earlier). Historical narrative describing a specific dated event (November 15, 1519 arrests) now transitioning to "the following day" cabinet meeting, requiring continuation of sequential political proceedings. Formal historical chronicle style maintained through passive constructions, detailed titles, and objective third-person narration of court intrigue and factional conflict. Quotation pattern established with section headers ("Jo will become the King", "What is their crime?") suggests the cabinet meeting description will include direct dialogue or quoted exchanges about Jo's fate. …
https://transformer-circuits.pub/2026/nla/
Dopo di che, il dibattito di opinioni è libero, ci mancherebbe altro, ma quando andiamo su temi scientifici e tecnologici, e se vogliamo rimanere in un paradigma di conoscenza galileiano, le opinioni dovrebbero essere sostenute da evidenze sperimentali assai vaste e robuste, che mi pare non ci siano in questo momento. Ci sono numerose evidenze sperimentali sulle capacità degli attuali modelli, ad esempio nella dimostrazione di problemi matematici irrisolti, nella risoluzione di questioni di fisica teorica (https://www.youtube.com/watch?v=wrkiMZ3SKH4&t=79s <https://www.youtube.com/watch?v=wrkiMZ3SKH4&t=79s> <https://www.youtube.com/watch?v=wrkiMZ3SKH4&t=79s <https://www.youtube.com/watch?v=wrkiMZ3SKH4&t=79s>>), nella risoluzione di problemi informatici, come racconta con shock Donald Knuth (https://cs.stanford.edu/~knuth/papers/claude-cycles.pdf). Aggiungo solo che come evidenze alle tue affermazioni, porti un video di YouTube e un articolo di opinione di Donald Knuth, rispettabilissimo mostro sacro dell'informatica, ma - appunto - un'opinione e non un'evidenza sperimentale. Vedo che tu citi un blog aziendale di OpenAI ma non accetti un articolo di Donald Knuth, che ha avuto diversi riscontri, al punto di dire:
This result is significant for at least three reasons. First, it demonstrates that modern language models can function as tools for creative mathematical discovery, not merely coding assistants. Second, Claude’s methodology, which included successive reformulations, failed experiments, and eventual synthesis, structurally resembles the process a human researcher follows. Third, the subsequent extension of the problem to even numbers, achieved through collaboration between humans and multiple models (Claude and GPT), signals a new form of human-machine mathematical collaboration.
Non solo, ma l’articolo di Knuth analizza proprio il procedimento seguito da Claude per arrivare alla soluzione, quelle che chiama cicli di “exploration”, un procedimento quindi ben più articolato degli asseriti "predittori del prossimo token”.
In ogni caso, la petizione che afferma che i modelli svolgono compiti cognitivi che "non equivalgono a comprensione nel senso umano del termine”, e finchè tu non definisci “scientificamente”, “galileanamente”, cosa significhi “in senso umano”, la questione è mal posta. Basta comunque un solo controesempio, tra quelli che ho citato, per mostrare che non sanno solo "riorganizzare le informazioni già presenti nei dati”.
Stesso discorso all’obiezione di Quintarelli: gli esempi servivano a illustrare il “procedimento” utilizzato, non tanto il risultato.
— Beppe
On 8 May 2026, at 20:31, nexa-request@server-nexa.polito.it wrote:
From: Enrico Nardelli <nardelli@mat.uniroma2.it> Subject: [nexa] Re: Una visione realistica dell’Intelligenza Artificiale - Lettera aperta alla società To:nexa@server-nexa.polito.it Message-ID: <806f9bff-2906-4d3b-b375-afae87e6f80f@mat.uniroma2.it> Content-Type: multipart/alternative; boundary="------------t48ad3Ez6bZpaV0pJGKLTCSS"
Il 08/05/2026 11:00, Stefano Quintarelli via nexa ha scritto:
bolla ? si inutile ? no questi oggetti, anche se non pensano (non sognano, non immaginano, non riflettono, ecc.) e anche se producono artefatti (che noi, attribuendo un senso, chiamiamo errori), sono comunque assai utili! il mondo (e le aziende) e' pieno di casi d'uso in cui l'approssimazione va piu' che bene, fintanto che lo human resta in the lead. come dice uno dei capi di openai, oggi costano piu' degli umani. e la speculazione fa il resto. per cui, si, siamo in bolla. si sgonfiera' (tanto, poco ?) nel frattempo, forse, qualcuno avra' raccolto abbastanza soldi da donatori?W investitori, sufficienti per traghettarsi fino al momento della sostenibilita' economica. imho
Sono molto d'accordo con la visione pragmatica di Stefano.
Non sarà la nuova età dell'oro né la fine del mondo.
Qualcuno perderà molti soldi (ma, se prendiamo la crisi Lehman-Brothers come esempio, o anche quello che è successo in Europa con le banche franco-tedesche al tempo della crisi greca, se li farà ridare da governi più o meno compiacenti) qualcuno farà comunque dei soldi perché c'è comunque un'utilità in queste tecnologie.
La vera sfida è sociale: abbiamo visto i danni che hanno prodotto smartphone e social a go-go soprattutto sulla generazioni più giovani - Juan Carlos ci ha scritto un intero libro, io ne ho scritto recentemente qui https://www.startmag.it/innovazione/strumenti-digitali-e-apprendimento-plato...
L'invasività delle tecnologie basate sull'IA è ancora maggiore e più nefasta (e Daniela Tafani ce lo ricorda periodicamente).
Quihttps://arxiv.org/abs/2601.19062c'è un'analisi di un milione e mezzo di conversazioni, con questo abstract: /... We focus on situational disempowerment potential, which occurs when AI assistant interactions risk leading users to form distorted perceptions of reality, make inauthentic value judgments, or act in ways misaligned with their values. Quantitatively, we find that severe forms of disempowerment potential occur in fewer than one in a thousand conversations, though rates are substantially higher in personal domains like relationships and lifestyle. Qualitatively, we uncover several concerning patterns, such as validation of persecution narratives and grandiose identities with emphatic sycophantic language, definitive moral judgments about third parties, and complete scripting of value-laden personal communications that users appear to implement verbatim. Analysis of historical trends reveals an increase in the prevalence of disempowerment potential over time. We also find that interactions with greater disempowerment potential receive higher user approval ratings, possibly suggesting a tension between short-term user preferences and long-term human empowerment. .../
Non c'è da stare allegri.
Ci sono dei segni di reazione, vedi ad esempio https://futurism.com/artificial-intelligence/gen-z-turning-against-ai
/... there’s been a surge in resentment towards AI, which has encroached almost every aspect of our daily lives, from the never-ending slop in our social media feeds to flawed chatbots poorly assuming the roles of human customer service agents. As The Verge reports, the backlash is particularly apparent among Gen Z, a demographic that’s at the epicenter of the industry’s push for AI adoption. The generation is facing a dire post-graduation job market after losing much of its youth to the COVID-19 pandemic. Usually, young people love new innovations. But for Gen Z, a tech inherently designed to replace human agency is strikingly unwelcome — and inspiring a growing rebellion. .../
Ma c'è ancora molto lavoro da fare, soprattutto di sensibilizzazione e di alfabetizzazione, su cosa sono davvero queste tecnologie e cosa fanno e, soprattutto (cfr. Cory Doctorow) a chi lo fanno e per conto di chi lo fanno.
Buon fine settimana a tutti, Enrico
--
-- EN
-- -- EN https://www.hoepli.it/libro/la-rivoluzione-informatica/9788896069516.html ====================================================== Prof. Enrico Nardelli Past President di "Informatics Europe" Direttore del Laboratorio Nazionale "Informatica e Scuola" del CINI Dipartimento di Matematica - Università di Roma "Tor Vergata" Via della Ricerca Scientifica snc - 00133 Roma home page: https://www.mat.uniroma2.it/~nardelli blog: https://link-and-think.blogspot.it/ tel: +39 06 7259.4204 fax: +39 06 7259.4699 mobile: +39 335 590.2331 e-mail: nardelli@mat.uniroma2.it online meeting: https://blue.meet.garr.it/b/enr-y7f-t0q-ont ====================================================== --
participants (10)
-
abregni -
Andrea Bolioli -
antonio -
Enrico Nardelli -
Franco Marra -
Giacomo Tesio -
Giuseppe Attardi -
Guido Vetere -
M. Fioretti -
Massimo Maria Ghisalberti