Superapprezzo la risposta di Beppe (e ringrazio per le informazioni fornite in modo così chiaro).

Però -- a caldo -- temo che il faintendimento possa essere nato da un problema linguistico (guarda caso...), ovvero la locuzione "farsi una propria idea" (della realtà) suona proprio male, se non letta in senso "tecnico" (ovvero "avere uno straccio di modello interno"), che è da un lato l'unica lettura che può aver senso, ma dall'altro scatena reazioni istintive, particolarmente -- penso -- per le parole "idea" e " propria".

Senza entrare in dibattiti di genere (che però qualche volta contano...), una reazione "femminile non tecnica" (niente di personale, solo tentativo di spiegazione) a me sembra più che comprensibile.

Io sarei, genericamente, del parere che -- a parte la minchiata di chiamare il tutto "AI"... -- gran parte della faccenda di cui discutiamo si giochi sulla mancanza di linguaggio adeguato :-))) a non fare confusione fra l'umano e la macchina (come Daniela, ipotizzo, reagisce a "farsi un'idea propria", così Giacomo modella la "comunicazione" come se da un lato ci debba necessariamente un essere che intende trasmette informazione, ...il che sappiamo da Watzlawick che non è).

Scusate l'intrusione (a caldo).

"Se sbaglio", come disse qualcuno, "corigetemi".

- Abbiamo una macchina che "ci parla";

- "Facciamo finta", ovvero prendiamo atto, che sia così (anche quando è nata la TV, c'era gente che "credeva" a tutto quello che la TV diceva; idem con gli spreadsheet); se ci mettiamo, volutamente o per errore, a "umanizzare" la macchina, facilmente rischiamo incomprensioni e/o cantonate.

----- Original Message -----

Sent: Monday, May 18, 2026 11:34 AM

Subject: [nexa] Re: Illusions of Understanding from Outsourcing Thinking to LLMs

On 16 May 2026, at 19:57, Daniela Tafani <daniela.tafani@unipi.it> wrote:

D'accordo.

Allora, quando hai scritto frasi come "Oggi i modelli sanno leggere e interpretare immagini e quindi farsi una propria idea della realtà",
stavi formulando una tua personale professione di fede.

Niente affatto. Si tratta di evidenze da esperimenti condotti nel campo della Mechanistic Interpretability.

Sarò didascalico e rimando per approfondimenti e citazioni al libro di Nello Cristianini, Forma Mentis, ed. Il Mulino.

Per dimostrare che un LLM multimodale (elaborazione di testo e visione) ha un modello della realtà, si applicano varie tecniche: probe, causal intervention, invarianza cross-modale e generalizzazione contrattuale.

1. Linear probe: trovare la mappa latente

Si congelano l'LLM e si addestra un probe lineare (una sonda) per guardare le attivazioni interne del modello mentre legge il testo o guarda le immagini.

Ad esempio, in un noto esperimento (Othello-GPT), un modello è stato addestrato solo su stringhe di testo di mosse legali nel gioco Othello. Non gli è mai stata data una scacchiera visiva o fornite regole. Sondando i suoi strati interni, si è osservato che il modello aveva costruito autonomamente una matrice interna 8x8, rappresentazione esatta dello stato della scacchiera.

Geografia e tempo: quando i moderni LLM vengono alimentati con nomi di città o personaggi storici, i probe rivelano che le attivazioni interne del modello si raggruppano geometricamente in una mappa 3D della terra e su una cronologia lineare della storia.

2. Causal Intervention: Dimostrare che la mappa viene utilizzata

Se individuiamo le attivazioni relative alla rappresentano il concetto "Parigi è la capitale della Francia", si possono alterare specificamente quei pesi in "Parigi è la capitale di Roma”. Gli effetti si propagano su tutta la sua percezione della realtà. Alla domanda: "Dove vive il presidente francese?" O "Che lingua parlano vicino alla Torre Eiffel?", un modello modificato risponderà "Roma" e "italiano".

3. Invarianza cross-modale

Se un modello legge una descrizione testuale di una stanza o in alternativa una foto della stanza e poi lo si interroga sulla presenza di una chitarra con una frase nel primo caso o un’immagine nel secondo, si attivano gli stessi identici vettori.

4. Generalizzazione alle realtà controfattuale

Se dici a un LLM multimodale: "In questo universo immaginario, la gravità spinge le cose verso l'alto e gli oggetti pesanti galleggiano più in alto di quelli leggeri", il modello utilizza le nuove regole astratte per simulare accuratamente la scena.

Ci sono quindi evidenze scientifiche che un LLM crei una simulazione matematica compressa delle leggi fisiche e logiche del mondo utile a risolvere il compito cui è stato addestrato: prevedere cosa verrà dopo.

Naturalmente questo non significa che un modello abbia una “comprensione in senso umano”, perché come ho già detto, non abbiamo una definizione scientifica di cosa questa sia e comunque la ritengo è una questione irrilevante.

Così va bene, grazie. Non occorre discutere oltre.

Io mi appello alla libertà di culto.

La religione della Silicon Valley non è la mia.

È spiacevole quando da una discussione sul merito si passa a giudizi sulla persona.

Credo che chi mi conosce sappia che ho sempre operato in modo intellettualmente onesto e libero.

Sono stato sempre in prima linea contro i monopoli, fin dai tempi di IBM a quelli delle telecom, portando Internet in Italia, costruendo la rete GARR, creando il primo motore di ricerca web in Italia con codice OS (che venne distrutto da Google che offrì i suoi servizi gratis ai nostri clienti), ho costruito il cloud GARR tutto su software OS (che venne anch’esso osteggiato da AWS che offrì alle università servizi a prezzi scontati o da Google che offrì Google Workspace con spazio disco illimitato gratis alle università, salvo poi rimangiarselo 3 anni dopo).

Da dieci anni denuncio la deriva delle Tech Economy in scritti e convegni (https://wwwnew2.unipi.it/index.php/unipieventi/event/4887-la-deriva-della-tech-economy)

Ho programmato (non solo chiacchierato) insieme con Richard Stallman e sono autore di SW OS usato da milioni di persone, quali il mio contributo a Java o lo script usato per estrarre i testi da Wikipedia per allenare i LLM.

Sono stato tra i pionieri del Deep Learning per il NLP, costruendo i primi word embeddings insieme col gruppo di Yoshua Bengio e una articolata libreria (DeepNL) oltre che un parser a dipendenze basato su DL.

Ho insegnato il DL e i LM per 15 anni, prima che molti sapessero cosa fossero e gli studenti del mio corso hanno sviluppato soluzioni basate su di essi, vincendo premi a competizioni internazionali.

Conosco la tecnologia nei minimi dettagli, ho assistito direttamente al suo progresso e per questo mi sforzo di farne cogliere la portata.

Il 16/05/26 18:53, Giuseppe Attardi ha scritto:

On 16 May 2026, at 18:25, Daniela Tafani <daniela.tafani@unipi.it> wrote:

E' come temevo, sì: non si può dire, allora,
né che le persone pensino né che gli artefatti non pensino.
Puoi dire ciò che vuoi, ma devi fornire una definizione quando vuoi “provare” qualcosa, come quando parli di “onere della prova”.
Anche una proprietà come l’intelligenza può essere “provabile” dandone una definizione osservabile e falsificabile, come ad esempio il test di Turing.

--

Esattamente l'indistinguibilità tra persone e macchine che caratterizza l'approccio dello psicopatico
(Simon Baron-Cohen, La scienza del male. L'empatia e le origini della crudeltà, 2012)
e di quel progetto politico del complesso militare-industriale (e accademico) denominato "intelligenza artificiale".

________________________________________
Da: Giuseppe Attardi <attardi@di.unipi.it>
Inviato: sabato 16 maggio 2026 17:59
A: Daniela Tafani
Cc: Giuseppe Attardi; nexa
Oggetto: Re: Illusions of Understanding from Outsourcing Thinking to LLMs

On 16 May 2026, at 16:23, Daniela Tafani <daniela.tafani@unipi.it> wrote:

Quindi potrei sostenere che la sedia, il tavolo e la tovaglia pensino?
Ragionamento fallace: dire che non si può affermare !P(x) senza una definizione di P(x), significa che non si può affermare né P(x) né !P(x) per nessun x.

Non incomberebbe a me l'onere della prova?
Per provare qualcosa, occorre prima definirla formalmente.

--

________________________________________
Da: Giuseppe Attardi via nexa <nexa@server-nexa.polito.it>
Inviato: sabato 16 maggio 2026 12:48
A: Giuseppe Attardi
Cc: nexa
Oggetto: [nexa] Re: Illusions of Understanding from Outsourcing Thinking to LLMs

On 16 May 2026, at 12:20, Giuseppe Attardi <giuseppe.attardi@unipi.it> wrote:

On 16 May 2026, at 06:30, nexa-request@server-nexa.polito.it wrote:

LLMs Cannot Think

La scienza tratta solo concetti che siano misurabili, osservabili e falsificabili.
Si potrà falsificare “think” solo quando se ne darà una definizione falsificabile.

The companies marketing their LLMs often describe them with
anthropomorphising terms like "thinking" and "reasoning", which might
create the impression that they can think (Mirzadeh et al., 2025;
Shojaee et al., 2026). But for that impression to be accurate we would
have to stretch the meaning of the term to refer trivially to whatever
the LLMs produce as output
Argomento del fantoccio (strawman): attribuisce una definizione che piace a lui a quanto direbbero altri.
- much like the meaning of intelligence has
historically been watered down to whatever the tests used to
operationalise the construct measured (Loru et al., 2025; Mitchell,
2023; Quattrociocchi & Capraro, 2025; van der Maas et al., 2021). The
task of developing systems with non-trivial capability for human-like
cognition is computationally intractable (van Rooij et al., 2024).

L’articolo di van Rooij afferma che si tratta di un problema NP-hard. Quasi ogni problema interessante in informatica è NP-hard, il ché non vuol dire che non si possa affrontare.
A scanso di equivoci: tutte le proprietà non banali dei programmi sono non decidibili, teorema di Rice.
Per problemi interessanti intendevo ciò che resta all’interno del computabile.
Lo sviluppo di euristiche per risolvere efficientemente problemi NP-hard è un importante campo di ricerca.
Qualcuno lo ha fatto proprio con i Transformer:
https://arxiv.org/abs/2103.03012

--