[nexa] Re: Pappagalli stocastici: Alberto Puliafito sulle precisazioni di Emily Bender in merito.

May 15, 2026

      Bonus track:

Vi riporto più sotto la traduzione del paragrafo 4 dell'articolo di 
Bender di Bender & Koller del 2020 fatta da Claude (l'ho ricontrollata 
io e non dovrebbero esserci castronerie), perché la ritengo molto utile 
per capire bene la sostanza delle argomentazioni in gioco rispetto al 
problema di cosa vuol dire "comprendere come un essere umano".

È facilmente comprensibile da chiunque, non è tecnica, non ha formule.

Naturalmente, non è un teorema matematico, come il teorema di PItagora, 
ma è un argomento difficilmente contestabile se non dicendo ciò che 
viene ripetuto a proposito di questi sistemi, cioè che le loro 
rappresentazioni interne molto sofisticate e i loro output altamente 
complessi sono equivalenti a quelli degli esseri umani, e quindi questi 
sistemi comprendono e ragionano come gli essere umani.

L'articolo di Bender & Koller del 2020, alla cui lettura vi invito 
nuovamente, contesta proprio questo uso di termini: /If the highlighted 
terms are meant to describe human-analogous understanding, 
comprehension, or recall of factual knowledge, then these are gross 
overclaims. If, instead, they are intended as technical terms, they 
should be explicitly defined./ E poi sottolinea: /we have highlighted 
both the extent to which there is evidence that large LMs can learn 
aspects of linguistic formal structure (e.g. agreement, dependency 
structure), and how their apparent ability to “reason” is sometimes a 
mirage built on leveraging artifacts in the training data (i.e. form, 
not meaning). Our contribution is an argument on theoretical grounds 
that a system exposed only to form in its training cannot in principle 
learn meaning/.

Ecco quindi il paragrafo 4, intitolato "Il test del polpo".

Buona lettura e buona riflessione.

Enrico

------------------------------------------------------
Per illustrare le difficoltà nel tentare di apprendere il significato 
dalla sola forma, proponiamo uno scenario concreto. Immaginiamo che A e 
B, entrambi parlanti fluenti di inglese, si ritrovino naufraghi su due 
isole disabitate. Scoprono presto che i visitatori precedenti hanno 
lasciato dei telegrafi e che possono comunicare tra loro tramite un cavo 
sottomarino. A e B cominciano felicemente a scambiarsi messaggi.

Nel frattempo, O, un polpo degli abissi dall'intelligenza sopraffina che 
non può visitare né osservare le due isole, scopre un modo per 
intercettare il cavo sottomarino e origliare le conversazioni tra A e B. 
O inizialmente non sa nulla di inglese, ma è molto bravo a rilevare 
schemi statistici. Col tempo, impara a prevedere con grande precisione 
come B risponderà a ciascun messaggio di A. O osserva anche che certe 
parole tendono a comparire in contesti simili, e forse impara a 
generalizzare i pattern lessicali ipotizzando che possano essere usate 
in modo intercambiabile. Ciononostante, O non ha mai osservato quegli 
oggetti nel mondo reale, e quindi non sarebbe in grado di identificare 
il referente di una parola se gli venisse presentata una serie di 
alternative (fisiche).

A un certo punto, O comincia a sentirsi solo. Taglia il cavo sottomarino 
e si inserisce nella conversazione, fingendo di essere B e rispondendo 
ai messaggi di A. O riesce a spacciarsi per B senza insospettire A? 
Questo costituisce una forma debole del test di Turing (debole perché A 
non ha motivo di sospettare di star parlando con un non umano); la 
domanda interessante è se O fallisca il test perché non ha appreso la 
relazione di significato, avendo visto solo la forma degli enunciati di 
A e B.

La misura in cui O riesce a ingannare A dipende dal compito — cioè da 
ciò di cui A vuole parlare. A e B hanno trascorso molto tempo a 
scambiarsi note banali sulla vita quotidiana per rendere più piacevoli 
le lunghe serate sull'isola. Sembra plausibile che O riesca a produrre 
nuove frasi del tipo di quelle che usava B; comportandosi essenzialmente 
come un chatbot. Questo perché gli enunciati in tali conversazioni hanno 
principalmente una funzione sociale e non devono essere radicati nei 
particolari della situazione fisica concreta degli interlocutori né in 
nulla di specifico del mondo reale. È sufficiente produrre testo 
internamente coerente.

Ora immaginiamo che A abbia inventato un nuovo congegno, diciamo una 
catapulta per noci di cocco. Eccitata, invia a B le istruzioni 
dettagliate per costruirla e chiede delle sue esperienze e suggerimenti 
per migliorarla. Anche se O avesse un modo per costruire la catapulta 
sott'acqua, non sa a cosa si riferiscono parole come *corda* e *noce di 
cocco*, e quindi non può riprodurre fisicamente l'esperimento. Può solo 
ricorrere alle osservazioni precedenti su come B rispondeva a enunciati 
simili. Forse O riconosce gli enunciati sui manghi e i chiodi come 
"simili" perché quelle parole erano apparse in contesti analoghi a *noce 
di cocco* e *corda*. Così O decide di dire semplicemente "Bella idea, 
ottimo lavoro!", perché B lo diceva spesso quando A parlava di corde e 
chiodi. È del tutto concepibile che A accetti questa risposta come 
significativa — ma solo perché è A a fare tutto il lavoro 
nell'attribuire significato alla risposta di O. Non è perché O abbia 
capito il significato delle istruzioni di A, né tantomeno della propria 
risposta.

Infine, A si trova in una situazione d'emergenza. Viene all'improvviso 
inseguita da un orso arrabbiato. Afferra un paio di bastoni e chiede 
freneticamente a B di trovare un modo per costruire un'arma con cui 
difendersi. Naturalmente, O non ha la minima idea di cosa A "intenda". 
Risolvere un compito del genere richiede la capacità di mappare con 
precisione le parole sulle entità del mondo reale (oltre che 
ragionamento e pensiero creativo). È a questo punto che O fallirebbe il 
test di Turing — se A non fosse già stata divorata dall'orso prima di 
accorgersi dell'inganno.

Avendo a disposizione solo la forma come dati di addestramento, O non ha 
appreso il significato. Il linguaggio scambiato da A e B è una 
proiezione delle loro intenzioni comunicative, attraverso la relazione 
di significato, in forme linguistiche. Senza accesso a un mezzo per 
ipotizzare e verificare le intenzioni comunicative sottostanti, 
ricostruirle a partire dalle sole forme è un'impresa impossibile, e 
l'uso del linguaggio da parte di O finirà inevitabilmente per divergere 
da quello di un agente capace di radicare il linguaggio in intenzioni 
comunicative coerenti.

L'esperimento mentale illustra anche il punto del §3 sul ruolo attivo 
degli ascoltatori nella comunicazione. Quando O inviava segnali ad A 
fingendo di essere B, sfruttava le regolarità statistiche della forma, 
ovvero la distribuzione delle forme linguistiche che aveva osservato. 
Qualunque cosa abbia imparato O è un riflesso delle intenzioni 
comunicative di A e B e della relazione di significato. Ma riprodurre 
questa distribuzione non è sufficiente per una comunicazione 
significativa. O ha ingannato A facendole credere di essere B solo 
perché A era un'ascoltatrice così attiva: poiché gli agenti che 
producono frasi in inglese di solito hanno intenzioni comunicative, A 
assume che anche O le abbia, e quindi attribuisce agli enunciati di O il 
significato convenzionale che l'inglese vi associa. Poiché assume che O 
sia B, usa quel significato convenzionale insieme alle sue altre ipotesi 
sullo stato mentale e gli obiettivi di B per attribuire un'intenzione 
comunicativa. Non è che gli enunciati di O abbiano senso, ma piuttosto 
che A riesce a dargli senso.
----------------------------------------------------

Il 15/05/2026 20:08, Enrico Nardelli via nexa ha scritto:
...
Ritengo doveroso articolare una riflessione.
Il post della Bender
https://medium.com/@emilymenonbender/stochastic-parrots-frequently-unasked-q...
dice:
/in Bender and Koller 2020 ... we provide a definition of 
understanding as mapping from language to something outside of 
language, and show that systems built only with linguistic form have 
no purchase with which to encode (“learn”) such a mapping.
/
Ovvero: Definiamo comprensione come una corrispondenza tra linguaggio 
e qualcosa fuori il linguaggio. Un sistema addestrato solo sulle forme 
linguistiche non ha modo di codificare questa corrispondenza.
Dopo di che dice:
/Stochastic parrots was coined to refer to language models, i.e. 
systems trained only on linguistic form used to mimic the kinds of 
sequences of linguistic form that people use./
Ovvero: Il termine "pappagalli stocastici" si riferiva ai sistemi 
addestrati sulle forme linguistiche che imitano quelle che usano le 
persone.
E poi dice ancora, e qui c'è l'espressione che si pensa scardini tutto:
/It is true that image/text models, for example, that can be used to 
map from linguistic strings to images or vice versa, can be argued to 
meet the definition of understanding in Bender & Koller 2020, albeit 
in an extremely thin way/.
Ovvero: si può sostenere che un modello misto con testo e immagini, 
che mette in corrispondenza testi con immagini o viceversa, risponda 
alla nostra definizione di comprensione, anche se in un modo 
estremamente sottile.
E poi continua:
/When we look at the text in an image/text model, we make sense of it 
in a way that is rich and socially situated and we must not project 
that onto the model if we want to keep a clear-eyed view of how such 
models actually function (and in what circumstances we should be 
willing to use them)/.
Ovvero: quando noi guardiamo il testo di un modello misto con testo e 
immagini, lo comprendiamo in modo ricco e socialmente situato, che non 
deve essere proiettato sul modello, se vogliamo mantenere una visione 
chiara su come il modello funziona effettivamente
E infine:
/Even if there is some thin kind of technical “understanding” in e.g. 
a text/image model, the fact that it’s using our language at all will 
send misleading signals about what is actually going on, so long as we 
relate to language as we always do (and I don’t see how we can avoid 
doing so)/.
Ovvero: anche se c'è una esile forma di "comprensione" in senso 
tecnico in un modello misto con testo e immagini, il semplice fatto 
che usi il nostro linguaggio ci manda segnali fuorvianti su ciò che 
sta accadendo, finché noi ci relazioniamo al linguaggio come sempre 
facciamo (e non vedo come potremmo fare diversamente)
Ecco, leggendo questi passi tutti insieme e non estraendo solo la 
frase "risponde alla nostra definizione di comprensione", si capisce 
che l'accoppiamento fra testo e immagine rientra da un punto di vista 
sintattico (/in an estremely thin way/ - direi per un capello) nella 
definizione tecnica di comprensione della Bender, ma non è la 
comprensione umana. Notate che dice che siamo NOI che lo comprendiamo 
(/we make a sense of it/) sulla base della nostra esperienza. Infatti, 
questo "qualcosa fuori il linguaggio" della definizione è l'intento 
comunicativo del parlante, che è basato sul mondo reale che parlante e 
ascoltatore condividono (/the communicative intent is grounded in the 
real world the speaker and listener inhabit together/).
Se si legge con attenzione l'articolo di Bender & Koller del 2020 
citato nel post della Bender 
(https://www.aclweb.org/anthology/2020.acl-main.463/ - cosa che vi 
invito a fare, è abbastanza accessibile) tutto questo è molto chiaro, 
così come la tesi principale di quell'articolo, che rimane interamente 
salda e non scalfita.
/We argue that the language modeling task, because it only uses form 
as training data, cannot in principle lead to learning of meaning. ... 
We take (linguistic) meaning to be the relation between a linguistic 
form and communicative intent/.
Certo, uno può leggere nel recente post della Bender quello che vuole, 
ma argomentare trionfanti che "è una retromarcia bella grossa" mi 
sembra esagerato.
Questo non vuol ovviamente dire che progressi nella ricerca e nelle 
architetture dei sistemi di IA non potranno darci in futuro una 
qualche forma di comprensione, che con le attuali architetture non c'è.
Ciao, Enrico
Il 14/05/2026 00:43, Fabio Alemagna via nexa ha scritto:
...
Riporto qui un post di Alberto Puliafito, pubblicato su Facebook::
https://www.facebook.com/share/p/18kiudNQqK/
_______________
🦜🤖 Ci sono molte cose interessanti nelle precisazioni di Emily 
Bender sui pappagalli stocastici. Queste precisazioni, finalmente, 
potrebbero aiutarci a depurare il dibattito e a concentrarci sulla 
parte del lavoro di Bender che è davvero importante: lo studio e la 
critica dei rapporti di potere dentro l'industria delle intelligenze 
artificiali.
Ma andiamo con ordine.
La prima cosa interessante è il fatto stesso che ci sia stato il 
bisogno, cinque anni dopo la pubblicazione di "On the Dangers of 
Stochastic Parrots", di fare delle precisazioni.
La seconda è il chiarimento sul fatto che "pappagalli stocastici" è 
solo una metafora e non un'ipotesi empirica.
La terza è il fatto che secondo Bender "pappagalli stocastici" non 
dovrebbe essere usato come "insulto" nei confronti della tecnologia. 
Suo malgrado, però, è quel che è stato fatto.
La quarta e più importante, per me, è questo passaggio qui sulla 
comprensione: "It is true that image/text models, for example, that 
can be used to map from linguistic strings to images or vice versa, 
can be argued to meet the definition of understanding in Bender & 
Koller 2020 — albeit in an extremely thin way".
Si può provare a sostenere che questa non sia una retromarcia. Ma è 
una retromarcia bella grossa, per quanto manovrata con delicatezza e 
ottima arte retorica. Nel 2020, nel 2021 e fino al 2024 almeno, 
Bender affermava  che non si potesse parlare di "understanding" da 
parte dei modelli secondo la sua stessa definizione. Adesso, invece, 
c'è uno spiraglio. E uno spiraglio è diverso da "non c'è 
understanding". Molto diverso.
Da qui in avanti mi aspetto una serie di lente ma inesorabili 
operazioni di riposizionamento da parte di molte persone che hanno 
usato – impropriamente, come dice oggi Bender stessa, finalmente – la 
metafora dei pappagalli stocastici per sminuire i large language model.
Ovviamente gli errori e i danni fatti dai detrattori e dai 
minimizzatori non verrano mai riconosciuti come tali, ma questo è 
comunque un punto di non ritorno sia per i critici a priori di queste 
tecnologie sia per chi ha usato i pappagalli per costruirsi un 
posizionamento personale.
La metafora – non ipotesi empirica – dei pappagalli stocastici, per 
quanto affascinante, era già riduttiva quando è stata proposta. In 
questi cinque anni lo è diventata sempre di più ma nel frattempo è 
diventata addirittura identitaria, ingombrando il dibattito e 
portandolo completamente fuori fuoco.
Adesso che quella metafora perde i pezzi, resta, appunto, la parte 
del lavoro di Bender che era la più utile fin dall’inizio: la critica 
al potere.
Link:
1) Climbing towards NLU: On Meaning, Form, and Understanding in the 
Age of Data (Emily M. Bender, Alexander Koller, 2020) 
https://aclanthology.org/2020.acl-main.463/
2) On the Dangers of Stochastic Parrots: Can Language Models Be Too 
Big? 🦜 (Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, 
Shmargaret Shmitchell, 2021 
https://dl.acm.org/doi/10.1145/3442188.3445922 )
3) Stochastic Parrots 🦜: Frequently Unasked Questions (Emily M. 
Bender, 
https://medium.com/@emilymenonbender/stochastic-parrots-frequently-unasked-q... 
)
4) Video, Chatbot Critics: Chatbots as Stochastic Parrots, Emily M. 
Bender https://www.youtube.com/watch?v=f4OZ7B2iP_E
--
-- EN
https://www.hoepli.it/libro/la-rivoluzione-informatica/9788896069516.html
======================================================
Prof. Enrico Nardelli
Presidente di "Informatics Europe"
Direttore del Laboratorio Nazionale "Informatica e Scuola" del CINI
Dipartimento di Matematica - Università di Roma "Tor Vergata"
Via della Ricerca Scientifica snc - 00133 Roma
home page: https://www . mat . uniroma2 . it/~nardelli
blog: https://link-and-think.blogspot.it/
tel: +39 06 7259.4204 fax: +39 06 7259.4699
mobile: +39 335 590.2331 e-mail: nardelli@mat . uniroma2 . it
online meeting: https://blue.meet.garr.it/b/enr-y7f-t0q-ont
======================================================================================================
--
-- 

-- EN

https://www.hoepli.it/libro/la-rivoluzione-informatica/9788896069516.html
======================================================
Prof. Enrico Nardelli
Presidente di "Informatics Europe"
Direttore del Laboratorio Nazionale "Informatica e Scuola" del CINI
Dipartimento di Matematica - Università di Roma "Tor Vergata"
Via della Ricerca Scientifica snc - 00133 Roma
home page: https://www . mat . uniroma2 . it/~nardelli
blog: https://link-and-think.blogspot.it/
tel: +39 06 7259.4204 fax: +39 06 7259.4699
mobile: +39 335 590.2331 e-mail: nardelli@mat . uniroma2 . it
online meeting: https://blue.meet.garr.it/b/enr-y7f-t0q-ont
====================================================================================================== 

--