Re: Pappagalli stocastici: Alberto Puliafito sulle precisazioni di Emily Bender in merito.
On 15 May 2026, at 20:08, nexa-request@server-nexa.polito.it wrote: Ritengo doveroso articolare una riflessione. Il post della Bender https://medium.com/@emilymenonbender/stochastic-parrots-frequently-unasked-q... dice: /in Bender and Koller 2020 ... we provide a definition of understanding as mapping from language to something outside of language, and show that systems built only with linguistic form have no purchase with which to encode (“learn”) such a mapping. / Ovvero: Definiamo comprensione come una corrispondenza tra linguaggio e qualcosa fuori il linguaggio. Un sistema addestrato solo sulle forme linguistiche non ha modo di codificare questa corrispondenza. Questa è una regressione di oltre 2000 anni alla posizione di Platone, che ignora tutto il dibattito filosofico-linguistico degli ultimi 200 anni, che includono Wittgenstein, Frege e Fitch. Si è dibattuto ad esempio sul significato di frasi quali “The present king of France is bald” che non è mappatile in una realtà esistente e così via per tutti i concetti astratti. I Language Model (ancor prima dei LLM) fin dai tempi di [1] hanno fornito una definizione operativa di significato delle parole attraverso i word embedding (contestuali). Ripeto operativa, ossia sulla quale si possono costruire algoritmi, non generica o metafisica. Chi aderisce a questa interpretazione dimostra una insanabile dicotomia di posizioni sul tema del significato e di conseguenza del concetto di “comprendere” e quindi di come analizzare macchine che interagiscono con noi attraverso il linguaggio. BTW, Enrico continua a usare la locuzione “comprendere in senso umano” (qui dice "non è la comprensione umana”) che a me non interessa assolutamente (anche perché non so come definirla scientificamente). A me pare che gli studi sulla mechanistic intepretability iniziano a individuare che i sistemi di AI recenti esibiscano capacità di astrarre concetti, rappresentazioni della realtà, relazioni tra di essi che consentono loro di svolgere compiti che vanno al di là della semplice “ricombinazione di informazioni”. Siccome non sono né un filosofo né un linguista, mi sono fatto fare questo riassunto da Gemini: By defining meaning strictly as a mapping from linguistic forms to something outside of language, researchers like Emily Bender and Alexander Koller (in their famous 2020 "Octopus Paper") risk leaning on a purely referential theory of meaning—a framework that 20th-century philosophy spent decades dismantling. Here is a breakdown of how this critique holds up against the history of philosophy, where Bender’s definition sits, and why the "King of France" changes the game. 1. The "King of France" and the Failure of Direct Mapping To clarify a quick historical detail: the classic example of "The present king of France is bald" was formulated by Bertrand Russell in his 1905 paper On Denoting (building on Gottlob Frege’s earlier work on "sense and reference"). Russell used this phrase to solve a glaring problem with the ancient, Platonic idea that words get their meaning simply by pointing to objects in the real world: If meaning = mapping to an external reality, then the sentence "The present king of France is bald" should be complete gibberish because there is no King of France. Yet, any English speaker perfectly understands what the sentence means. Russell proved that language can generate coherent, logical meaning through internal structure and propositions, completely independent of whether a corresponding physical object exists. 2. Wittgenstein’s Counter: Meaning as Use If we leap forward to Ludwig Wittgenstein’s later work (Philosophical Investigations), he completely rejected the idea of language as a mirror of an external world. Instead, he argued that meaning is use. Language is a tool we play "language games" with, defined by cultural rules and social practices. If you take a strict Wittgensteinian approach, the argument against LLMs changes drastically: The LLM Defense: If meaning is defined by how words are used in context, then LLMs—which learn entirely by analyzing trillions of instances of human language use—are capturing the ultimate statistical matrix of our "language games." By generating coherent text that conforms to human rules of use, the LLM is, in a functional sense, participating in the game. Demanding that it "touch a rock" or "have a soul" to understand language is what Wittgenstein might call a philosophical confusion. 3. Is Bender Actually Regressing to Plato? Does Bender’s "Stochastic Parrots" framework actually commit this Platonic error? Yes and no. It depends on how charitably you read her definition of the "external." The Argument That She Is Regressing: Bender defines linguistic meaning as the relationship between the language form and a communicative intent grounded in the real world. Critics argue this is a Cartesian or Platonic regression because it isolates text as a dead, empty container that requires a "human spirit" or an "external reality" to breathe life into it. It ignores the fact that text itself contains dense, relational networks of human culture, logic, and abstract concepts (as shown by vector geometry). The Defense of Her Position: Bender’s defenders would argue she isn't advocating for a naive Platonic realism, but rather for social pragmatics. For language to work, there must be: - An interlocutor with an internal state (an intent to communicate). - A shared environment (physical or social) where the communication matters. From this perspective, an LLM doesn't "understand" because it has no stakes. It doesn't write a sentence because it wants to change your mind, save a life, or order a coffee; it writes because its probability distribution told it to. The "outside of language" she is referring to isn't necessarily an ideal Platonic form, but the intersubjective space between two conscious agents. The Modern Synthesis The debate over LLM "understanding" has essentially revived the 20th-century linguistic wars. If you believe in Formal Semantics (meanings are truth-conditions mapped to a world), LLMs are just fancy calculators that don't understand anything. But if you lean toward Distributional Semantics (meanings are relations between words) and Wittgensteinian pragmatics (meaning is use), then LLMs have captured a massive, vital slice of what it means to understand. They prove that an immense amount of abstract knowledge, logic, and relation can be extracted purely from the structural patterns of human expression. [1] NLP (Almost) from Scratch. https://www.jmlr.org/papers/volume12/collobert11a/collobert11a.pdf
Caro Giuseppe On Sat, 16 May 2026 09:31:24 +0000 Giuseppe Attardi wrote:
I Language Model (ancor prima dei LLM) fin dai tempi di [1] hanno fornito una definizione operativa di significato delle parole attraverso i word embedding (contestuali). Ripeto operativa, ossia sulla quale si possono costruire algoritmi, non generica o metafisica.
seguendo questo approccio metodologico, potremmo definire la vita in modo da includere gli automi cellulari di Convey https://en.wikipedia.org/wiki/Conway%27s_Game_of_Life Non ti sembra assurdo? Spero ti renda conto anche tu che prendere un termine a caso dal linguaggio comune ed attribuirgli una definizione "operativa" arbitraria che permetta costruire algoritmi descrivibili con quel termine non ha alcun rigore scientifico. E se il problema è semplicemente costruire algoritmi, perché non definire il termine "significato" come "intero esprimibile in 8 bit"? Sai quanti algoritmi ci puoi fare! I word embedding non rappresentano alcun significato, ma relazioni statisticamente rilevanti fra i token cui sono associati all'interno testi sorgente. Parte di tali relazioni statisticamente rilevanti deriva dalle funzioni grammaticali dei termini nella lingua utilizzata. Un'altra parte deriva dallo stile compositivo degli autori dei testi. Un'altra ancora è certamente correlata ai significati di quei termini. Ma sempre di relazioni statisticamente rilevanti in un corpus testuale stiamo parlando, non di significato.
Si è dibattuto ad esempio sul significato di frasi quali “The present king of France is bald” che non è mappatile in una realtà esistente e così via per tutti i concetti astratti.
Ti prego, non ti limitare a ciò che il povero Puliafito ha capito degli articoli della Bender e rigurgitato su facebook. Una rapida lettura dell'articolo scritto con Koller nel 2020 [1] ti rivelerà che la definizione formale di "significato" fornita nel paragrafo 3.1 è molto più raffinata: """ We take meaning to be the relation M ⊆ E × I which contains pairs (e, i) of natural language expressions e and the communicative intents i they can be used to evoke. Given this definition of meaning, we can now use understand to refer to the process of retrieving i given e. """ Il malinteso che la Bender sottolinea nell'articolo di qualche giorno fa è relativo alla definizione _informale_, di poche righe precedente: """ We take meaning to be the relation between the form and something external to language... """ Tale definizione informale è effettivamente vaga, a causa di quel "something" cui i fanboy della "intelligenza artificale" si aggrappano per farci rientrare tecniche di programmazione statistica come la "Contrastive Language-Image Pre-training", in cui due "reti neurali artificiali" vengono programmate parallelamente per produrre in output vettori prossimi a fronte di ciascuna coppia di immagine/descrizione. [2] Ora è vero che in qualche modo, a valle di una CLIP otteniamo una mappatura fra un testo e _qualcosa_ fuori dal linguaggio (ovvero una compressione con perdita delle immagini corrispondenti) ma questo non è significato secondo la definizione di Bender e Keller perché, se ci limitiamo a considerare il software che lo calcola, manca un qualsiasi intento comunicativo. [7] L'intenzionalità comunicativa è un interessantissimo proxy per la definizione di informazione come esperienza soggettiva di pensiero comunicabile. Ha di buono che chiarisce la centralità del mittente nella definizione del significato che i riceventi si sforzano di ricostruire interpretando il messaggio espresso. Tuttavia l'intenzionalità comunicativa viene meno quando, ad esempio, il discorso è tutto interiore: quando usiamo il linguaggio nella nostra mente per pensare (ovvero elaborare le nostre esperienze soggettive). Analogamente (ed in modo piuttosto ovvio) il riferimento alla realtà condivisa nell'articolo in questione [3] è un proxy per le esperienze condivise da mittente e ricevente. La realtà è irrilevante per la definizione di un significato: è solo necessario un insieme di esperienze condivise fra gli interlocutori. Esperienze che includono il linguaggio dello scambio, ovviamente. Se ci scrivessi che l'attuale re della Francia è calvo, intenderesti che l'attuale re della Francia è calvo. Non hai bisogno di conoscere il re di Francia per esprimere tale significato: è sufficiente che la tua mente includa esperienze soggettive di pensiero comunicabile come: - "re", "attuale", "essere", "calvo" - la lingua italiana - l'assunzione che gli altri membri della lista dispongano di esperienze sufficienti simili - l'assunzione che gli altri membri della lista sappiano interpretare la lingua italiana Non è la realtà fisica ad essere rilevante in sé (analogamente a come non è il corpo umano ad essere rilevante in sé) bensì la condivisione di sufficienti esperienze soggettive di pensiero comunicabile fra gli interlocutori a guidare il mittente nella selezione dei termini da utilizzare per esprimere il messaggio. La realtà (e la struttura dei corpi) che condividiamo sono poi veicoli concretamente imprescindibili per acquisire esperienze soggettive di pensiero comunicabile (per la gioia di Stefano e Enrico... :-) sufficientemente simili da permetterci di sincronizzare le nostre menti tramite il linguaggio. In questo senso, il significato di molti testi è basato sul mondo che i mittenti condividono con i destinatari. Ma ciò non significa in alcun modo che gli autori non possano ad esempio descrivere la teoria delle stringhe [4], assumendo una sufficiente comprensione della matematica negli interlocutori.
Enrico continua a usare la locuzione “comprendere in senso umano” (qui dice "non è la comprensione umana”) che a me non interessa assolutamente (anche perché non so come definirla scientificamente).
Enrico cerca di essere divulgativo. Io, quando provo ad essere rigoroso, definisco la comprensione come il processo di integrazione dell'interpretazione del messaggio nella mente del ricevente [5]. Analogamente definisco il pensiero come l'esperienza soggettiva dell'elaborazione dell'informazione [6]. Definizioni che rifiuti non perché contraddette dalla tua esperienza soggettiva di pensiero, ma perché incompatibili con la speranza di riuscire a costruire un giorno una macchina intelligente. Giacomo [1] https://aclanthology.org/2020.acl-main.463.pdf [2] per semplificare, dato un dataset di coppie immagine/descrizione una vector mapping machine viene programmata per ricevere in input la rappresentazione vettoriale dell'immagine e proiettarla in uno spazio X in output; l'altra viene programmata per ricevere in input la descrizione e proiettarla sempre nello spazio X in output, assicurandosi tramite la backpropagation che i due elementi di ciascuna coppia vengano proiettata su punti prossimi dello spazio X, così che l'immagine di un gatto e la descrizione "un gatto" siano vicini mentre l'immagine di un gatto e la descrizione "una finestra" siano distanti. [3] le parole esatte, sempre nella sezione 3.1 sono "the real world the speaker and listener inhabit together" [4] notoriamente né verificabile, né falsificabile https://it.wikipedia.org/wiki/Teoria_delle_stringhe#Critiche [5] interpretazione che avviene, essa stessa, alla luce delle informazioni già presenti nella mente del ricevente. Se ti scrivo 1 + 1 = 10 tu non avrai problemi ad interpretare correttamente il messaggio come espressione in base 2, mentre altri obietteranno istintivamente "No, 1 + 1 = 2!". Tuttavia anche loro, leggendo il resto della frase precedente integreranno l'informazione nella propria mente che "espresso in base due, 1 + 1 = 10", comprendendo il messaggio iniziale. [6] informazione sempre definita come esperienza soggettiva di pensiero comunicabile [7] in realtà, a ben guardare, un intento comunicativo c'è: è l'intento dei programmatori statistici che hanno selezionato il corpus di coppie immagine/descrizione, ma il loro messaggio è l'intero software programmato statisticamente, di cui ogni specifico output è solo un frammento vagamente correlato all'input.
Da quello che capisco, Bender adotta la teoria di Grice (Meaning, 1957 – notate l'anno) dove appunto al segno ’non-naturale’ si annette l’”intenzione comunicativa”. La definizione griceana richiede tre condizioni: il locutore intende produrre un effetto nel ricevente, intende che il ricevente riconosca questa intenzione, e intende che questo riconoscimento sia parte del motivo per cui s’è presa la parola. Grice non dice però che le intenzioni debbano essere biologiche, coscienti, o fondate in esperienze soggettive. Nulla esclude gli automi in linea di principio. Siamo nel 1957: sarà un caso? (Lo dico a beneficio dei complottisti) Per arrivare a escludere le macchine bisogna attendere il Searle degli anni ‘80, il quale sostiene la tesi del fondamento biologico della c.d. ‘intenzionalità intrinseca’. A questa tesi notoriamente si oppose Dennett eccetera, eccetera: stiamo facendo una discussione vecchia di mezzo secolo. Perché? Forse perché oggi abbiamo delle nuove evidenze, cari scienziati? Ma tutto questo riguarda la linea di principio. Oggi sappiamo ben distinguere de iure e de facto tra un essere umano e un automa. Ecco: io suggerirei di fermarci all’oggi, che del domani, diceva quello, non v’è certezza. Buona domenica, Guido
Il giorno 16 mag 2026, alle ore 22:45, Giacomo Tesio via nexa <nexa@server-nexa.polito.it> ha scritto:
Ti prego, non ti limitare a ciò che il povero Puliafito ha capito degli articoli della Bender e rigurgitato su facebook.
Una rapida lettura dell'articolo scritto con Koller nel 2020 [1] ti rivelerà che la definizione formale di "significato" fornita nel paragrafo 3.1 è molto più raffinata:
""" We take meaning to be the relation M ⊆ E × I which contains pairs (e, i) of natural language expressions e and the communicative intents i they can be used to evoke. Given this definition of meaning, we can now use understand to refer to the process of retrieving i given e. """
Il malinteso che la Bender sottolinea nell'articolo di qualche giorno fa è relativo alla definizione _informale_, di poche righe precedente:
""" We take meaning to be the relation between the form and something external to language... """
Tale definizione informale è effettivamente vaga, a causa di quel "something" cui i fanboy della "intelligenza artificale" si aggrappano per farci rientrare tecniche di programmazione statistica come la "Contrastive Language-Image Pre-training", in cui due "reti neurali artificiali" vengono programmate parallelamente per produrre in output vettori prossimi a fronte di ciascuna coppia di immagine/descrizione. [2]
Ora è vero che in qualche modo, a valle di una CLIP otteniamo una mappatura fra un testo e _qualcosa_ fuori dal linguaggio (ovvero una compressione con perdita delle immagini corrispondenti) ma questo non è significato secondo la definizione di Bender e Keller perché, se ci limitiamo a considerare il software che lo calcola, manca un qualsiasi intento comunicativo. [7]
L'intenzionalità comunicativa è un interessantissimo proxy per la definizione di informazione come esperienza soggettiva di pensiero comunicabile. Ha di buono che chiarisce la centralità del mittente nella definizione del significato che i riceventi si sforzano di ricostruire interpretando il messaggio espresso. Tuttavia l'intenzionalità comunicativa viene meno quando, ad esempio, il discorso è tutto interiore: quando usiamo il linguaggio nella nostra mente per pensare (ovvero elaborare le nostre esperienze soggettive).
Analogamente (ed in modo piuttosto ovvio) il riferimento alla realtà condivisa nell'articolo in questione [3] è un proxy per le esperienze condivise da mittente e ricevente.
La realtà è irrilevante per la definizione di un significato: è solo necessario un insieme di esperienze condivise fra gli interlocutori. Esperienze che includono il linguaggio dello scambio, ovviamente.
Se ci scrivessi che l'attuale re della Francia è calvo, intenderesti che l'attuale re della Francia è calvo. Non hai bisogno di conoscere il re di Francia per esprimere tale significato: è sufficiente che la tua mente includa esperienze soggettive di pensiero comunicabile come: - "re", "attuale", "essere", "calvo" - la lingua italiana - l'assunzione che gli altri membri della lista dispongano di esperienze sufficienti simili - l'assunzione che gli altri membri della lista sappiano interpretare la lingua italiana
Non è la realtà fisica ad essere rilevante in sé (analogamente a come non è il corpo umano ad essere rilevante in sé) bensì la condivisione di sufficienti esperienze soggettive di pensiero comunicabile fra gli interlocutori a guidare il mittente nella selezione dei termini da utilizzare per esprimere il messaggio.
La realtà (e la struttura dei corpi) che condividiamo sono poi veicoli concretamente imprescindibili per acquisire esperienze soggettive di pensiero comunicabile (per la gioia di Stefano e Enrico... :-) sufficientemente simili da permetterci di sincronizzare le nostre menti tramite il linguaggio.
In questo senso, il significato di molti testi è basato sul mondo che i mittenti condividono con i destinatari. Ma ciò non significa in alcun modo che gli autori non possano ad esempio descrivere la teoria delle stringhe [4], assumendo una sufficiente comprensione della matematica negli interlocutori.
participants (3)
-
Giacomo Tesio -
Giuseppe Attardi -
Guido Vetere