Re: [nexa] IA, lavoro, immaginari
Scusate se riprendo questo tema dall’inizio, in quanto finora sono stato impegnato ad organizzare questo dibattito, che affronta alcuni delle questioni di fondo sulle capacità dell’AI di avere impatti sulla società: https://sites.google.com/view/ellisfms2023/program/debate-ai-societal-impact e a cui parteciperanno alcuni tra i principali esperti al mondo, tra cui Yoshua Bengio, Moshe Vardi, Ricardo Baeza-Yates, Gary Marcus, Geoff Hinton. Gli ultimi due si confronteranno proprio sulla questione se i LLM siano in grado di comprendere. Daniele Gambetta riporta il termine spregiativo di “stochastic parrot” che è stato affibbiato ai LLM da Timnit Gebru e colleghi. L’articolo è molto controverso ed è costato a Gebru il posto a Google. Nell’articolo si sostiene che: An LM is a system for haphazardly stitching together sequences of linguistic forms it has observed in its vast training data, according to probabilistic information about how they combine, but without any reference to meaning: a stochastic parrot. Questa affermazione è superficiale e inesatta, perché non tiene conto di alcune cose: 1. Alla base dei LLMs ci sono i word embedding, un modo per assegnare un significato alle parole, un problema che ha eluso la filosofia e la linguistica per due millenni e che il Deep Learning ha risolto. Questo è quanto afferma Hinton in proposito: “Many people who think it’s just statistics are thinking in terms of program models or counting the co-occurrence frequencies of words. We think this process of creating features of the embeddings and then interactions between features is actually understanding. Once you’ve taken the raw data of symbol strings and you can now predict the next symbol not by things like trigrams, but the huge number of features interacting in very complicated way to predict the features of the next word and from that make a prediction about the probability of the next word, the point is that is understanding, at least I believe that is understanding. I believe that is what our brains are doing. But that’s an issue to be discussed by the research community and it would be great if we could convince people that they are not just stochastic parrots.” 2. I LLM sono evoluti dai tempi dell’articolo, in particolare, ChatGPT e successivi sono stati allenati a interagire in conversazioni con il fine-tuning e quindi a tenere conto del contesto della discussione 3. La capacità di “comprendere” è difficile da definire, almeno in termini umani. L’unico modo che abbiamo per stabilire se uno studente ha “capito” una certa materia, è di sottoporlo a domande di verifica di comprensione. Ma in gran parte di tali test, GPT-4 supera il livello medio umano. Quindi, a tutti gli effetti pratici, capisce non solo una, ma molte materie. Lo “capisce” in una qualche forma diversa dalla nostra, ma pur sempre verificabile. 4. Le sorprendenti abilità dei LLM (perché hanno sorpreso tutti, compresi i loro sviluppatori), derivano dal fenomeno denominato “emergent abilities”, che appiano solo quando i modelli superano una certa scala. Per ora si tratta di un'osservazione empirica, iniziata con gli esperimenti di Jason Wei sul Chain-of-Thought, ma che si sta cercando di approfondire con una serie di spunti. Uno di questi si lega alla teoria dei sistemi complessi di Giorgio Parisi, che spiega il loro comportamento come dovuto all’applicazione su larga scala di semplici leggi probabilistiche. Ho suggerito a Parisi che sia proprio questo ciò che avviene nei LLM, che applicano su larga scala, in modelli di centinaia di miliardi di parametri, la semplice probabilità stimata della prossima parola. Parisi mi ha confermato di persona che l’ipotesi è alquanto plausibile. Questa stessa ipotesi spiega perché molti si rifiutano di riconoscere queste capacità: la mente umana è abituata a comprendere i fenomeni, scomponendoli in poche parti funzionali, che si combinano in modo deterministico. Nei fenomeni complessi questo non è possibile farlo. Nel frattempo stanno uscendo diversi lavori scientifici, che cercano di dare una base scientifica al fenomeno: 1. Ekin Akyürek, Dale Schuurmans, Jacob Andreas, Tengyu Ma, and Denny Zhou. What learning algorithm is in-context learning? Investigations with linear models <https://openreview.net/forum?id=0g0X4H8yN4I>. ICLR 2023 (Oral) 2. Guhao Feng, Bohang Zhang, Yuntian Gu, Haotian Ye, Di He, Liwei Wang. Towards Revealing the Mystery behind Chain of Thought: A Theoretical Perspective <https://arxiv.org/abs/2305.15408>. NeurIPS 2023 (Oral). 3. Angeliki Giannou, Shashank Rajput, Jy-yong Sohn, Kangwook Lee, Jason D Lee, Dimitris Papailiopoulos. Looped Transformers as Programmable Computers <https://arxiv.org/abs/2301.13196>. ICML 2023. 4. Ruiqi Zhang, Spencer Frei, Peter L Bartlett. Trained Transformers Learn Linear Models In-Context <https://scholar.google.com/citations?view_op=view_citation&hl=en&user=uErE2U...>. arXiv preprint arXiv:2306.09927, 2023. Segnalo anche questo video di una presentazione di Sanjeev Arora su A Theory of Emergence of Complex Skills in Language Models (https://www.youtube.com/live/0D23NeBjCeQ?si=Trtt160lkXCgFEa6) In sostanza, siamo di fronte a questioni scientifiche articolate e complesse, e suggerisco che vengano affrontate basandosi su studi scientifici, di cui c’è molto bisogno. Per uno studente del Dottorato Nazionale in Intelligenza Artificiale (che ho contribuito a far nascere) dovrebbe essere una grande opportunità. — Beppe
On 6 Oct 2023, at 23:30, <nexa-request@server-nexa.polito.it> <nexa-request@server-nexa.polito.it> wrote:
From: Daniele Gambetta <daniele.gambetta7@gmail.com <mailto:daniele.gambetta7@gmail.com>> To: nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> Subject: [nexa] IA, lavoro, immaginari Message-ID: <CAJTd2eikFissqhKHR7dhmZwfn9B5ijpLtLERz7VH8H4YrWEsUA@mail.gmail.com <mailto:CAJTd2eikFissqhKHR7dhmZwfn9B5ijpLtLERz7VH8H4YrWEsUA@mail.gmail.com>> Content-Type: text/plain; charset="utf-8"
Ciao a tutte/i, seguo da tempo questa mailing list con interesse anche se scrivo poco. Volevo segnalarvi un articolo che ho scritto di recente su temi legati all'IA, pubblicato in due parti su DinamoPress. Mi farebbe piacere avere feedback e pareri o avviare una discussione.
1) https://www.dinamopress.it/news/al-di-la-del-faust-e-dellhype-appunti-su-int... 2) https://www.dinamopress.it/news/technic-and-magic-animismo-di-piattaforma-e-...
Saluti e buon we. Daniele
On Thu, Oct 12, 2023 10:26:32 AM +0200, Giuseppe Attardi wrote:
il termine spregiativo di “stochastic parrot” che è stato affibbiato ai LLM da Timnit Gebru e colleghi. L’articolo è molto controverso ed è costato a Gebru il posto a Google. Nell’articolo si sostiene che:
An LM is a system for haphazardly stitching together sequences of linguistic forms it has observed in its vast training data, according to probabilistic information about how they combine, but without any reference to meaning: a stochastic parrot.
Questa affermazione è superficiale e inesatta, perché non tiene conto di alcune cose:
1. Alla base dei LLMs ci sono i word embedding, un modo per assegnare un significato alle parole, un problema che ha eluso la filosofia e la linguistica per due millenni e che il Deep Learning ha risolto. Questo è quanto afferma Hinton in proposito: “Many people who think it’s just statistics are thinking in terms of program models or counting the co-occurrence frequencies of words. We think this process of creating features of the embeddings and then interactions between features is actually understanding. Once you’ve taken the raw data of symbol strings and you can now predict the next symbol not by things like trigrams, but the huge number of features interacting in very complicated way to predict the features of the next word and from that make a prediction about the probability of the next word, the point is that is understanding, at least I believe that is understanding. I believe that is what our brains are doing. But that’s an issue to be discussed by the research community and it would be great if we could convince people that they are not just stochastic parrots.”
questa cosa mi confonde un po': a chi/a chi sta parlando Hinton? Perche' le critiche a certi discorsi vengono da quelli che non hanno alcun bisogno di essere convinti di non essere semplici pappagalli, ma sono LORO a dire di essere molto di piu'. A dire che il cervello umano e' solo un'altra macchina sono altri. E dimostrare che gli esseri umani non sono pappagalli stocastici mica esclude che lo siano gli LLM. Sicuramente questo sara' piu' chiaro nel dibattito. Ne sara' disponibile una trascrizione? Grazie, Marco -- https://mfioretti.substack.com
Salve Giuseppe, Il giorno Thu, 12 Oct 2023 10:26:32 +0200 Giuseppe Attardi ha scritto:
alla base dei LLMs ci sono i word embedding, un modo per assegnare un significato alle parole
non mi è chiaro come i word embedding possano catturare il significato. Per chi non lo sapesse, un word embeeding è un vettore N-dimensionale (una sequenza di N numeri) che approssima la posizione di un termine in uno spazio euclideo progettato per massimizzare la vicinanza con i termini usati in modo simile in contesti simili. Un modo per calcolarlo, consiste nell'associare ad ogni elemento del vettore una misura (tipicamente la frequenza) di una relazione con cui quel termime appare associato agli altri termini nel "corpus" sorgente. Immagina un dataset sorgente composto da tre frasi: - Giuseppe scrive. - Giuseppe legge. - Giuseppe legge o scrive. Abbiamo 4 parole: "Giuseppe" alla prima posizione, "scrive" alla seconda e "legge" alla terza, "o" alla quarta. I rispettivi word embedding potrebbero essere - Giuseppe [0, 0.5, 0.5, 0] - scrive [1, 0, 0, 0.5] - legge [1, 0, 0, 0.5] - o [0, 0.5, 0.5, 0] All'aumentare della dimensione del dataset sorgente (il "corpus") e del vocabolario, aumenta il numero di dimensioni dello spazio euclideo in questione (ovvero la lunghezza di ciascun vettore) e con tecniche più avanzate può variare la semantica degli elementi del vettore... ma la sostanza è questa: il vettore cattura la relazione di un termine con gli altri presenti nel vocabolario estraendola da misure estratte dal dataset sorgente. Ora il significato del termine "leggere" è leggere: l'azione che stai compiendo (spero) mentre guardi su uno schermo la rappresentazione di questo mio messaggio. Quel significato è una esperienza soggettiva complessa ed unica della tua mente, legata alle diverse altre esperienze e riflessioni della tua vita. Analogamente le parole "amare" o "morte" non derivano il proprio significato dalla relazione che hanno con altre parole, ma dalle esperienze umane che convenzionalmente esprimono. Anche parole come "zero" o "spin" (quantistico), pur non derivando direttamente da esperienze fisiche, derivano il proprio significato da esperienze soggettive di pensiero comunicabile (aka le "informazioni" che cerchiamo di esprimere attraverso di esse). In nessun caso la relazione fra le parole ne costituisce il senso. Infatti possiamo facilmente definire nuove parole per riferirci ad una qualsiasi esperienza condivisa, senza nemmeno condividere una definizione e ci capiremo benissimo. Se andiamo a prenderci un caffé e ci diciamo "da adesso in poi questa azione la chiamiamo 'fefare'", potremo fefare periodicamente o discutere dove fefare meglio senza alcun bisogno di analizzare la frequenza del termine in relazione agli altri termini del nostro vocabolario per dedurre il significato della parola stessa. Dunque i word embedding non rappresentano alcun significato, ma al massimo relazioni statistiche fra significanti. Il "significato" può esistere solo nelle menti di noi esseri umani, come esperienza soggettiva di pensiero comunicabile (l'informazione, appunto)
...the huge number of features interacting in very complicated way to predict the features of the next word and from that make a prediction about the probability of the next word, the point is that is understanding, at least I believe that is understanding. I believe that is what our brains are doing.
"I believe". Mulder con più onestà intellettuale avrebbe detto "I WANT to believe".
È tratto da una conversazione con Andrew Ng, che si dichiara d’accordo.
Ma dai? il gatto e la volpe... :-) Potremmo considerarlo un corollario della nota osservazione di Upton Sinclair [1] "It's straightforward to get a man to believe something when his salary and status depend on spreading such belief." Giacomo [1] "It is difficult to get a man to understand something, when his salary depends on his not understanding it."
I word embedding sono molto diversi dai co-occurrence counts, simili a quelle dei tuoi esempi. I co-occuurrence count non funzionano affatto come rappresentazione del significato delle parole. I word embedding vengono ottenuti come effetto secondario dell’allenamento di un Language Model, come i vettori nascosti che consentono al modello di stimare la probabilità di una parola in un contesto. La dimensione dei word embeddings è un valore costante prefissato, indipendente dalla lunghezza del vocabolario, com nella tua versione. Ci vorrebbero diverse lezioni per spiegare come si calcolano i word embedding e perché funzionino in modo talmente efficace, come quelle che trovi qui: https://elearning.di.unipi.it/course/view.php?id=438 I word embedding sono composi di centinaia di dimensioni e non è ricostruibile cosa rappresenti ciascuna: sono le centinaia di sfumature/sfaccettature che tratteggiano le caratteristiche di una parola, sia semantiche che sintattiche o chissà che altro. Con l’attention dei transformer, gli embeddings vengono calcolati in modo contestuale frase per frase, per tenere conto della polisemia delle parole in contesti diversi.
Ora il significato del termine "leggere" è leggere: l'azione che stai
Questa è l’accezione di “significato” denotazionale che filosofi hanno proposto dai tempi di Platone, ma appunto non risolve il problema perché poi dovresti definire cosa sia questa denotazione e riapriremmo una discussione che in 2000 anni non sono stati in grado di risolvere. Cos’è un tavolo? Cos’è la tavolinità che distingue un tavolo da altri oggetti: avere 4 gambe, o tre, o una? E cos'è una gamba? Avere un piano: cos'è un piano? E così a ritroso. — Beppe
On 12 Oct 2023, at 18:43, Giacomo Tesio <giacomo@tesio.it> wrote:
Salve Giuseppe,
Il giorno Thu, 12 Oct 2023 10:26:32 +0200 Giuseppe Attardi ha scritto:
alla base dei LLMs ci sono i word embedding, un modo per assegnare un significato alle parole
non mi è chiaro come i word embedding possano catturare il significato.
Per chi non lo sapesse, un word embeeding è un vettore N-dimensionale (una sequenza di N numeri) che approssima la posizione di un termine in uno spazio euclideo progettato per massimizzare la vicinanza con i termini usati in modo simile in contesti simili.
Un modo per calcolarlo, consiste nell'associare ad ogni elemento del vettore una misura (tipicamente la frequenza) di una relazione con cui quel termime appare associato agli altri termini nel "corpus" sorgente.
Immagina un dataset sorgente composto da tre frasi:
- Giuseppe scrive. - Giuseppe legge. - Giuseppe legge o scrive.
Abbiamo 4 parole: "Giuseppe" alla prima posizione, "scrive" alla seconda e "legge" alla terza, "o" alla quarta.
I rispettivi word embedding potrebbero essere
- Giuseppe [0, 0.5, 0.5, 0] - scrive [1, 0, 0, 0.5] - legge [1, 0, 0, 0.5] - o [0, 0.5, 0.5, 0]
All'aumentare della dimensione del dataset sorgente (il "corpus") e del vocabolario, aumenta il numero di dimensioni dello spazio euclideo in questione (ovvero la lunghezza di ciascun vettore) e con tecniche più avanzate può variare la semantica degli elementi del vettore... ma la sostanza è questa: il vettore cattura la relazione di un termine con gli altri presenti nel vocabolario estraendola da misure estratte dal dataset sorgente.
Ora il significato del termine "leggere" è leggere: l'azione che stai compiendo (spero) mentre guardi su uno schermo la rappresentazione di questo mio messaggio.
Quel significato è una esperienza soggettiva complessa ed unica della tua mente, legata alle diverse altre esperienze e riflessioni della tua vita.
Analogamente le parole "amare" o "morte" non derivano il proprio significato dalla relazione che hanno con altre parole, ma dalle esperienze umane che convenzionalmente esprimono.
Anche parole come "zero" o "spin" (quantistico), pur non derivando direttamente da esperienze fisiche, derivano il proprio significato da esperienze soggettive di pensiero comunicabile (aka le "informazioni" che cerchiamo di esprimere attraverso di esse).
In nessun caso la relazione fra le parole ne costituisce il senso.
Infatti possiamo facilmente definire nuove parole per riferirci ad una qualsiasi esperienza condivisa, senza nemmeno condividere una definizione e ci capiremo benissimo.
Se andiamo a prenderci un caffé e ci diciamo "da adesso in poi questa azione la chiamiamo 'fefare'", potremo fefare periodicamente o discutere dove fefare meglio senza alcun bisogno di analizzare la frequenza del termine in relazione agli altri termini del nostro vocabolario per dedurre il significato della parola stessa.
Dunque i word embedding non rappresentano alcun significato, ma al massimo relazioni statistiche fra significanti.
Il "significato" può esistere solo nelle menti di noi esseri umani, come esperienza soggettiva di pensiero comunicabile (l'informazione, appunto)
...the huge number of features interacting in very complicated way to predict the features of the next word and from that make a prediction about the probability of the next word, the point is that is understanding, at least I believe that is understanding. I believe that is what our brains are doing.
"I believe".
Mulder con più onestà intellettuale avrebbe detto "I WANT to believe".
È tratto da una conversazione con Andrew Ng, che si dichiara d’accordo.
Ma dai? il gatto e la volpe... :-)
Potremmo considerarlo un corollario della nota osservazione di Upton Sinclair [1]
"It's straightforward to get a man to believe something when his salary and status depend on spreading such belief."
Giacomo
[1] "It is difficult to get a man to understand something, when his salary depends on his not understanding it."
Ciao Giuseppe, Il 12 Ottobre 2023 20:18:23 UTC, Giuseppe Attardi ha scritto:
I word embedding sono molto diversi dai co-occurrence counts, simili a quelle dei tuoi esempi.
Si trattava ovviamente di una semplificazione ad uso di chi non conosce (o non comprende) la programmazione statistica.
La dimensione dei word embeddings è un valore costante prefissato, indipendente dalla lunghezza del vocabolario, come nella tua versione.
Certo, per ovvi motivi: la gestione di vettori con una dimensionalità pari alla dimensione de vocabolario richiederebbe capacità di calcolo nettamente maggiori di quelle disponibili. D'altro canto, tale dimensione è "prefissato" solo all'interno di una particolare architettura del LLM, ma nulla impedisce di provare a programmare statisticamente LLM diversi (con dimensioni diverse nei word embeddings) sullo stesso dataset sorgente e confrontarne i risultati per selezionare quello ottimale durante la cross validation. Inoltre il mio esempio riproduceva una matrice basata su una singola relazione, peraltro definita in modo piuttosto approssimativo. Le relazioni che potremmo misurare sono innumerevoli, dalla distanza media nelle frasi, alle relazioni grammaticali etc...
I word embedding vengono ottenuti come effetto secondario dell’allenamento di un Language Model, come i vettori nascosti che consentono al modello di stimare la probabilità di una parola in un contesto.
In altri termini, il processo di programmazione statistica che hai in mente combina il computo delle co-occorrenze ed una riduzione dimensionale che facilita l'approssimazione della funzione di mappatura obiettivo.
Ci vorrebbero diverse lezioni per spiegare come si calcolano i word embedding e perché funzionino in modo talmente efficace
Beh, ma il loro principio di funzionamento è semplice da spiegare. È _COME SE_, a valle di un'analisi simile a quella che ho descritto nella mail precedente, si applicasse una riduzione dimensionale oculata (ma approssimativa). Per chi non lo sapesse una riduzione dimensionale consiste semplicemente nella proiezione di uno spazio euclideo a N dimensioni su un altro spazio euclideo a M dimensioni con N maggiore di M. Ad esempio, immaginando 4 o più punti in uno spazio tridimensionale (N=3), si tratta semplicemente di proiettare i punti su un piano (M=2) libero di traslare e ruotare in modo tale da minimizzare la distanza quadratica media delle proiezioni dai punti originali entro un limite accettabile (aka, "minimizzare l'errore entro un epsilon"). Non dovrebbe essere difficile da immaginare: 4 o 5 punti nello spazio a caso ma non appartenenti ad un piano ed un piano selezionato in modo da passare il più vicino possibile a ciascuno di essi.
I word embedding sono composi di centinaia di dimensioni e non è ricostruibile cosa rappresenti ciascuna
Naturalmente, come in ogni riduzione dimensionale in cui lo spazio di destinazione non è scelto sulla base di una semantica nota, ma sulla base della distanza delle proiezioni sui punti noti. Tornando al nostro esempio, le coordinate originali dei punti nello spazio tridimensionale hanno una semantica precisa per l'essere umano: dato il punto zero in cui potremmo collocare l'osservatore, l'asse x potrebbe distinguere destra (x positive) e sinistra (x negative), l'asse y potrebbe distinguere sopra (y positive) e sotto (y negative) e l'asse z potrebbe distinguere davanti (z positive) e dietro (z negative). Insomma, le coordinate originali hanno un significato comprensibile. Ma nel momento che cerchiamo un piano che semplicemente minimizzi la distanza quadratica media delle proiezioni dei punti su di esso dai punti stessi, accettiamo di ruotare e traslare questo piano come serve. A quel punto il sistema di coordinate delle proiezioni sul piano perdono di significato: lo zero si trova da qualche parte che non sappiamo rispetto all'osservatore, x e y sono orientate in modo del tutto diverso rispetto alle x e y e z dello spazio tridimensionale di origine, per cui non abbiamo più modo di attribuirgli un significato. TUTTAVIA, poiché i punti hanno comunque perso una dimensione, le nostre proiezioni non corrispondono esattamente ai punti originali. O magari corrispondono in alcuni fortunati casi, ma in altri sono molto lontani. E per contro, vi sono punti lontani sulla dimensione persa che si trovano ad essere sovrapposti. Naturalmente dichiarare che i word embeddings rappresentano in modo imperscrutabile il significato delle parole fa molto più figo! Ma rimangono mere proiezioni di statistiche.
sono le centinaia di sfumature/sfaccettature che tratteggiano le caratteristiche di una parola, sia semantiche che sintattiche o chissà che altro.
Un interpretazione molto romantica... ma priva di fondamento. Per poter affermare che si tratti di "sfumature/sfaccettature che tratteggiano le caratteristiche di una parola, sia semantiche che sintattiche" devi essere in grado di spiegare a QUALE sfumatura/sfaccettatura semantica/grammaticale ciascun numero di ciascun vettore (word embedding) corrisponde. Insomma... dei far sparire quel "chissà che altro" ;-)
Ora il significato del termine "leggere" è leggere: l'azione che stai
Questa è l’accezione di “significato” denotazionale che filosofi hanno proposto dai tempi di Platone, ma appunto non risolve il problema perché poi dovresti definire cosa sia questa denotazione e riapriremmo una discussione che in 2000 anni non sono stati in grado di risolvere. Cos’è un tavolo? Cos’è la tavolinità che distingue un tavolo da altri oggetti: avere 4 gambe, o tre, o una? E cos'è una gamba? Avere un piano: cos'è un piano? E così a ritroso.
Giuseppe, ridefinire le parole per poterle applicare alle macchine è un trucco vecchio come Turing! ;-) Il fatto che significato di "significato" sia noto dai tempi di Platone, non significa che sia desueto. Il fatto che, come qualsiasi altra informazione, sia impossibile da ridurre in qualcosa di computabile, non lo rende "inutile". Miliardi di bambini hanno compreso facilmente cosa significhi "tavolo", in innumerevoli lingue. Miliardi di esseri umani, sin almeno dai tempi di Platone, hanno capito cosa significhi "significato". E grazie a questa comprensione condivisa, siamo arrivati fin qui. Perché diamine dovremmo rinunciare a noi stessi ed al nostro linguaggio per antropomorfizzare dei software programmati statisticamente? Per illuderci di aver creato intelligenze? Per illuderci di essere Dio? Rassegnati, quello che ottieni dalla programmazione statistica sono word embeddings, vettori di probabilità proiettate su dimensioni ignote (e non necessariamente ortogonali o continue), non significati. Chiamali "word embeddings", "fiffole" o con qualsiasi altra combinazione di lettere, ma non utilizzare termini che hanno tutt'altro significato! Giacomo PS:
Grazie davvero: me le guardo appena possibile! Certo è un vero peccato dover informare Google di ogni slide che decido di visualizzare... ma so bene che questa decisione sciagurata non dipende da te, che anzi ne sei vittima come noi.
C’è tutta un’area di ricerca, che passa sotto il nome di BERTology, che analizza la questione e si dimostra ad esempio che dalle relazioni presenti nella matrici di attention delle frasi, si può ricavare l’intero albero sintattico della frase: https://aclanthology.org/N19-1419.pdf Le relazioni sintattiche sono anche più semplici, basta guardare nell’intorno dello spazio di termini che hanno solo funzioni sintattiche, come preposizioni o avverbi. Anche di questo parlo nel mio corso, — Beppe
On 13 Oct 2023, at 17:04, Giacomo Tesio <giacomo@tesio.it> wrote:
sono le centinaia di sfumature/sfaccettature che tratteggiano le caratteristiche di una parola, sia semantiche che sintattiche o chissà che altro.
Un interpretazione molto romantica... ma priva di fondamento.
Per poter affermare che si tratti di "sfumature/sfaccettature che tratteggiano le caratteristiche di una parola, sia semantiche che sintattiche" devi essere in grado di spiegare a QUALE sfumatura/sfaccettatura semantica/grammaticale ciascun numero di ciascun vettore (word embedding) corrisponde.
Insomma... dei far sparire quel "chissà che altro" ;-)
Buonasera, Giuseppe Attardi <attardi@di.unipi.it> writes:
C’è tutta un’area di ricerca, che passa sotto il nome di BERTology, che analizza la questione e si dimostra ad esempio che dalle relazioni presenti nella matrici di attention delle frasi, si può ricavare l’intero albero sintattico della frase: https://aclanthology.org/N19-1419.pdf
«A Structural Probe for Finding Syntax in Word Representations» John Hewitt, Christopher D. Manning Published 1 June 2019 (via https://www.semanticscholar.org/paper/A-Structural-Probe-for-Finding-Syntax-...) --8<---------------cut here---------------start------------->8--- Recent work has improved our ability to detect linguistic knowledge in word representations. However, current methods for detecting syntactic knowledge do not test whether syntax trees are represented in their entirety. In this work, we propose a structural probe, which evaluates whether syntax trees are embedded in a linear transformation of a neural network’s word representation space. The probe identifies a linear transformation under which squared L2 distance encodes the distance between words in the parse tree, and one in which squared L2 norm encodes depth in the parse tree. Using our probe, we show that such transformations exist for both ELMo and BERT but not in baselines, providing evidence that entire syntax trees are embedded implicitly in deep models’ vector geometry. --8<---------------cut here---------------end--------------->8--- Interessante, ma se davvero vogliamo parlare di BERTology allora, ripeto [1] che nel Vol. 8 del Transactions of the Association for Computational Linguistics del MIT (2020) è pubblicato questo articolo: «A Primer in BERTology: What We Know About How BERT Works» by Anna Rogers, Olga Kovaleva, Anna Rumshisky https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00349/96482/A-Primer-... che cita il paper sopra tra le fonti per descrivere le caratteristiche di syntactic knowledge di BERT, mentre più avanti, nel capitolo "3.3 World Knowledge" e "3.4 Limitations" scrive: --8<---------------cut here---------------start------------->8--- However, BERT cannot reason based on its world knowledge. Forbes et al. (2019) show that BERT can “guess” the affordances and properties of many objects, but cannot reason about the relationship between properties and affordances. For example, it “knows” that people can walk into houses, and that houses are big, but it cannot infer that houses are bigger than people. Zhou et al. (2020) and Richardson and Sabharwal (2019) also show that the performance drops with the number of necessary inference steps. Some of BERT’s world knowledge success comes from learning stereotypical associations (Poerner et al., 2019), for example, a person with an Italian-sounding name is predicted to be Italian, even when it is incorrect. 3.4 Limitations Multiple probing studies in section 3 and section 4 report that BERT possesses a surprising amount of syntactic, semantic, and world knowledge. However, Tenney et al. (2019a) remark, “the fact that a linguistic pattern is not observed by our probing classifier does not guarantee that it is not there, and the observation of a pattern does not tell us how it is used.” There is also the issue of how complex a probe should be allowed to be (Liu et al., 2019a). If a more complex probe recovers more information, to what extent are we still relying on the original model? Furthermore, different probing methods may lead to complementary or even contradictory conclusions, which makes a single test (as in most studies) insufficient (Warstadt et al., 2019). A given method might also favor one model over another, for example, RoBERTa trails BERT with one tree extraction method, but leads with another (Htut et al., 2019). The choice of linguistic formalism also matters (Kuznetsov and Gurevych, 2020). [...] --8<---------------cut here---------------end--------------->8--- Nel 2020 i ricercatori citati sopra sostenevano che BERT non è in grado di ragionare. Sullo stesso numero della rivista è pubblicato anche questo articolo: «What BERT Is Not: Lessons from a New Suite of Psycholinguistic Diagnostics for Language Models» by Allyson Ettinger https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00298/43535/What-BERT... cito dalle conclusioni: --8<---------------cut here---------------start------------->8--- In this paper we have introduced a suite of diagnostic tests for language models to better our understanding of the linguistic competencies acquired by pre-training via language modeling. We draw our tests from psycholinguistic studies, allowing us to target a range of linguistic capacities by testing word prediction accuracies and sensitivity of model probabilities to linguistic distinctions. As a case study, we apply these tests to analyze strengths and weaknesses of the popular BERT model, finding that it shows sensitivity to role reversal and same-category distinctions, albeit less than humans, and it succeeds with noun hypernyms, but it struggles with challenging inferences and role-based event prediction—and it shows clear failures with the meaning of negation. We make all test sets and experiment code available (see Footnote 1), for further experiments. The capacities targeted by these test sets are by no means comprehensive, and future work can build on the foundation of these datasets to expand to other aspects of language processing. Because these sets are small, we must also be conservative in the strength of our conclusions—different formulations may yield different performance, and future work can expand to verify the generality of these results. In parallel, we hope that the weaknesses highlighted by these diagnostics can help to identify areas of need for establishing robust and generalizable models for language understanding. --8<---------------cut here---------------end--------------->8--- Allora ripeto la mia domanda: ci sono nuovi studi che dimostrino che le limitazioni evidenziate nei test sulla competenza logico/linguistica di BERT siano stati risolti da altri LLM? Perché credo che sulla _perfomance_ sintattica degli LLM nessuno abbia proprio nulla da ridire. Saluti, 380° [...] [1] Message-id: 87o7ux2i16.fsf@xelera.eu https://server-nexa.polito.it/pipermail/nexa/2022-September/049508.html -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
User la frase "il topo è inseguito dal gatto" è attiva o passiva? ChatGPT La frase "il topo è inseguito dal gatto" è in forma passiva. User come fai a saperlo? ChatGPT Posso determinare che la frase "il topo è inseguito dal gatto" è in forma passiva seguendo alcune caratteristiche grammaticali tipiche delle frasi passive in italiano: Struttura della frase: Nelle frasi passive, il soggetto riceve l'azione piuttosto che eseguirla. Nell'esempio fornito, il topo (soggetto) riceve l'azione di essere inseguito. Verbo: La frase utilizza una forma del verbo "essere" seguita dal participio passato del verbo principale. In questo caso, "è inseguito". Agente della passiva: Nelle frasi passive, l'entità che esegue l'azione è spesso introdotta dalla preposizione "da". In questo esempio, l'agente dell'azione è "il gatto", e viene introdotto appunto con "dal". Combinando queste caratteristiche, è chiaro che la frase è in forma passiva. User per determinare la forma di una frase, tu applichi esattamente le regole che hai appena elencato? ChatGPT No, non utilizzo una lista di regole in modo rigido e sequenziale come potrebbe fare un algoritmo tradizionale di elaborazione del linguaggio. Invece, il mio modello è basato su una vasta quantità di dati testuali che ho analizzato durante la mia formazione. Quando "valuto" una frase, riconosco schemi e strutture linguistiche basati su quel vasto corpus di dati. Tuttavia, quando ti ho fornito quelle caratteristiche grammaticali, ho voluto spiegare in modo esplicito e comprensibile come si può riconoscere una frase passiva in italiano. Era un modo per fornirti una spiegazione chiara e didattica. Nel "pensiero" interno del modello, la determinazione avviene in maniera molto più fluida e basata sul riconoscimento di schemi nei dati. Per ora è tutto, a voi la linea :-) G. On Sun, 15 Oct 2023 at 20:21, 380° <g380@biscuolo.net> wrote:
Buonasera,
Giuseppe Attardi <attardi@di.unipi.it> writes:
C’è tutta un’area di ricerca, che passa sotto il nome di BERTology, che analizza la questione e si dimostra ad esempio che dalle relazioni presenti nella matrici di attention delle frasi, si può ricavare l’intero albero sintattico della frase: https://aclanthology.org/N19-1419.pdf
«A Structural Probe for Finding Syntax in Word Representations» John Hewitt, Christopher D. Manning Published 1 June 2019 (via
https://www.semanticscholar.org/paper/A-Structural-Probe-for-Finding-Syntax-... )
--8<---------------cut here---------------start------------->8---
Recent work has improved our ability to detect linguistic knowledge in word representations. However, current methods for detecting syntactic knowledge do not test whether syntax trees are represented in their entirety. In this work, we propose a structural probe, which evaluates whether syntax trees are embedded in a linear transformation of a neural network’s word representation space. The probe identifies a linear transformation under which squared L2 distance encodes the distance between words in the parse tree, and one in which squared L2 norm encodes depth in the parse tree. Using our probe, we show that such transformations exist for both ELMo and BERT but not in baselines, providing evidence that entire syntax trees are embedded implicitly in deep models’ vector geometry.
--8<---------------cut here---------------end--------------->8---
Interessante, ma se davvero vogliamo parlare di BERTology allora, ripeto [1] che nel Vol. 8 del Transactions of the Association for Computational Linguistics del MIT (2020) è pubblicato questo articolo:
«A Primer in BERTology: What We Know About How BERT Works» by Anna Rogers, Olga Kovaleva, Anna Rumshisky
https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00349/96482/A-Primer-...
che cita il paper sopra tra le fonti per descrivere le caratteristiche di syntactic knowledge di BERT, mentre più avanti, nel capitolo "3.3 World Knowledge" e "3.4 Limitations" scrive:
--8<---------------cut here---------------start------------->8---
However, BERT cannot reason based on its world knowledge. Forbes et al. (2019) show that BERT can “guess” the affordances and properties of many objects, but cannot reason about the relationship between properties and affordances. For example, it “knows” that people can walk into houses, and that houses are big, but it cannot infer that houses are bigger than people. Zhou et al. (2020) and Richardson and Sabharwal (2019) also show that the performance drops with the number of necessary inference steps. Some of BERT’s world knowledge success comes from learning stereotypical associations (Poerner et al., 2019), for example, a person with an Italian-sounding name is predicted to be Italian, even when it is incorrect.
3.4 Limitations
Multiple probing studies in section 3 and section 4 report that BERT possesses a surprising amount of syntactic, semantic, and world knowledge. However, Tenney et al. (2019a) remark, “the fact that a linguistic pattern is not observed by our probing classifier does not guarantee that it is not there, and the observation of a pattern does not tell us how it is used.” There is also the issue of how complex a probe should be allowed to be (Liu et al., 2019a). If a more complex probe recovers more information, to what extent are we still relying on the original model?
Furthermore, different probing methods may lead to complementary or even contradictory conclusions, which makes a single test (as in most studies) insufficient (Warstadt et al., 2019). A given method might also favor one model over another, for example, RoBERTa trails BERT with one tree extraction method, but leads with another (Htut et al., 2019). The choice of linguistic formalism also matters (Kuznetsov and Gurevych, 2020).
[...]
--8<---------------cut here---------------end--------------->8---
Nel 2020 i ricercatori citati sopra sostenevano che BERT non è in grado di ragionare.
Sullo stesso numero della rivista è pubblicato anche questo articolo:
«What BERT Is Not: Lessons from a New Suite of Psycholinguistic Diagnostics for Language Models» by Allyson Ettinger
https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00298/43535/What-BERT...
cito dalle conclusioni:
--8<---------------cut here---------------start------------->8---
In this paper we have introduced a suite of diagnostic tests for language models to better our understanding of the linguistic competencies acquired by pre-training via language modeling. We draw our tests from psycholinguistic studies, allowing us to target a range of linguistic capacities by testing word prediction accuracies and sensitivity of model probabilities to linguistic distinctions. As a case study, we apply these tests to analyze strengths and weaknesses of the popular BERT model, finding that it shows sensitivity to role reversal and same-category distinctions, albeit less than humans, and it succeeds with noun hypernyms, but it struggles with challenging inferences and role-based event prediction—and it shows clear failures with the meaning of negation. We make all test sets and experiment code available (see Footnote 1), for further experiments.
The capacities targeted by these test sets are by no means comprehensive, and future work can build on the foundation of these datasets to expand to other aspects of language processing. Because these sets are small, we must also be conservative in the strength of our conclusions—different formulations may yield different performance, and future work can expand to verify the generality of these results. In parallel, we hope that the weaknesses highlighted by these diagnostics can help to identify areas of need for establishing robust and generalizable models for language understanding.
--8<---------------cut here---------------end--------------->8---
Allora ripeto la mia domanda: ci sono nuovi studi che dimostrino che le limitazioni evidenziate nei test sulla competenza logico/linguistica di BERT siano stati risolti da altri LLM?
Perché credo che sulla _perfomance_ sintattica degli LLM nessuno abbia proprio nulla da ridire.
Saluti, 380°
[...]
[1] Message-id: 87o7ux2i16.fsf@xelera.eu https://server-nexa.polito.it/pipermail/nexa/2022-September/049508.html
-- 380° (Giovanni Biscuolo public alter ego)
«Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché»
Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>. _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Bell’esempio che illustra perché l’Explainable AI non funziona, almeno non come vorrebbero i suoi sostenitori. La spiegazione che viene fornita è una ricostruzione razionale della risposta, che è simile a quanto fanno gli esperti umani quando devono spiegare le loro risposte. Infatti nessuno di noi applicherebbe pedissequamente le regole grammaticali per rispondere alla domanda: risponderebbe d’acchito. Poi, se pressato a spiegare il perché, cercherebbe nelle sue reminiscenze di grammatica della scuola media per una giustificazione. Anche se chiedi a un medico di giustificare la sua diagnosi, ci mette molte più parole e tempo di quanto ci ha messo per produrla, perché non è in quel modo che l’ha ottenuta. Il Deep Learning opera a livello di System 1, secondo la terminologia di Daniel Kahneman, ossia di conoscenza “compilata" per una fruizione diretta. — Beppe
On 15 Oct 2023, at 20:48, Guido Vetere <vetere.guido@gmail.com> wrote:
User la frase "il topo è inseguito dal gatto" è attiva o passiva?
ChatGPT La frase "il topo è inseguito dal gatto" è in forma passiva.
User come fai a saperlo?
ChatGPT Posso determinare che la frase "il topo è inseguito dal gatto" è in forma passiva seguendo alcune caratteristiche grammaticali tipiche delle frasi passive in italiano: Struttura della frase: Nelle frasi passive, il soggetto riceve l'azione piuttosto che eseguirla. Nell'esempio fornito, il topo (soggetto) riceve l'azione di essere inseguito. Verbo: La frase utilizza una forma del verbo "essere" seguita dal participio passato del verbo principale. In questo caso, "è inseguito". Agente della passiva: Nelle frasi passive, l'entità che esegue l'azione è spesso introdotta dalla preposizione "da". In questo esempio, l'agente dell'azione è "il gatto", e viene introdotto appunto con "dal". Combinando queste caratteristiche, è chiaro che la frase è in forma passiva.
User per determinare la forma di una frase, tu applichi esattamente le regole che hai appena elencato?
ChatGPT No, non utilizzo una lista di regole in modo rigido e sequenziale come potrebbe fare un algoritmo tradizionale di elaborazione del linguaggio. Invece, il mio modello è basato su una vasta quantità di dati testuali che ho analizzato durante la mia formazione. Quando "valuto" una frase, riconosco schemi e strutture linguistiche basati su quel vasto corpus di dati. Tuttavia, quando ti ho fornito quelle caratteristiche grammaticali, ho voluto spiegare in modo esplicito e comprensibile come si può riconoscere una frase passiva in italiano. Era un modo per fornirti una spiegazione chiara e didattica. Nel "pensiero" interno del modello, la determinazione avviene in maniera molto più fluida e basata sul riconoscimento di schemi nei dati.
Per ora è tutto, a voi la linea :-)
G.
On Sun, 15 Oct 2023 at 20:21, 380° <g380@biscuolo.net <mailto:g380@biscuolo.net>> wrote:
Buonasera,
Giuseppe Attardi <attardi@di.unipi.it <mailto:attardi@di.unipi.it>> writes:
C’è tutta un’area di ricerca, che passa sotto il nome di BERTology, che analizza la questione e si dimostra ad esempio che dalle relazioni presenti nella matrici di attention delle frasi, si può ricavare l’intero albero sintattico della frase: https://aclanthology.org/N19-1419.pdf
«A Structural Probe for Finding Syntax in Word Representations» John Hewitt, Christopher D. Manning Published 1 June 2019 (via https://www.semanticscholar.org/paper/A-Structural-Probe-for-Finding-Syntax-...)
--8<---------------cut here---------------start------------->8---
Recent work has improved our ability to detect linguistic knowledge in word representations. However, current methods for detecting syntactic knowledge do not test whether syntax trees are represented in their entirety. In this work, we propose a structural probe, which evaluates whether syntax trees are embedded in a linear transformation of a neural network’s word representation space. The probe identifies a linear transformation under which squared L2 distance encodes the distance between words in the parse tree, and one in which squared L2 norm encodes depth in the parse tree. Using our probe, we show that such transformations exist for both ELMo and BERT but not in baselines, providing evidence that entire syntax trees are embedded implicitly in deep models’ vector geometry.
--8<---------------cut here---------------end--------------->8---
Interessante, ma se davvero vogliamo parlare di BERTology allora, ripeto [1] che nel Vol. 8 del Transactions of the Association for Computational Linguistics del MIT (2020) è pubblicato questo articolo:
«A Primer in BERTology: What We Know About How BERT Works» by Anna Rogers, Olga Kovaleva, Anna Rumshisky
https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00349/96482/A-Primer-...
che cita il paper sopra tra le fonti per descrivere le caratteristiche di syntactic knowledge di BERT, mentre più avanti, nel capitolo "3.3 World Knowledge" e "3.4 Limitations" scrive:
--8<---------------cut here---------------start------------->8---
However, BERT cannot reason based on its world knowledge. Forbes et al. (2019) show that BERT can “guess” the affordances and properties of many objects, but cannot reason about the relationship between properties and affordances. For example, it “knows” that people can walk into houses, and that houses are big, but it cannot infer that houses are bigger than people. Zhou et al. (2020) and Richardson and Sabharwal (2019) also show that the performance drops with the number of necessary inference steps. Some of BERT’s world knowledge success comes from learning stereotypical associations (Poerner et al., 2019), for example, a person with an Italian-sounding name is predicted to be Italian, even when it is incorrect.
3.4 Limitations
Multiple probing studies in section 3 and section 4 report that BERT possesses a surprising amount of syntactic, semantic, and world knowledge. However, Tenney et al. (2019a) remark, “the fact that a linguistic pattern is not observed by our probing classifier does not guarantee that it is not there, and the observation of a pattern does not tell us how it is used.” There is also the issue of how complex a probe should be allowed to be (Liu et al., 2019a). If a more complex probe recovers more information, to what extent are we still relying on the original model?
Furthermore, different probing methods may lead to complementary or even contradictory conclusions, which makes a single test (as in most studies) insufficient (Warstadt et al., 2019). A given method might also favor one model over another, for example, RoBERTa trails BERT with one tree extraction method, but leads with another (Htut et al., 2019). The choice of linguistic formalism also matters (Kuznetsov and Gurevych, 2020).
[...]
--8<---------------cut here---------------end--------------->8---
Nel 2020 i ricercatori citati sopra sostenevano che BERT non è in grado di ragionare.
Sullo stesso numero della rivista è pubblicato anche questo articolo:
«What BERT Is Not: Lessons from a New Suite of Psycholinguistic Diagnostics for Language Models» by Allyson Ettinger
https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00298/43535/What-BERT...
cito dalle conclusioni:
--8<---------------cut here---------------start------------->8---
In this paper we have introduced a suite of diagnostic tests for language models to better our understanding of the linguistic competencies acquired by pre-training via language modeling. We draw our tests from psycholinguistic studies, allowing us to target a range of linguistic capacities by testing word prediction accuracies and sensitivity of model probabilities to linguistic distinctions. As a case study, we apply these tests to analyze strengths and weaknesses of the popular BERT model, finding that it shows sensitivity to role reversal and same-category distinctions, albeit less than humans, and it succeeds with noun hypernyms, but it struggles with challenging inferences and role-based event prediction—and it shows clear failures with the meaning of negation. We make all test sets and experiment code available (see Footnote 1), for further experiments.
The capacities targeted by these test sets are by no means comprehensive, and future work can build on the foundation of these datasets to expand to other aspects of language processing. Because these sets are small, we must also be conservative in the strength of our conclusions—different formulations may yield different performance, and future work can expand to verify the generality of these results. In parallel, we hope that the weaknesses highlighted by these diagnostics can help to identify areas of need for establishing robust and generalizable models for language understanding.
--8<---------------cut here---------------end--------------->8---
Allora ripeto la mia domanda: ci sono nuovi studi che dimostrino che le limitazioni evidenziate nei test sulla competenza logico/linguistica di BERT siano stati risolti da altri LLM?
Perché credo che sulla _perfomance_ sintattica degli LLM nessuno abbia proprio nulla da ridire.
Saluti, 380°
[...]
[1] Message-id: 87o7ux2i16.fsf@xelera.eu <mailto:87o7ux2i16.fsf@xelera.eu> https://server-nexa.polito.it/pipermail/nexa/2022-September/049508.html
-- 380° (Giovanni Biscuolo public alter ego)
«Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché»
Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org <https://stallmansupport.org/>>. _______________________________________________ nexa mailing list nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Buongiorno, più leggo, più divento cyber-luddista [1] :-D Giuseppe Attardi <attardi@di.unipi.it> writes:
Bell’esempio che illustra perché l’Explainable AI non funziona, almeno non come vorrebbero i suoi sostenitori.
e invece FUNZIONICCHIA discretamente bene l'Unexplainable AI, tranne quando non funziona, a volte drammaticamente male. Quindi, quando l'output dell'Unexplainable AI viene "eseguito" direttamente, senza /giudizio/, le conseguenze a volte sono drammatiche.
La spiegazione che viene fornita è una ricostruzione razionale della risposta, che è simile a quanto fanno gli esperti umani quando devono spiegare le loro risposte.
Che è l'unico modo per dimostrare _perché_ viene fornita quella risposta, che a sua volta è l'unico modo per correggere progressivamente gli errori nelle "ricostruzioni razionali" impiegate; si chiama scienza, no? (E sì, anche la grammatica evolve, lentamente ma inesorabilmente.) Da qualche secolo ormai più che "cosa" è importante "perché", si chiama "discorso sul metodo". [...]
Poi, se pressato a spiegare il perché, cercherebbe nelle sue reminiscenze di grammatica della scuola media per una giustificazione.
No: qui stiamo parlando di un esperto umano in grammatica, non di qualsiasi altro esperto che ha solo reminescenze della grammatica delle scuole medie.
Anche se chiedi a un medico di giustificare la sua diagnosi,
Ah, OK: quindi adesso non parliamo più di grammatica, cioè di "sintassi" e _al massimo_ analisi logica di una frase.
ci mette molte più parole e tempo di quanto ci ha messo per produrla, perché non è in quel modo che l’ha ottenuta.
Se un medico ha intenzione di agire sulla salute delle persone senza dover produrre una giustificazione razionale delle proprie diagnosi e soprattutto di giustificare anche le proprie prognosi, allora abbiamo un serio problema /sistemico/. In particolare, qualsiasi medico venisse a dirmi che la diagnosi è quella perché glielo dice il suo sistema AI ma che tale diagnosi è /ingiustificabile/ perché è così e non si può spiagere, lo inviterei senza troppi complimenti quel medico a stare a guardare l'ospedale, da fuori. La stessa cosa vale per qualsiasi altra questione sia necessario /giustificare/ (iustus facĕre) nei confronti delle persone. Io e una quantità innumerevole di esseri umani ora et in sæcula sæculorum non accetteremo MAI di essere "gestiti" attraverso automatismi ingiustificabili. Punto.
Il Deep Learning opera a livello di System 1, secondo la terminologia di Daniel Kahneman, ossia di conoscenza “compilata" per una fruizione diretta.
Innanzi tutto NON è "conoscenza" ma "reificazione", catturata (sampled), filtata e compressa attraverso procedimenti assai spannometrici e molto "lossy". In secondo luogo, è da "Reflections on Trusting Trust" che tutti gli informatici sanno che «You can't trust code that you did not totally create yourself.» Questo vale per _tutti_ i software binari (compilati): è per questo che serve il sorgente, e il sorgente del compilatore, e il sorgente di tutte le librerie, e un environment non inquinato... Last but NON least: "fruizione diretta" un corno, sono le persone le responsabili dell'applicazione dell'output dei c.d. sistemi IA In altre parole: che gli umani stacchino il cervello per attaccare i propri organi a una "IA" è /ingiustificabile/. «La resistenza NON è futile» :-) [...] Saluti, 380° [1] la vulgata vuole che i luddisti siano contro le macchine in generale, propugnatori una specie di ritorno alla natura selvaggia a incontaminata: balle! «They protested against manufacturers who used machines in "a fraudulent and deceitful manner" to replace the skilled labour of workers and drive down wages by producing inferior goods» https://en.wikipedia.org/wiki/Luddite -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Per "Explainable AI” (XAI) si intende un insieme di tecniche che cercano di ricavare una spiegazione comprensibile delle risposte di un’applicazione di AI, trattata come black box.
On 16 Oct 2023, at 10:00, 380° <g380@biscuolo.net> wrote:
Buongiorno,
più leggo, più divento cyber-luddista [1] :-D
Giuseppe Attardi <attardi@di.unipi.it <mailto:attardi@di.unipi.it>> writes:
Bell’esempio che illustra perché l’Explainable AI non funziona, almeno non come vorrebbero i suoi sostenitori.
e invece FUNZIONICCHIA discretamente bene l'Unexplainable AI, tranne quando non funziona, a volte drammaticamente male.
Anche gli esperti umani sbagliano, con una percentuale a volte maggiore. A te scegliere tra una risposta sbagliata, ma ben spiegata e una corretta, ma difficile da spiegare. Comunque, non sto proponendo di dare agli algoritmi la capacità di agire al posto degli umani, ma di dare loro dei suggerimenti. Una madre a cui 17 medici specialisti non erano stati in grado di diagnosticare una malattia rara, non si è accontentata delle loro spiegazioni e ha avuto la risposta da ChatGPT: https://www.hcltech.com/trends-and-insights/chatgpt-correctly-diagnoses-chil.... — Beppe
Buongiorno Giuseppe, torno su una cosa che hai detto per farti /la/ domanda. Giuseppe Attardi <attardi@di.unipi.it> writes: [...]
non sto proponendo di dare agli algoritmi la capacità di agire al posto degli umani, ma di dare loro dei suggerimenti.
Innanzi tutto grazie della precisazione, secondo me dovrebbe essere l'incipit di qualsiasi discorso (ricerca, articolo, convegno) degli "addetti ai lavori", così sgombereremmo il campo da un sacco di /equivoci/, che invece riempiono la piscina nella quale molti "addetti ai lavori" sguazzano allegramente, profumatamente finanziati. Ma molto più importante della _proposizione_, è _risposta_ a *La Domanda* /fondamentale/ (non è 42!): perché? Perché "gli algoritmi" - che in realtà andrebbero chiamati software [1], anche la c.d. "IA" [2] - non dovrebbero avere la capacità di agire al posto degli umani? In altre parole: da quali idee dovrebbe conseguire la pratica di evitare di "far agire" gli "algoritmi" al posto degli umani? Grazie, 380° [1] è la complicità che c'è tra lo yin e yang della conoscenza, l'idealismo e il pragmatismo (etimologicamente parlando), dove la /pragmatica/ (https://www.treccani.it/enciclopedia/pragmatica/) meriterebbe di essere adeguatamente (ri)valutata [2] quindi anche la General Artificial Intellicence, giusto?... che comunque non esiste -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Il software si usa quasi sempre per svolgere compiti in autonomia: questa mail ti arriva perché un insieme di vari software svolgono le funzioni loro assegnate. Il fatto è che non decidono loro quali funzioni svolgere, siamo noi che affidiamo loro quelle determinate funzioni. Più in generale le macchine non hanno né devono avere libero arbitrio, ossia la capacità di scegliere /cosa/ fare. Possono solo scegliere /come/ svolgere un determinato compito, all’interno delle possibilità che sono loro permesse. Capisco che la questione è sottile, e del resto sul libero arbitrio i filosofi si interrogano da secoli. Ma questa distinzione secondo me è quella su cui possiamo concentrarci. In particolare, come stabilire e fissare “le possibilità di scelta” delle macchine, che qualcuno chiama guardrail, è una questione anche tecnica importante. Ma secondo me è molto più promettente di quella dell’Explainable AI (XAI), che richiede solo di avere una spiegazione a posteriori delle scelte, magari errate. Tecnicamente, ci sono diversi approcci alla questione: 1. Inserire vincoli nella funzione obiettivo durante l’apprendimento. 2. Chain of Verification: assicurare che le risposte siano verificabili e accurate 3. Constitutional AI: garantire che le risposte aderiscano a dei principi generali (es. Dichiarazione Universale dei Diritti Umani) Sono attualmente soluzioni ancora premature, su cui si può lavorare. — Beppe
On 26 Oct 2023, at 10:44, 380° <g380@biscuolo.net> wrote:
Buongiorno Giuseppe,
torno su una cosa che hai detto per farti /la/ domanda.
Giuseppe Attardi <attardi@di.unipi.it> writes:
[...]
non sto proponendo di dare agli algoritmi la capacità di agire al posto degli umani, ma di dare loro dei suggerimenti.
Innanzi tutto grazie della precisazione, secondo me dovrebbe essere l'incipit di qualsiasi discorso (ricerca, articolo, convegno) degli "addetti ai lavori", così sgombereremmo il campo da un sacco di /equivoci/, che invece riempiono la piscina nella quale molti "addetti ai lavori" sguazzano allegramente, profumatamente finanziati.
Ma molto più importante della _proposizione_, è _risposta_ a *La Domanda* /fondamentale/ (non è 42!): perché?
Perché "gli algoritmi" - che in realtà andrebbero chiamati software [1], anche la c.d. "IA" [2] - non dovrebbero avere la capacità di agire al posto degli umani?
In altre parole: da quali idee dovrebbe conseguire la pratica di evitare di "far agire" gli "algoritmi" al posto degli umani?
Grazie, 380°
[1] è la complicità che c'è tra lo yin e yang della conoscenza, l'idealismo e il pragmatismo (etimologicamente parlando), dove la /pragmatica/ (https://www.treccani.it/enciclopedia/pragmatica/) meriterebbe di essere adeguatamente (ri)valutata
[2] quindi anche la General Artificial Intellicence, giusto?... che comunque non esiste
-- 380° (Giovanni Biscuolo public alter ego)
«Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché»
Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
"Constitutional AI" non è nulla di diverso della "AI ethics", nel senso che, a volerla prendere sul serio, presenta lo stesso problema: i suoi requisiti sono gli stessi dell'etica e non possono essere soddisfatti, oggi. La capacità di formulare giudizi morali (o "costituzionali") richiede infatti che siano anzitutto soddisfatti tutti i requisiti non morali dell'etica. Il giudizio morale richiede, tra gli altri, • la capacità di agire non solo secondo le leggi, ma anche secondo la rappresentazione delle leggi; • il ragionamento logico, • una comprensione autentica del linguaggio, • la capacità di distinguere una connessione causale da una mera correlazione, • la famiglia di intuizioni e procedure di ragionamento incluse nel senso comune (inclusa la comprensione dei contesti). La capacità di formulare giudizi morali richiederebbe un'intelligenza artificiale generale (AGI). Questa, oggi, non c'é. Quindi non può esserci alcun allineamento dei valori, alcuna etica dell'IA, alcuna IA costituzionale, se non come arma di distrazione e come via di fuga dalla regolazione giuridica. Per il resto, proposte come quelle di una "constitutional AI"(1) sono un esempio, come ha già osservato Maria Chiara Pievatolo citando Lucio Russo, di cultura "componibile", ossia di quella congiunzione di specializzazione e ignoranza in virtù della quale si è privi di anticorpi contro l'idea di costruire una costituzione con un sondaggio e si è convinti che i valori morali siano instillabili con un un catalogo di risposte giuste e sbagliate, fino alla candida constatazione finale che "CAI training is more complicated than we thought". Un saluto, Daniela (1) https://www.anthropic.com/index/collective-constitutional-ai-aligning-a-lang... ________________________________________ Da: nexa <nexa-bounces@server-nexa.polito.it> per conto di Giuseppe Attardi <attardi@di.unipi.it> Inviato: giovedì 26 ottobre 2023 11:49 A: 380° Cc: nexa@server-nexa.polito.it Oggetto: Re: [nexa] human Vs. IA agency (Re: IA, lavoro, immaginari) [CDT:L3] Il software si usa quasi sempre per svolgere compiti in autonomia: questa mail ti arriva perché un insieme di vari software svolgono le funzioni loro assegnate. Il fatto è che non decidono loro quali funzioni svolgere, siamo noi che affidiamo loro quelle determinate funzioni. Più in generale le macchine non hanno né devono avere libero arbitrio, ossia la capacità di scegliere /cosa/ fare. Possono solo scegliere /come/ svolgere un determinato compito, all’interno delle possibilità che sono loro permesse. Capisco che la questione è sottile, e del resto sul libero arbitrio i filosofi si interrogano da secoli. Ma questa distinzione secondo me è quella su cui possiamo concentrarci. In particolare, come stabilire e fissare “le possibilità di scelta” delle macchine, che qualcuno chiama guardrail, è una questione anche tecnica importante. Ma secondo me è molto più promettente di quella dell’Explainable AI (XAI), che richiede solo di avere una spiegazione a posteriori delle scelte, magari errate. Tecnicamente, ci sono diversi approcci alla questione: 1. Inserire vincoli nella funzione obiettivo durante l’apprendimento. 2. Chain of Verification: assicurare che le risposte siano verificabili e accurate 3. Constitutional AI: garantire che le risposte aderiscano a dei principi generali (es. Dichiarazione Universale dei Diritti Umani) Sono attualmente soluzioni ancora premature, su cui si può lavorare. — Beppe
On 26 Oct 2023, at 10:44, 380° <g380@biscuolo.net> wrote:
Buongiorno Giuseppe,
torno su una cosa che hai detto per farti /la/ domanda.
Giuseppe Attardi <attardi@di.unipi.it> writes:
[...]
non sto proponendo di dare agli algoritmi la capacità di agire al posto degli umani, ma di dare loro dei suggerimenti.
Innanzi tutto grazie della precisazione, secondo me dovrebbe essere l'incipit di qualsiasi discorso (ricerca, articolo, convegno) degli "addetti ai lavori", così sgombereremmo il campo da un sacco di /equivoci/, che invece riempiono la piscina nella quale molti "addetti ai lavori" sguazzano allegramente, profumatamente finanziati.
Ma molto più importante della _proposizione_, è _risposta_ a *La Domanda* /fondamentale/ (non è 42!): perché?
Perché "gli algoritmi" - che in realtà andrebbero chiamati software [1], anche la c.d. "IA" [2] - non dovrebbero avere la capacità di agire al posto degli umani?
In altre parole: da quali idee dovrebbe conseguire la pratica di evitare di "far agire" gli "algoritmi" al posto degli umani?
Grazie, 380°
[1] è la complicità che c'è tra lo yin e yang della conoscenza, l'idealismo e il pragmatismo (etimologicamente parlando), dove la /pragmatica/ (https://www.treccani.it/enciclopedia/pragmatica/) meriterebbe di essere adeguatamente (ri)valutata
[2] quindi anche la General Artificial Intellicence, giusto?... che comunque non esiste
-- 380° (Giovanni Biscuolo public alter ego)
«Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché»
Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Ciao Giuseppe Il 16 Ottobre 2023 03:13:31 UTC, Giuseppe Attardi ha scritto:
Bell’esempio che illustra perché l’Explainable AI non funziona, almeno non come vorrebbero i suoi sostenitori.
Finalmente siamo d'accordo! È stata la prima cosa che ho pensato. La seconda è stata: "ma perché chiedere ad un software un riassunto pasticciato dei propri testi sorgente?"
La spiegazione che viene fornita è una ricostruzione razionale della risposta,
No: è un riassunto approssimativo (e ottimizzato per apparire credibile) di ciò che era presente nei testi usati per la programmazione statistica.
che è simile a quanto fanno gli esperti umani quando devono spiegare le loro risposte.
Uhm per la verità io non lavoro così. L'esperienza mi permettono di individuare rapidamente le dimensioni rilevanti del problema che ho davanti, ma le mie risposte includono sempre lunghe (qualcuno osa dire "troppo" lunghe :-D) descrizioni dei ragionamenti che conducono a tali conclusioni. Spesso includono anche lunghe descrizioni dei percorsi analizzati ma scartati. Nella mia testa è come ripercorrere a ritroso il grafo di conoscenze ed esperienze che ho percorso in andata per giungere alla conclusione. Tant'è che, contrariamente ad un LLM, io posso identificare le mie lacune lungo il percorso, documentarmi in merito fino a poter fornire una conclusione solida e responsabile. Questa è la ragione per cui l'approccio attuale alle "explainable AI" è irrimediabilmente fallato: come con tutto il resto deve ridefinire la "spiegazione" con "giustificazione". Io spiego i ragionamenti che mi portano ad una conclusione, non invento giustificazioni. I LLM non spiegano il significato dei calcoli che determinano il proprio output, ma cercano di giustificazioni coerenti all'interno di ciò che rimane al proprio interno dei testi sorgente.
Infatti nessuno di noi applicherebbe pedissequamente le regole grammaticali per rispondere alla domanda: risponderebbe d’acchito.
Dipende da quanto ti ricordi quelle regole. :-) Se non sei certo di conoscerle (e fornire la risposta giusta è sufficientemente importante per te) allora andrai a ripassarle e le applicherai pedissequamente. Ma soprattutto, se le hai comprese le applicherai in modo coerente. Facendo calcolare l'output di un input come questo
La frase "Marco si interrogava dall'inizio" è attiva o passiva? E perché?
Stando al proxy (sorvegliato... usate le dovute cautele) https://talkai.info/it/chat/ otteniamo sistematicamente un output interpretabile come "la frase è passiva perché..." Tuttavia chiedendo sostituendo la parola "attiva" con "riflessiva" otteniamo sistematicamente un output interpretabile come "la frase è riflessiva perché..." Insomma scopriamo l'acqua calda: GPT4 non comprende la grammatica, né sa di non comprenderla semplicemente perché non è intelligente.
Anche se chiedi a un medico di giustificare la sua diagnosi, ci mette molte più parole e tempo di quanto ci ha messo per produrla, perché non è in quel modo che l’ha ottenuta.
Mia moglie è medico e ti posso assicurare che non spara la prima diagnosi che gli viene in mente. Alcune volte, pur non pressata in alcun modo, condivide con me i propri ragionamenti perché le mie domande l'aiutano proprio ad evitare errori di valutazione. Di tali ragionamenti io comprendo una frazione appena sufficiente a fare le domande giuste, ma ai pazienti riporta poi una spiegazione enormemente semplificata rispetto a quella condivisa con me.
Il Deep Learning opera a livello di System 1, secondo la terminologia di Daniel Kahneman, ossia di conoscenza “compilata" per una fruizione diretta.
Ti rendi conto che stai applicato categorie pensate per la mente umana ad una serie di moltiplicazioni fra matrici? :-D Peraltro rifletti su questo: il modello stesso di Kahneman è basato su ipotesi non verificate o verificabili, come lui stesso ammise dopo le critiche sulla replicabilità degli studi da lui citati. [1] Il fatto che l'interpretazione di LLM e altre tecniche di programmazione statistica si basi su questa fuffa para-scientifica [2] è indicativo di quanto sia ancora primitiva l'informatica. Giacomo [1] https://retractionwatch.com/2017/02/20/placed-much-faith-underpowered-studie... [2] https://replicationindex.com/2020/12/30/a-meta-scientific-perspective-on-thi...
Bungiorno, Giacomo Tesio <giacomo@tesio.it> writes: [...]
Questa è la ragione per cui l'approccio attuale alle "explainable AI" è irrimediabilmente fallato: come con tutto il resto deve ridefinire la "spiegazione" con "giustificazione".
ed è per questo che gran parte del discorso pubblico attorno alla c.d. AI è /sofistico/ e non /filosofico/ [1], in altre parole: determinismo (riduzionismo) tecnologico. Ovvero: per "spiegare" la cosiddetta AI è necessario far ricorso a massicce dosi di sofismi (il riduzuionismo è una forma di sofismo). [...]
Infatti nessuno di noi applicherebbe pedissequamente le regole grammaticali per rispondere alla domanda: risponderebbe d’acchito.
Sì ma i filosofi hanno da tempo chiaramente spiegato che /La Domanda/ non è _cosa_ ma *perché* :-O [...]
Insomma scopriamo l'acqua calda: GPT4 non comprende la grammatica, né sa di non comprenderla semplicemente perché non è intelligente.
MCP mi ha fatto notare che già Platone nel Menone ha scritto: --8<---------------cut here---------------start------------->8--- la correttezza dell'opinione di qualcuno può essere stabilita solo in virtù della scienza detenuta da altri. Mentre il modello dell'anamnesis - che comporta una ricerca in prima persona, indipendente, in linea di principio, dalla gerarchia sociale - reca in sé un potenziale di emancipazione, l'opinione corretta dipende da un sapere altrui. --8<---------------cut here---------------end--------------->8--- (https://btfp.sp.unipi.it/dida/menone/ar01s19.xhtml) Tutta la c.d. AI non è nient'altro che un generatore automatico di *opinioni*, la cui correttezza può essere stabilita solo in virtù della scienza detenuta da _umani_. Inoltre, l'opinione della c.d. AI *dipende* da /quale/ sapere _altrui_ viene /scelto/ da chi _programma_ la AI. Giusto per contestualizzare l'opera: --8<---------------cut here---------------start------------->8--- L'interlocutore principale di Socrate è Menone, un giovane aristocratico tessalo allievo del sofista Gorgia. [...] Dobbiamo tuttavia chiederci perché Platone, in un dialogo dedicato all'insegnamento dell'eccellenza, abbia evitato di confrontarsi direttamente con il maestro, Gorgia, e abbia preferito esaminare un suo allievo non particolarmente brillante e con un reputazione non molto limpida. --8<---------------cut here---------------end--------------->8--- (https://btfp.sp.unipi.it/dida/menone/index.xhtml) Non è quindi un caso che questo confronto (indiretto) sia tra filosofi e sofisti. [...]
Peraltro rifletti su questo: il modello stesso di Kahneman è basato su ipotesi non verificate o verificabili, come lui stesso ammise dopo le critiche sulla replicabilità degli studi da lui citati. [1]
Quindi, il cosiddetto "modello Kahneman" era *solo* una opinione corretta, e per loro natura: --8<---------------cut here---------------start------------->8--- Anche le opinioni vere, finché permangono, sono una bella ricchezza, capace di realizzare tutto il bene possibile; solo che non acconsentono a rimanere per lungo tempo, e fuggono via dall’anima umana, per cui non hanno un gran significato, a meno che non s’incatenino con un ragionamento fondato sulla causalità. Ma proprio in questo, compagno Menone, consiste l’anamnesis, quella reminiscenza su cui sopra ci siamo accordati. Se collegate, esse dapprima divengono epistemai e, quindi, cognizioni stabili. Ecco perché la scienza vale più dell'opinione corretta: la differenza tra episteme e opinione corretta sta, appunto, nel collegamento. (98a) --8<---------------cut here---------------end--------------->8--- (https://btfp.sp.unipi.it/dida/menone/ar01s19.xhtml) In altre parole: i filosofi hanno da tempo chiaramente spiegato che /La Domanda/ non è _cosa_ ma *perché* :-O
Il fatto che l'interpretazione di LLM e altre tecniche di programmazione statistica si basi su questa fuffa para-scientifica [2] è indicativo di quanto sia ancora primitiva l'informatica.
...o di quanto sia in crisi La Scienza™? «Dunque non c'è virtù senza phronesis.» (Platone, migliaia di anni fa) Corollario: anche i premi nobel, a volte, possono sparare stronzate. Postilla: la scienza è entrata in un periodo di Grossa Crisi™ (Quelo) [2], *specialmente* in psicologia, medicina e economia; io ci andrei /molto/ cauto a usare La Scienza™ come viene fatto oggi: come una *clava* (e senza nemmeno un minimo di vergogna). Aneddoto: lo sapete che la politica di "austerity" implementata dalla EU fu frutto di un errore in un foglio di calcolo [3], vero? :-O ...già, i fogli di calcolo fanno già abbastanza danni, non è il caso di peggiorare la situazione con la c.d. AI (alimentata con dati gestiti su fogli di calcolo "on steroids", *aiuto*!): https://eusprig.org/research-info/horror-stories/ (è evidente che sono riportati solo lo 0.1% degli incidenti causati da "sphreadsheet errors") Cordiali saluti, 380°
[1] https://retractionwatch.com/2017/02/20/placed-much-faith-underpowered-studie...
[2] https://replicationindex.com/2020/12/30/a-meta-scientific-perspective-on-thi...
[1] nei "manuali di filosofia" la /sofistica/ (l'insegnamento dei sofisti) è raccontata come una specie di "corrente" filosofica, ma non ci vuole molto a comprendere che invece è _esattamente_ la negazione della filosofia. [2] https://en.wikipedia.org/wiki/Replication_crisis NON è un caso che proprio gli studi di John Bargh (psicologo sociale?) sul "social priming" siano citate come "origine" (di questa istanza storica) della crisi di replicabilità scientifica. [3] https://www.newscientist.com/article/dn23448-how-to-stop-excel-errors-drivin... -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Scusa 380° se sono pignolo ma... Il giorno Thu, 26 Oct 2023 12:05:22 +0200 380° ha scritto:
Tutta la c.d. AI non è nient'altro che un generatore automatico di *opinioni*, la cui correttezza può essere stabilita solo in virtù della scienza detenuta da _umani_.
No, le opinioni sono informazioni nella mente di una persona. Nel momento in cui le esprime, imprimendole su un supporto trasferibile in un linguaggio interpretabile da altri esseri umani, tale espressione è un dato che veicola un significato (più o meno vicino all'opinione iniziale a seconda della capacità espressiva dell'autore). Questo rimane vero anche se tale informazione fosse falsa. L'output di un LLM come GPT4 non veicola alcun significato perché non è espressione di una mente umana ma risultato di un calcolo approssimativo di cui nessuno comprende il significato. Discutere della correttezza dell'output di ChatGPT è dunque fondamentalmente sbagliato: non può essere né giusto né sbagliato perché non ha alcun significato. ChatGPT non è intelligente ma semplicemente produce un output in grado di far credere agli esseri umani di essere espresso da una intelligenza. Si tratta di un inganno efficace, ma pur sempre un inganno. Dunque dire che è un generatore automatico di opinioni è sbagliato.
Peraltro rifletti su questo: il modello stesso di Kahneman è basato su ipotesi non verificate o verificabili, come lui stesso ammise dopo le critiche sulla replicabilità degli studi da lui citati. [1]
Quindi, il cosiddetto "modello Kahneman" era *solo* una opinione corretta
No, non era un'opinione "corretta" ma era un'opinione infondata. Se sia corretta è tutt'oggi da dimostrare.
Corollario: anche i premi nobel, a volte, possono sparare stronzate.
Anche i premi Nobel sono esseri umani. Purtuttavia ad un essere umano può essere chiesto di rispondere dei propri errori, ad una macchina no. Per questo preferisco le stronzate degli esseri umani rispetto agli output privi di significato dei LLM.
Aneddoto: lo sapete che la politica di "austerity" implementata dalla EU fu frutto di un errore in un foglio di calcolo [3], vero? :-O
Non essere ingenuo, 380... ;-) Giacomo
Il 26/10/23 15:07, Giacomo Tesio ha scritto:
Scusa 380° se sono pignolo ma...
Il giorno Thu, 26 Oct 2023 12:05:22 +0200 380° ha scritto:
Tutta la c.d. AI non è nient'altro che un generatore automatico di *opinioni*, la cui correttezza può essere stabilita solo in virtù della scienza detenuta da _umani_.
Per essere precisi, è un generatore automatico di output che *altri* (gli esseri umani) *interpretano* come opinioni e ne stabiliscono (o no) la correttezza. Una volta fatta questa puntualizzazione, però, rimane interessante la questione come mai indovini e poeti possano emettere qualcosa che altri interpretano come opinioni corretta, se non sanno quello che dicono? La risposta ironica del Menone è: per una theia moira https://btfp.sp.unipi.it/dida/menone/ar01s20.xhtml Se prendessimo sul serio la theia moira, dovremmo credere a quanto dicono indovini e poeti per fede. Se mettiamo i SALAMI al posto di poeti e indovini, dobbiamo cambiare la struttura della domanda, o Platone vive ancora? Accidentalmente, MCP
On ven, 2023-10-27 at 10:03 +0200, Maria Chiara Pievatolo wrote:
Il 26/10/23 15:07, Giacomo Tesio ha scritto:
Scusa 380° se sono pignolo ma...
Il giorno Thu, 26 Oct 2023 12:05:22 +0200 380° ha scritto:
Tutta la c.d. AI non è nient'altro che un generatore automatico di *opinioni*, la cui correttezza può essere stabilita solo in virtù della scienza detenuta da _umani_.
Per essere precisi, è un generatore automatico di output che *altri* (gli esseri umani) *interpretano* come opinioni e ne stabiliscono (o no) la correttezza.
100% d'accordo. E questo non è un dettaglio, ma la madre di tutti gli equivoci sul tema LLM.
Buongiorno, Maria Chiara Pievatolo <mariachiara.pievatolo@unipi.it> writes:
Il 26/10/23 15:07, Giacomo Tesio ha scritto:
Scusa 380° se sono pignolo ma...
Il giorno Thu, 26 Oct 2023 12:05:22 +0200 380° ha scritto:
Tutta la c.d. AI non è nient'altro che un generatore automatico di *opinioni*, la cui correttezza può essere stabilita solo in virtù della scienza detenuta da _umani_.
Per essere precisi, è un generatore automatico di output
Fino a più o meno poco prima di ELIZA esistevano solo generatori "automatici" [1] umani di opinioni corrette (corrette secondo /loro/, giustificare in molti modi, alcuni decisamente pittoreschi come la freGnologia per esempio); dopo ELIZA hanno cominciato a fiorire generatori automatici di opinioni _corrette_, chiamati AI, che molti esperti di AI sostengono risultare _significativamente_ corrette giustificando in molti modi la significatività, fino a teorizzare comportamenti emergenti. Il fatto che i "generatori di opinioni corrette" siano umani o automatici non deve _distrarre_ dal meccanismo sofistico (sofisticatissimo nel caso della c.d. AI) che sta alla base della giustificazione della correttezza di tali opinioni. Tra l'altro, ci sono (stati) dei divertenti giochi da tavolo che combinando frasi fatte generano opinioni corrette; ELIZA è stato il primo gioco per computer che applicava regole (banali) di generazione di opinioni corrette /interattive/ simulando un ipotetico psicologo (che applicava una specifica _tecnica_ psicologica). Il fatto che le opinoni siano _corrette_ non /può/ significare che siano corrispondenti al vero nell'immediatezza della loro espressione: ci vuole una _analisi_ postuma (legare le statue di Dedalo) effettuata da chi "ha scienza" per farlo; il dialogo che ho citato dimostra chiaramente che già migliaia di anni fa questo è stato _logicamente_ dimostrato... e non c'era l'AI, c'erano i virtuosi sofisti.
che *altri* (gli esseri umani) *interpretano* come opinioni e ne stabiliscono (o no) la correttezza.
--8<---------------cut here---------------start------------->8--- E finché avrà una opinione corretta di ciò di cui altri ha scienza, non sarà una guida peggiore, credendo cose vere senza capirle (phronòn), di chi le capisce (phronountos). (97b) --8<---------------cut here---------------end--------------->8--- ( https://btfp.sp.unipi.it/dida/menone/ar01s19.xhtml ) L'opinione è /sempre/ corretta per caso, anche quando generata da umani invece che da AI, perché il "generatore di opinioni" non ha (bisogno di) scienza per giustificarne la correttezza, usa metodi /alieni/: è una /persona/ che crede alle cose senza capirle, ma ne giustifica la correttezza. Se l'opinionista fosse svelto a cambiare opinione quando chi ha scienza ne dimostra la NON correttezza, questo non sarebbe un grosso problema (non sarà una guida peggiore)... il problema è che il mondo è *amministrato* da opinionisti molto potenti che non sentono manco di striscio il bisogno di chiedere a chi ha scienza (che può essere solo libera, altrimenti non è) di /verificare/ la correttezza delle loro opinioni, cambiandole quando è il caso... anzi, la "scienza" (a servizio) se la inventano proprio di sana pianta solo al fine di giustificare le loro bizzarre opinioni.
Una volta fatta questa puntualizzazione, però, rimane interessante la questione
come mai indovini e poeti possano emettere qualcosa che altri interpretano come opinioni corretta, se non sanno quello che dicono?
Esatto, la questione di fondo rimane _invariata_. Possiamo girarla in questo modo: perché /altri/ formano le proprie opinioni corrette sulla base di quello che dicono indovini e poeti - che sono noti per non sapere quello che dicono - senza sapere quello che indovini e poeti dicono?
La risposta ironica del Menone è: per una theia moira https://btfp.sp.unipi.it/dida/menone/ar01s20.xhtml
Se prendessimo sul serio la theia moira, dovremmo credere a quanto dicono indovini e poeti per fede.
Esatto, però anche solo per definire la natura della fede dovremmo aprire un dibattito, perché per esempio la fede è definita come: 1. https://www.treccani.it/vocabolario/fede/ 1. a. Credenza piena e fiduciosa che procede da intima convinzione o si fonda sull’autorità altrui più che su prove positive 2. https://unaparolaalgiorno.it/significato/fede Adesione incondizionata, che non richiede prove, a un valore, a un concetto, a una verità; complesso di principi; fiducia; attestato; anello nuziale 3. https://it.wikipedia.org/wiki/Fede adesione a un messaggio o un annuncio fondata sull'accettazione di una realtà invisibile, la quale non risulta cioè immediatamente evidente, e viene quindi accolta come vera nonostante l'oscurità che l'avvolge.[1] La fede consiste pertanto nel «ritenere possibile» quel che ancora non si è sperimentato o non si conosce personalmente.[2] Se prendessi per buona la definizione 3. allora io non posso che ammettere che credo alla teoria della relatività generale per fede, perché la realtà che descrive non mi è affatto immediatamente evidente ed è avvolta da oscurità, inoltre non mi è possibile sperimentarla personalmente. Cedo che la definizione 3. valga anche per la totalità degli scienziati e dei filosofi: è impossibile conoscere senza potersi _permettere_ un certo grado di fiducia _condizionata_. Anche qui, credo che ci sia una differenza /esistenziale/ tra la fede come adesione incondizionata e fondata sull'autorità altrui e la fede (nelle cose di questo mondo) fondata sul _giudizio_ (kantiano).
Se mettiamo i SALAMI al posto di poeti e indovini, dobbiamo cambiare la struttura della domanda, o Platone vive ancora?
Platone è eterno :-) Grazie, 380° [...] [1] i sofisti hanno da tempo spiegato come applicare le giuste tecniche per sparare a raffica cose "sensate" senza che fosse minimamente necessario comprenderle P.S.: per parlare di /opinioni/ di poeti, così come la musica (è una forma poetica, no?) NON è fatta di virtuosismi musicali (che aiutano ma non _risolvono_), altrettanto la scienza NON è fatta di virtuosismi tecnologici (che aiutano ma non _risolvono_). -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Buonasera, 380° Il 15/10/2023 20:21, 380° ha scritto:
Allora ripeto la mia domanda: ci sono nuovi studi che dimostrino che le limitazioni evidenziate nei test sulla competenza logico/linguistica di BERT siano stati risolti da altri LLM?
Tra le pubblicazioni recenti, sul tema, segnalo Vittoria Dentella, Elliot Murphy, Gary Marcus, Evelina Leivada, Testing AI performance on less frequent aspects of language reveals insensitivity to underlying meaning, 2023 https://arxiv.org/abs/2302.12313 Abstract Advances in computational methods and big data availability have recently translated into breakthroughs in AI applications. With successes in bottom-up challenges partially overshadowing shortcomings, the 'human-like' performance of Large Language Models has raised the question of how linguistic performance is achieved by algorithms. Given systematic shortcomings in generalization across many AI systems, in this work we ask whether linguistic performance is indeed guided by language knowledge in Large Language Models. To this end, we prompt GPT-3 with a grammaticality judgement task and comprehension questions on less frequent constructions that are thus unlikely to form part of Large Language Models' training data. These included grammatical 'illusions', semantic anomalies, complex nested hierarchies and self-embeddings. GPT-3 failed for every prompt but one, often offering answers that show a critical lack of understanding even of high-frequency words used in these less frequent grammatical constructions. The present work sheds light on the boundaries of the alleged AI human-like linguistic competence and argues that, far from human-like, the next-word prediction abilities of LLMs may face issues of robustness, when pushed beyond training data. Ho intravisto anche (ma non l'ho letto) Konstantine Arkoudas, GPT-4 Can’t Reason, 2023, https://arxiv.org/abs/2308.03762 Buona serata, Daniela
On 15 Oct 2023, at 22:02, Daniela Tafani <daniela.tafani@unipi.it> wrote:
Buonasera, 380°
Il 15/10/2023 20:21, 380° ha scritto:
Allora ripeto la mia domanda: ci sono nuovi studi che dimostrino che le limitazioni evidenziate nei test sulla competenza logico/linguistica di BERT siano stati risolti da altri LLM?
Tra le pubblicazioni recenti, sul tema, segnalo
Vittoria Dentella, Elliot Murphy, Gary Marcus, Evelina Leivada, Testing AI performance on less frequent aspects of language reveals insensitivity to underlying meaning, 2023 https://arxiv.org/abs/2302.12313
Abstract Advances in computational methods and big data availability have recently translated into breakthroughs in AI applications. With successes in bottom-up challenges partially overshadowing shortcomings, the 'human-like' performance of Large Language Models has raised the question of how linguistic performance is achieved by algorithms. Given systematic shortcomings in generalization across many AI systems, in this work we ask whether linguistic performance is indeed guided by language knowledge in Large Language Models. To this end, we prompt GPT-3 with a grammaticality judgement task and comprehension questions on less frequent constructions that are thus unlikely to form part of Large Language Models' training data. These included grammatical 'illusions', semantic anomalies, complex nested hierarchies and self-embeddings. GPT-3 failed for every prompt but one, often offering answers that show a critical lack of understanding even of high-frequency words used in these less frequent grammatical constructions. The present work sheds light on the boundaries of the alleged AI human-like linguistic competence and argues that, far from human-like, the next-word prediction abilities of LLMs may face issues of robustness, when pushed beyond training data.
Attenzione, si stanno confondendo le capacità dei LLM con quelle delle loro applicazioni. Nel caso citato le prove sono effettuate con text-davinci-02, che è un chatbot basato su GPT-3, non GPT-3 direttamente. I chatbot sono stati ottenuti facendo fine-tuning su task di question answering e poi con RLHF per svolgere conversazioni. Se si segue questa strada, allora si dovrebbe fare il fine-tuning di un modello su un task di reasoning, prima di concludere che non sa fare reasoning. Ad esempio con il Chain-of-Thought prompting, si possono evidenziare capacità di ragionamento matematico. Se invece ci vogliamo limitare alle capacità linguistiche dei modelli, questo è un altro studio: Mahowald, K., Ivanova, A. A., Blank, I. A., Kanwisher, N., Tenenbaum, J. B., & Fedorenko, E. (2023, January 23). Dissociating language and thought in large language models: a cognitive perspective. ArXiv: https://arxiv.org/abs/2301.06627 — Beppe
Ho intravisto anche (ma non l'ho letto)
Konstantine Arkoudas, GPT-4 Can’t Reason, 2023, https://arxiv.org/abs/2308.03762
Buona serata, Daniela
I word embedding sono composi di centinaia di dimensioni e non è ricostruibile cosa rappresenti ciascuna: sono le centinaia di sfumature/sfaccettature che tratteggiano le caratteristiche di una parola, sia semantiche che sintattiche o chissà che altro.
Diamo un po' di numeri ;) GPT3: a: QKV columns = 128 b: Heads = 96 c: Layers = 96 d: Vocab-size = 50257 e: Sequence len = 2048 In tutto fanno ... (a*b)^2*12*c+d*a*b+e*a*b = 175181291520 (i famosi 175B) fonte: [1] Andrej Karpathy, co-fondatore di OpenAI, e autore di buona parte del software inizialmente sviluppato da OpenAI, ha messo a disposizione su github parecchio codice. Tra i tanti repository (50), uno mi ha colpito, forse perché preferisco C a Python ;) ed è questo [2]. In breve, un LLM lillipuziano ma perfettamente funzionante, pur ovviamente nei limiti delle sue dimensioni. a: QKV columns = 8 b: Heads = 8 c: Layers = 5 d: Vocab-size = 512 e: Sequence len = 512 (a*b)^2*12*c+d*a*b+e*a*b = 311296 (in realtà sono un po' meno, 264132, perché i key/value heads (4) minori dei query heads(8) ) (en passant, mi sono permesso di "ridurre" ancora di più il codice, se avete voglia, è qui: [3]) Tutto questo per dirvi cosa? Che alla fine, per un informatico, il "chissà che altro" che rimanda a qualcosa di "magico", di segreto industriale, ecc. è inammissibile. E' vero, ad oggi è così, ma, come giustamente ha scritto Guido Vetere "fare un LLM di qualche decina di miliardi di parametri magari solo per l'italiano è alla portata perfino del più sgangherato dei carrozzoni pubblici italiani". Buona domenica, Antonio [1] https://digital-garden.jonghoon.blog/gpt3%20architecture [2] https://github.com/karpathy/llama2.c [3] https://github.com/opensignature/stories
Antonio <antonio@piumarossa.it> writes: [...]
(en passant, mi sono permesso di "ridurre" ancora di più il codice, se avete voglia, è qui: [3])
[...]
Ti prego, aggiungici una licenza (libera? :-P ): lo voglio in Software Heritage! Ciao, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Buongiorno. Solo una notazione a margine: l'espressione "pappagalli stocastici" è stata coniata da Emily Bender, linguista computazionale specializzata in natural language processing. La sua posizione, quanto al significato, è formulata distesamente, tra gli altri, qui: E.M. Bender, A. Lascarides, Linguistic fundamentals for natural language processing II. 100 essentials from semantics and pragmatics, 2020, https://link.springer.com/book/10.1007/978-3-031-02172-5 Riporto di seguito i titoli dei paragrafi del secondo capitolo, dedicato a What is meaning: 2 What is Meaning? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 #2 Meaning can be modeled in terms of validity and reference. . . . . . . . . . . . . . 5 #3 Natural language understanding requires commonsense reasoning. . . . . . . . 8 #4 Meaning derived from form is different from meaning in context of use. . 11 #5 Many extant models of meaning distinguish locutionary, illocutionary and perlocutionary acts. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 #6 Philosophical concepts like indirect speech acts and common ground are useful for dialogue processing, but they have a different status from public commitments when resolving anaphora. . . . . . . . . . . . . . . . . . . . . . . . . . 15 #7 Some speech acts are relations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 #8 Linguistic meaning includes emotional content. . . . . . . . . . . . . . . . . . . . . . 18 #9 Linguistic meaning includes social meaning. . . . . . . . . . . . . . . . . . . . . . . . . 20 #10 There is ambiguity at many levels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 #11 What’s done as a pipeline in many approaches to NLP is done in human processing via incremental interpretation/incremental building of the discourse model. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 #12 In face-to-face conversation, people use both verbal and non-verbal actions to convey meaning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 #13 Linguistic meaning and non-linguistic perception interact in complex ways. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 #14 (Disambiguated) linguistic form produces an abstract meaning representation, while coherence and cognitive states yield more specific contents. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 La linguistica non è il mio ambito di ricerca, ma posso comunque constatare che, dal punto di vista filosofico, per respingere la tesi dei pappagalli stocastici occorre confutare alcune delle tesi formulate nei titoli sopra. Un saluto, Daniela ________________________________________ Da: nexa <nexa-bounces@server-nexa.polito.it> per conto di Giuseppe Attardi <attardi@di.unipi.it> Inviato: giovedì 12 ottobre 2023 10:26 A: nexa@server-nexa.polito.it Oggetto: Re: [nexa] IA, lavoro, immaginari Scusate se riprendo questo tema dall’inizio, in quanto finora sono stato impegnato ad organizzare questo dibattito, che affronta alcuni delle questioni di fondo sulle capacità dell’AI di avere impatti sulla società: https://sites.google.com/view/ellisfms2023/program/debate-ai-societal-impact e a cui parteciperanno alcuni tra i principali esperti al mondo, tra cui Yoshua Bengio, Moshe Vardi, Ricardo Baeza-Yates, Gary Marcus, Geoff Hinton. Gli ultimi due si confronteranno proprio sulla questione se i LLM siano in grado di comprendere. Daniele Gambetta riporta il termine spregiativo di “stochastic parrot” che è stato affibbiato ai LLM da Timnit Gebru e colleghi. L’articolo è molto controverso ed è costato a Gebru il posto a Google. Nell’articolo si sostiene che: An LM is a system for haphazardly stitching together sequences of linguistic forms it has observed in its vast training data, according to probabilistic information about how they combine, but without any reference to meaning: a stochastic parrot. Questa affermazione è superficiale e inesatta, perché non tiene conto di alcune cose: 1. Alla base dei LLMs ci sono i word embedding, un modo per assegnare un significato alle parole, un problema che ha eluso la filosofia e la linguistica per due millenni e che il Deep Learning ha risolto. Questo è quanto afferma Hinton in proposito: “Many people who think it’s just statistics are thinking in terms of program models or counting the co-occurrence frequencies of words. We think this process of creating features of the embeddings and then interactions between features is actually understanding. Once you’ve taken the raw data of symbol strings and you can now predict the next symbol not by things like trigrams, but the huge number of features interacting in very complicated way to predict the features of the next word and from that make a prediction about the probability of the next word, the point is that is understanding, at least I believe that is understanding. I believe that is what our brains are doing. But that’s an issue to be discussed by the research community and it would be great if we could convince people that they are not just stochastic parrots.” 2. I LLM sono evoluti dai tempi dell’articolo, in particolare, ChatGPT e successivi sono stati allenati a interagire in conversazioni con il fine-tuning e quindi a tenere conto del contesto della discussione 3. La capacità di “comprendere” è difficile da definire, almeno in termini umani. L’unico modo che abbiamo per stabilire se uno studente ha “capito” una certa materia, è di sottoporlo a domande di verifica di comprensione. Ma in gran parte di tali test, GPT-4 supera il livello medio umano. Quindi, a tutti gli effetti pratici, capisce non solo una, ma molte materie. Lo “capisce” in una qualche forma diversa dalla nostra, ma pur sempre verificabile. 4. Le sorprendenti abilità dei LLM (perché hanno sorpreso tutti, compresi i loro sviluppatori), derivano dal fenomeno denominato “emergent abilities”, che appiano solo quando i modelli superano una certa scala. Per ora si tratta di un'osservazione empirica, iniziata con gli esperimenti di Jason Wei sul Chain-of-Thought, ma che si sta cercando di approfondire con una serie di spunti. Uno di questi si lega alla teoria dei sistemi complessi di Giorgio Parisi, che spiega il loro comportamento come dovuto all’applicazione su larga scala di semplici leggi probabilistiche. Ho suggerito a Parisi che sia proprio questo ciò che avviene nei LLM, che applicano su larga scala, in modelli di centinaia di miliardi di parametri, la semplice probabilità stimata della prossima parola. Parisi mi ha confermato di persona che l’ipotesi è alquanto plausibile. Questa stessa ipotesi spiega perché molti si rifiutano di riconoscere queste capacità: la mente umana è abituata a comprendere i fenomeni, scomponendoli in poche parti funzionali, che si combinano in modo deterministico. Nei fenomeni complessi questo non è possibile farlo. Nel frattempo stanno uscendo diversi lavori scientifici, che cercano di dare una base scientifica al fenomeno: 1. Ekin Akyürek, Dale Schuurmans, Jacob Andreas, Tengyu Ma, and Denny Zhou. What learning algorithm is in-context learning? Investigations with linear models<https://openreview.net/forum?id=0g0X4H8yN4I>. ICLR 2023 (Oral) 2. Guhao Feng, Bohang Zhang, Yuntian Gu, Haotian Ye, Di He, Liwei Wang. Towards Revealing the Mystery behind Chain of Thought: A Theoretical Perspective<https://arxiv.org/abs/2305.15408>. NeurIPS 2023 (Oral). 3. Angeliki Giannou, Shashank Rajput, Jy-yong Sohn, Kangwook Lee, Jason D Lee, Dimitris Papailiopoulos. Looped Transformers as Programmable Computers<https://arxiv.org/abs/2301.13196>. ICML 2023. 4. Ruiqi Zhang, Spencer Frei, Peter L Bartlett. Trained Transformers Learn Linear Models In-Context<https://scholar.google.com/citations?view_op=view_citation&hl=en&user=uErE2U...>. arXiv preprint arXiv:2306.09927, 2023. Segnalo anche questo video di una presentazione di Sanjeev Arora su A Theory of Emergence of Complex Skills in Language Models (https://www.youtube.com/live/0D23NeBjCeQ?si=Trtt160lkXCgFEa6) In sostanza, siamo di fronte a questioni scientifiche articolate e complesse, e suggerisco che vengano affrontate basandosi su studi scientifici, di cui c’è molto bisogno. Per uno studente del Dottorato Nazionale in Intelligenza Artificiale (che ho contribuito a far nascere) dovrebbe essere una grande opportunità. — Beppe On 6 Oct 2023, at 23:30, <nexa-request@server-nexa.polito.it> <nexa-request@server-nexa.polito.it> wrote: From: Daniele Gambetta <daniele.gambetta7@gmail.com<mailto:daniele.gambetta7@gmail.com>> To: nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it> Subject: [nexa] IA, lavoro, immaginari Message-ID: <CAJTd2eikFissqhKHR7dhmZwfn9B5ijpLtLERz7VH8H4YrWEsUA@mail.gmail.com<mailto:CAJTd2eikFissqhKHR7dhmZwfn9B5ijpLtLERz7VH8H4YrWEsUA@mail.gmail.com>> Content-Type: text/plain; charset="utf-8" Ciao a tutte/i, seguo da tempo questa mailing list con interesse anche se scrivo poco. Volevo segnalarvi un articolo che ho scritto di recente su temi legati all'IA, pubblicato in due parti su DinamoPress. Mi farebbe piacere avere feedback e pareri o avviare una discussione. 1) https://www.dinamopress.it/news/al-di-la-del-faust-e-dellhype-appunti-su-int... 2) https://www.dinamopress.it/news/technic-and-magic-animismo-di-piattaforma-e-... Saluti e buon we. Daniele
Appunto, quella di Bender è la visione dei linguisti, che non ha portato, finora, a grandi risultati pratici (cit. Nello Cristianini, La scorciatoia). I linguisti dibattono da secoli su “what is meaning”, senza venirne a capo, elencando requisiti impossibili da verificare. La svolta è iniziata negli anni 1980, quando Jelinek ha introdotto i metodi statistici. L’articolo di Norvig cerca di ribattere a certe posizioni preconcette: Without explicit symbols, according to these critics, a merely learned, “statistical” approach cannot produce true understanding. Relatedly, they claim that without symbolic concepts, no logical reasoning can occur, and that “real” intelligence requires such reasoning. Setting aside the question of whether intelligence is always reliant on symbols and logic, there are reasons to question this claim about the inadequacy of neural nets and machine learning, because neural nets are so powerful at doing anything a computer can do. Without explicit symbols, according to these critics, a merely learned, “statistical” approach cannot produce true understanding. Relatedly, they claim that without symbolic concepts, no logical reasoning can occur, and that “real” intelligence requires such reasoning. — Beppe
On 13 Oct 2023, at 08:40, Daniela Tafani <daniela.tafani@unipi.it> wrote:
Buongiorno.
Solo una notazione a margine: l'espressione "pappagalli stocastici" è stata coniata da Emily Bender, linguista computazionale specializzata in natural language processing.
La sua posizione, quanto al significato, è formulata distesamente, tra gli altri, qui:
E.M. Bender, A. Lascarides, Linguistic fundamentals for natural language processing II. 100 essentials from semantics and pragmatics, 2020, https://link.springer.com/book/10.1007/978-3-031-02172-5
Riporto di seguito i titoli dei paragrafi del secondo capitolo, dedicato a What is meaning:
2 What is Meaning? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 #2 Meaning can be modeled in terms of validity and reference. . . . . . . . . . . . . . 5 #3 Natural language understanding requires commonsense reasoning. . . . . . . . 8 #4 Meaning derived from form is different from meaning in context of use. . 11 #5 Many extant models of meaning distinguish locutionary, illocutionary and perlocutionary acts. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 #6 Philosophical concepts like indirect speech acts and common ground are useful for dialogue processing, but they have a different status from public commitments when resolving anaphora. . . . . . . . . . . . . . . . . . . . . . . . . . 15 #7 Some speech acts are relations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 #8 Linguistic meaning includes emotional content. . . . . . . . . . . . . . . . . . . . . . 18 #9 Linguistic meaning includes social meaning. . . . . . . . . . . . . . . . . . . . . . . . . 20 #10 There is ambiguity at many levels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 #11 What’s done as a pipeline in many approaches to NLP is done in human processing via incremental interpretation/incremental building of the discourse model. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 #12 In face-to-face conversation, people use both verbal and non-verbal actions to convey meaning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 #13 Linguistic meaning and non-linguistic perception interact in complex ways. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 #14 (Disambiguated) linguistic form produces an abstract meaning representation, while coherence and cognitive states yield more specific contents. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
La linguistica non è il mio ambito di ricerca, ma posso comunque constatare che, dal punto di vista filosofico, per respingere la tesi dei pappagalli stocastici occorre confutare alcune delle tesi formulate nei titoli sopra.
Un saluto, Daniela
________________________________________ Da: nexa <nexa-bounces@server-nexa.polito.it> per conto di Giuseppe Attardi <attardi@di.unipi.it> Inviato: giovedì 12 ottobre 2023 10:26 A: nexa@server-nexa.polito.it Oggetto: Re: [nexa] IA, lavoro, immaginari
Scusate se riprendo questo tema dall’inizio, in quanto finora sono stato impegnato ad organizzare questo dibattito, che affronta alcuni delle questioni di fondo sulle capacità dell’AI di avere impatti sulla società:
https://sites.google.com/view/ellisfms2023/program/debate-ai-societal-impact
e a cui parteciperanno alcuni tra i principali esperti al mondo, tra cui Yoshua Bengio, Moshe Vardi, Ricardo Baeza-Yates, Gary Marcus, Geoff Hinton.
Gli ultimi due si confronteranno proprio sulla questione se i LLM siano in grado di comprendere.
Daniele Gambetta riporta il termine spregiativo di “stochastic parrot” che è stato affibbiato ai LLM da Timnit Gebru e colleghi. L’articolo è molto controverso ed è costato a Gebru il posto a Google. Nell’articolo si sostiene che:
An LM is a system for haphazardly stitching together sequences of linguistic forms it has observed in its vast training data, according to probabilistic information about how they combine, but without any reference to meaning: a stochastic parrot.
Questa affermazione è superficiale e inesatta, perché non tiene conto di alcune cose:
1. Alla base dei LLMs ci sono i word embedding, un modo per assegnare un significato alle parole, un problema che ha eluso la filosofia e la linguistica per due millenni e che il Deep Learning ha risolto. Questo è quanto afferma Hinton in proposito: “Many people who think it’s just statistics are thinking in terms of program models or counting the co-occurrence frequencies of words. We think this process of creating features of the embeddings and then interactions between features is actually understanding. Once you’ve taken the raw data of symbol strings and you can now predict the next symbol not by things like trigrams, but the huge number of features interacting in very complicated way to predict the features of the next word and from that make a prediction about the probability of the next word, the point is that is understanding, at least I believe that is understanding. I believe that is what our brains are doing. But that’s an issue to be discussed by the research community and it would be great if we could convince people that they are not just stochastic parrots.”
2. I LLM sono evoluti dai tempi dell’articolo, in particolare, ChatGPT e successivi sono stati allenati a interagire in conversazioni con il fine-tuning e quindi a tenere conto del contesto della discussione
3. La capacità di “comprendere” è difficile da definire, almeno in termini umani. L’unico modo che abbiamo per stabilire se uno studente ha “capito” una certa materia, è di sottoporlo a domande di verifica di comprensione. Ma in gran parte di tali test, GPT-4 supera il livello medio umano. Quindi, a tutti gli effetti pratici, capisce non solo una, ma molte materie. Lo “capisce” in una qualche forma diversa dalla nostra, ma pur sempre verificabile.
4. Le sorprendenti abilità dei LLM (perché hanno sorpreso tutti, compresi i loro sviluppatori), derivano dal fenomeno denominato “emergent abilities”, che appiano solo quando i modelli superano una certa scala. Per ora si tratta di un'osservazione empirica, iniziata con gli esperimenti di Jason Wei sul Chain-of-Thought, ma che si sta cercando di approfondire con una serie di spunti. Uno di questi si lega alla teoria dei sistemi complessi di Giorgio Parisi, che spiega il loro comportamento come dovuto all’applicazione su larga scala di semplici leggi probabilistiche. Ho suggerito a Parisi che sia proprio questo ciò che avviene nei LLM, che applicano su larga scala, in modelli di centinaia di miliardi di parametri, la semplice probabilità stimata della prossima parola. Parisi mi ha confermato di persona che l’ipotesi è alquanto plausibile. Questa stessa ipotesi spiega perché molti si rifiutano di riconoscere queste capacità: la mente umana è abituata a comprendere i fenomeni, scomponendoli in poche parti funzionali, che si combinano in modo deterministico. Nei fenomeni complessi questo non è possibile farlo. Nel frattempo stanno uscendo diversi lavori scientifici, che cercano di dare una base scientifica al fenomeno: 1. Ekin Akyürek, Dale Schuurmans, Jacob Andreas, Tengyu Ma, and Denny Zhou. What learning algorithm is in-context learning? Investigations with linear models<https://openreview.net/forum?id=0g0X4H8yN4I>. ICLR 2023 (Oral) 2. Guhao Feng, Bohang Zhang, Yuntian Gu, Haotian Ye, Di He, Liwei Wang. Towards Revealing the Mystery behind Chain of Thought: A Theoretical Perspective<https://arxiv.org/abs/2305.15408>. NeurIPS 2023 (Oral). 3. Angeliki Giannou, Shashank Rajput, Jy-yong Sohn, Kangwook Lee, Jason D Lee, Dimitris Papailiopoulos. Looped Transformers as Programmable Computers<https://arxiv.org/abs/2301.13196>. ICML 2023. 4. Ruiqi Zhang, Spencer Frei, Peter L Bartlett. Trained Transformers Learn Linear Models In-Context<https://scholar.google.com/citations?view_op=view_citation&hl=en&user=uErE2U...>. arXiv preprint arXiv:2306.09927, 2023. Segnalo anche questo video di una presentazione di Sanjeev Arora su A Theory of Emergence of Complex Skills in Language Models (https://www.youtube.com/live/0D23NeBjCeQ?si=Trtt160lkXCgFEa6)
In sostanza, siamo di fronte a questioni scientifiche articolate e complesse, e suggerisco che vengano affrontate basandosi su studi scientifici, di cui c’è molto bisogno. Per uno studente del Dottorato Nazionale in Intelligenza Artificiale (che ho contribuito a far nascere) dovrebbe essere una grande opportunità.
— Beppe
On 6 Oct 2023, at 23:30, <nexa-request@server-nexa.polito.it> <nexa-request@server-nexa.polito.it> wrote:
From: Daniele Gambetta <daniele.gambetta7@gmail.com<mailto:daniele.gambetta7@gmail.com>> To: nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it> Subject: [nexa] IA, lavoro, immaginari Message-ID: <CAJTd2eikFissqhKHR7dhmZwfn9B5ijpLtLERz7VH8H4YrWEsUA@mail.gmail.com<mailto:CAJTd2eikFissqhKHR7dhmZwfn9B5ijpLtLERz7VH8H4YrWEsUA@mail.gmail.com>> Content-Type: text/plain; charset="utf-8"
Ciao a tutte/i, seguo da tempo questa mailing list con interesse anche se scrivo poco. Volevo segnalarvi un articolo che ho scritto di recente su temi legati all'IA, pubblicato in due parti su DinamoPress. Mi farebbe piacere avere feedback e pareri o avviare una discussione.
1) https://www.dinamopress.it/news/al-di-la-del-faust-e-dellhype-appunti-su-int... 2) https://www.dinamopress.it/news/technic-and-magic-animismo-di-piattaforma-e-...
Saluti e buon we. Daniele
Secondo Wikipedia, il termine “stochastic parrot” è stato coniato nell’articolo citato da Gambetta e da me, di cui sono coautrici Bender e Gebru, nel paragrafo che ho riportato. https://en.wikipedia.org/wiki/Stochastic_parrot — Beppe
On 13 Oct 2023, at 08:40, Daniela Tafani <daniela.tafani@unipi.it> wrote:
Buongiorno.
Solo una notazione a margine: l'espressione "pappagalli stocastici" è stata coniata da Emily Bender, linguista computazionale specializzata in natural language processing.
La sua posizione, quanto al significato, è formulata distesamente, tra gli altri, qui:
E.M. Bender, A. Lascarides, Linguistic fundamentals for natural language processing II. 100 essentials from semantics and pragmatics, 2020, https://link.springer.com/book/10.1007/978-3-031-02172-5
Sì, certo. Mi riferivo al fatto che le autrici, pubblicamente interrogate da Quote Investigator, lo hanno attribuito a Bender, che ha confermato: https://twitter.com/QuoteResearch/status/1578770263696871425 https://twitter.com/emilymbender/status/1578829544303521797 Quote Investigator lo ha perciò riportato nella pagina https://quoteinvestigator.com/2022/10/07/word-parrot/ Solo per completezza, ricordo che Regina Rini aveva utilizzato, in precedenza, un'espressione simile, che ha avuto meno fortuna: "all-electronic statistical parrot" https://dailynous.com/2020/07/30/philosophers-gpt-3/#rini ________________________________________ Da: Giuseppe Attardi Inviato: venerdì 13 ottobre 2023 10:15 A: Daniela Tafani Cc: nexa Oggetto: Re: [nexa] IA, lavoro, immaginari Secondo Wikipedia, il termine “stochastic parrot” è stato coniato nell’articolo citato da Gambetta e da me, di cui sono coautrici Bender e Gebru, nel paragrafo che ho riportato. <https://en.wikipedia.org/wiki/Stochastic_parrot> Stochastic parrot<https://en.wikipedia.org/wiki/Stochastic_parrot> en.wikipedia.org<https://en.wikipedia.org/wiki/Stochastic_parrot> [wikipedia.png] <https://en.wikipedia.org/wiki/Stochastic_parrot> — Beppe On 13 Oct 2023, at 08:40, Daniela Tafani <daniela.tafani@unipi.it> wrote: Buongiorno. Solo una notazione a margine: l'espressione "pappagalli stocastici" è stata coniata da Emily Bender, linguista computazionale specializzata in natural language processing. La sua posizione, quanto al significato, è formulata distesamente, tra gli altri, qui: E.M. Bender, A. Lascarides, Linguistic fundamentals for natural language processing II. 100 essentials from semantics and pragmatics, 2020, https://link.springer.com/book/10.1007/978-3-031-02172-5
Giuseppe, "i linguisti non sono venuti a capo del problema del significato" è un'affermazione temeraria, secondo me. Meglio dire che il problema del significato è un problema aperto, cioè non può sottrarsi alla riflessione filosofica. Il fatto che certi informatici dicano oggi di averlo "risolto" con i word embeddings sarebbe ridicolo se non fosse inquietante (sono d'accordo con Giacomo) By the way, l'ipotesi distribuzionale che sarebbe alla base di questa "soluzione" era una euristica dei linguisti americani (Bloomfield, Harris, Firth, ecc) per studiare le lingue dei nativi, non mi pare che nessuno dei suddetti l'abbia elaborata seriamente come "teoria del significato" G. On Fri, 13 Oct 2023 at 10:26, Daniela Tafani <daniela.tafani@unipi.it> wrote:
Sì, certo. Mi riferivo al fatto che le autrici, pubblicamente interrogate da Quote Investigator, lo hanno attribuito a Bender, che ha confermato:
https://twitter.com/QuoteResearch/status/1578770263696871425 https://twitter.com/emilymbender/status/1578829544303521797
Quote Investigator lo ha perciò riportato nella pagina
https://quoteinvestigator.com/2022/10/07/word-parrot/
Solo per completezza, ricordo che Regina Rini aveva utilizzato, in precedenza, un'espressione simile, che ha avuto meno fortuna: "all-electronic statistical parrot"
https://dailynous.com/2020/07/30/philosophers-gpt-3/#rini
________________________________________ Da: Giuseppe Attardi Inviato: venerdì 13 ottobre 2023 10:15 A: Daniela Tafani Cc: nexa Oggetto: Re: [nexa] IA, lavoro, immaginari
Secondo Wikipedia, il termine “stochastic parrot” è stato coniato nell’articolo citato da Gambetta e da me, di cui sono coautrici Bender e Gebru, nel paragrafo che ho riportato.
<https://en.wikipedia.org/wiki/Stochastic_parrot> Stochastic parrot<https://en.wikipedia.org/wiki/Stochastic_parrot> en.wikipedia.org<https://en.wikipedia.org/wiki/Stochastic_parrot> [wikipedia.png] <https://en.wikipedia.org/wiki/Stochastic_parrot>
— Beppe
On 13 Oct 2023, at 08:40, Daniela Tafani <daniela.tafani@unipi.it> wrote:
Buongiorno.
Solo una notazione a margine: l'espressione "pappagalli stocastici" è stata coniata da Emily Bender, linguista computazionale specializzata in natural language processing.
La sua posizione, quanto al significato, è formulata distesamente, tra gli altri, qui:
E.M. Bender, A. Lascarides, Linguistic fundamentals for natural language processing II. 100 essentials from semantics and pragmatics, 2020, https://link.springer.com/book/10.1007/978-3-031-02172-5
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Buongiorno Giuseppe, [un appello generale: per favore quando si fanno citazioni a delle fonti è possibile avere il riferimento?] Un modesto consiglio non richiesto: prego chiunque di non prendere mai sul personale le critiche al proprio lavoro o alle proprie convinzioni scientifiche, non mi riferisco a nessuno in particolare. Giuseppe Attardi <attardi@di.unipi.it> writes: [...]
Daniele Gambetta riporta il termine spregiativo di “stochastic parrot”
Capisco bene che quel termine faccia incazzare un numero incalcolabile di persone ma bisogna ammettere che è una _genialata_ (che mai e poi mai avrebbe potuto essere generata da un LLM, tra l'altro) A un brianzolo per descrivere in poche parole quello che producono gli LLM è «fà e disfà l'è tücc un lavurà»
che è stato affibbiato ai LLM da Timnit Gebru e colleghi.
Daniela Tafani ha già spiegato chi ha "affibiato" il termine e perché. Nota a margine: credo che non pochi etologi avrebbero da ridire sul fatto che gli LLM siano anche solo vagamente accostati ai pappagalli (o qualsiasi altro animale), la cui intelligenza probabilmente è di diversi ordini di grandezza superiore a qualsiasi AI: «Parrots have evolved a primate-like telencephalic-midbrain-cerebellar circuit» https://www.nature.com/articles/s41598-018-28301-4 Però è una nota a margine, spero non parta un sub-thread su questo.
L’articolo è molto controverso ed è costato a Gebru il posto a Google.
Perché in Google non c'è posto per la ricerca scientifica. Punto.
Nell’articolo si sostiene che:
Sì ma quale articolo, di grazia?!?
An LM is a system for haphazardly stitching together sequences of linguistic forms it has observed in its vast training data, according to probabilistic information about how they combine, but without any reference to meaning: a stochastic parrot.
Questa affermazione è superficiale e inesatta,
Com'è che i superficiali ed inesatti sono sempre gli altri? Quella frase, decontestualizzata, può benissimo /apparire/ superficiale e inesatta, ma magari nel giusto contesto anche no. «On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?» https://dl.acm.org/doi/epdf/10.1145/3442188.3445922 https://archive.org/details/stochastic-parrots-3442188.3445922 https://web.archive.org/web/20210311003046/https://dl.acm.org/doi/pdf/10.114... https://archive.is/z4LY8 Purtroppo, come tanti, TROPPI articoli pubblicati, lo studio è disponibile solo in formato PDF quindi non posso produrre un link diretto al capitolo dal quale è stata estratta la citazione, che è: «6.1 Coherence in the Eye of the Beholder» Chiunque abbia intenzione di comprendere il senso della frase estratta sopra, _deve_ prendersi almeno 10 minuti per leggere il capitolo 6.1 del paper, che contiene diversi riferimenti bibliografici a supporto di delle affermazioni che vengono fatte, sono la base (scientifica?!?) per la _sintesi_ /polemica/ che viene fatta al termine del capitolo, quella estratta sopra. Io cito solo questo (che però si può comprendere solo /contestualizzando/): --8<---------------cut here---------------start------------->8--- This can seem counter-intuitive given the increasingly fluent qualities of automatically generated text, but we have to account for the fact that our perception of natural language text, regardless of how it was generated, is mediated by our own linguistic competence and our predisposition to interpret communicative acts as conveying coherent meaning and intent, whether or not they do [89, 140]. --8<---------------cut here---------------end--------------->8--- Questo, tra l'altro, la dice _molto_ lunga in merito all'efficacia del c.d. "Touring Test", perché è ovvio che un ignorante in materia (già, ma /quale/ materia?) può essere banalmente ingannato, perfino da un programma.
perché non tiene conto di alcune cose:
1. Alla base dei LLMs ci sono i word embedding,
trattasi sempre di NLP, sempre più sofisticato ma quello è, informaticamente parlando
un modo per assegnare un significato alle parole,
«Così come l'amore non esiste ed è per quello che lo /facciamo/, le parole non hanno significato ed è per quello che noi glielo /diamo/.» (elucubrazione mia) Il significato alle parole lo danno gli umani, punto. Tratto sempre dal paragrafo «6.1 Coherence in the Eye of the Beholder»: --8<---------------cut here---------------start------------->8--- human communication relies on the interpretation of implicit meaning conveyed between individuals. The fact that human-human communication is a jointly constructed activity [29, 128] is most clearly true in co-situated spoken or signed communication, --8<---------------cut here---------------end--------------->8--- Riferimenti: [29] Herbert H. Clark. 1996. Using Language. Cambridge University Press, Cambridge [128] Greg J. Stephens, Lauren J. Silbert, and Uri Hasson. 2010. Speaker–listener neural coupling underlies successful communication. Proceedings of the National Academy of Sciences 107, 32 (2010), 14425–14430. https://doi.org/10.1073/pnas. 1008662107 arXiv:https://www.pnas.org/content/107/32/14425.full.pdf https://web.archive.org/web/20220930172709/https://www.pnas.org/doi/pdf/10.1... https://archive.ph/6D2Gy
un problema che ha eluso la filosofia e la linguistica per due millenni
No dai, questa è davvero troppo grossa!
e che il Deep Learning ha risolto.
Anche questa è un filino esagerata... ma io chi sono per dirlo?!?
Questo è quanto afferma Hinton in proposito: "Many people who think it’s just statistics are thinking in terms of program models or counting the co-occurrence frequencies of words. We think this process of creating features of the embeddings and then interactions between features is actually understanding.
Sì credo che ormai il qui pro quo su cosa significhi "understanding" sia chiarissimo
Once you’ve taken the raw data of symbol strings
Già solo far riferimento a "raw data" in un contesto scientifico dovrebbe far scattare l'allarme rosso, no? --8<---------------cut here---------------start------------->8--- data is self-contained and context-independent, and that with sufficient data, concerns about causation, bias, selection, and incompleteness can be disregarded. It is a seductive vision: Raw data, uncorrupted by theory or ideology, will lead us to the truth; complex problems will be solved simply by throwing enough data at them. No experts will be required, apart from those needed to produce the data and herald their findings; no theory, values, or preferences will be relevant; nor will it be necessary to scrutinize any assumptions. --8<---------------cut here---------------end--------------->8--- (tratto da: https://www.thenewatlantis.com/publications/why-data-is-never-raw) [...]
I believe that is understanding. I believe that is what our brains are doing. But that’s an issue to be discussed by the research community and it would be great if we could convince people that they are not just stochastic parrots.”
Interessantissimo questo sillogismo: siccome il cervello delle persone comprende come fa una macchina (LLM, deep learning, ecc.) sarebbe bello che convincessimo le persone che non non sono solo pappagalli stocastici. Ho letto bene? Siccome il cervello funziona così?!?!? Quindi grazie agli LLM non solo abbiamo risolto questioni filosofiche aperte da millenni ma abbiamo pure capito come funziona il cervello umano. Non è un po' esagerata come linea di dissertazione accademica?
2. I LLM sono evoluti dai tempi dell’articolo, in particolare, ChatGPT e successivi sono stati allenati a interagire in conversazioni con il fine-tuning e quindi a tenere conto del contesto della discussione
La cosa non sposta di una virgola la questione, infatti: «With GPT-4, dangers of ‘Stochastic Parrots’ remain, say researchers. No wonder OpenAI CEO is a ‘bit scared’ | The AI Beat», March 20, 2023 https://venturebeat.com/ai/with-gpt-4-dangers-of-stochastic-parrots-remain-s... --8<---------------cut here---------------start------------->8--- Fast forward to now: There was no research paper attached to the GPT-4 launch that shares details about its architecture (including model size), hardware, training compute, dataset construction or training method. --8<---------------cut here---------------end--------------->8--- In altre parole: non c'è proprio nessun consenso scientifico che giustifichi l'affermazione che gli (extra)LLM siano in grado di comprendere il linguaggio.
3. La capacità di “comprendere” è difficile da definire, almeno in termini umani.
Ed è per questo che gli umanisti, tra cui linguisti, filosofi, semiologi, epistemologi (la specializzazione nel settore è letteralmente esplosa) ci stanno lavorando da millenni, mi auguro che nessuno scienziato pensi davvero di buttare letteralmente nel cesso il loro lavoro. Nel mentre sull'argomento se ne sentono davvero di cotte e di crude. :-D [...]
Ma in gran parte di tali test, GPT-4 supera il livello medio umano.
Questo la dice lunga sul valore dei test di valutazione. Sulla valutazione della comprensione umana ci sarebbe da fare un convegno intero, no? https://journals.sagepub.com/doi/full/10.1177/1098214020920710 «What Is Evaluation?: Perspectives of How Evaluation Differs (or Not) From Research» https://link.springer.com/article/10.1007/s11251-020-09522-5 «Promoting students’ use of epistemic understanding in the evaluation of socioscientific issues through a practice-based approach» Ha tutto molto a che fare col "giudizio" kantiano.
Quindi, a tutti gli effetti pratici, capisce non solo una, ma molte materie. Lo “capisce” in una qualche forma diversa dalla nostra, ma pur sempre verificabile.
Ecco appunto: verificabile da chi?!? Da uno di noi, un umano. Tra l'altro, se è persino verificabile (da un umano) che lo "capisce" in una qualche forma diversa significa che NON lo capisce come lo capiscono gli umani... che è solo un giro di parole per dire che non lo capisce. [...]
Uno di questi si lega alla teoria dei sistemi complessi di Giorgio Parisi, che spiega il loro comportamento come dovuto all’applicazione su larga scala di semplici leggi probabilistiche.
E se lo dice Giorgio Parisi /allora/ è dimostrato: l'intero universo è un _meccanismo_ che si spiega attraverso l'applicazione su larga scala di leggi probabilistiche... più che la teoria del Big Bang siamo alla teoria del Big Bingo. [...]
In sostanza, siamo di fronte a questioni scientifiche articolate e complesse, e suggerisco che vengano affrontate basandosi su studi scientifici, di cui c’è molto bisogno.
Studi scientifici multi-disciplinari che non scartino a priori lavori di altri scienziati solo perché non si adattano bene al modello dell'universo prescelto _e_ non ignorino un sano lavoro meta-scientifico che non può non coinvolgere il lato /umanistico/ della scienza. In altre parole non dimenticarsi mai che la scienza fa parte della filosofia e non viceversa. [...] Cordiali saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Il giorno ven 13 ott 2023 alle ore 16:32 380° <g380@biscuolo.net> ha scritto:
Capisco bene che quel termine faccia incazzare un numero incalcolabile di persone ma bisogna ammettere che è una _genialata_ (che mai e poi mai avrebbe potuto essere generata da un LLM, tra l'altro)
Me: In the realm of LLMs, if you were to believe that they are just a dumb tool that juxtaposes one word after the other using a statistical model with some randomness added to it, in such a way that it mimics human way of thinking without actually thinking, how would you describe this tool with just two words, in a tongue-in-cheek and kinda derogatory way? Remember, just two words ChatGPT: Word Vomit. Me: Not that derogatory ChatGPT: "Pattern Parrot." Me: That sounds good, but it's missing the bit about randomness. ChatGPT: "Random Repeater." Me: I prefer the version with the animal ChatGPT: "Stochastic Parrot." ___ Fabio
Divertente. Comunque, da una premessa falsa si può dedurre qualunque cosa. — Beppe
On 13 Oct 2023, at 16:49, Fabio Alemagna <falemagn@gmail.com> wrote:
Il giorno ven 13 ott 2023 alle ore 16:32 380° <g380@biscuolo.net> ha scritto:
Capisco bene che quel termine faccia incazzare un numero incalcolabile di persone ma bisogna ammettere che è una _genialata_ (che mai e poi mai avrebbe potuto essere generata da un LLM, tra l'altro)
Me: In the realm of LLMs, if you were to believe that they are just a dumb tool that juxtaposes one word after the other using a statistical model with some randomness added to it, in such a way that it mimics human way of thinking without actually thinking, how would you describe this tool with just two words, in a tongue-in-cheek and kinda derogatory way? Remember, just two words
ChatGPT: Word Vomit.
Me: Not that derogatory ChatGPT: "Pattern Parrot."
Me: That sounds good, but it's missing the bit about randomness. ChatGPT: "Random Repeater."
Me: I prefer the version with the animal ChatGPT: "Stochastic Parrot."
___
Fabio <image.png>
Il dom 15 ott 2023, 18:58 Giuseppe Attardi <attardi@di.unipi.it> ha scritto:
Divertente. Comunque, da una premessa falsa si può dedurre qualunque cosa.
Ho solo dimostrato che un LLM può generare il termine, a differenza di com'era stato detto. Fabio
participants (10)
-
380° -
Antonio -
Daniela Tafani -
Fabio Alemagna -
Giacomo Tesio -
Giuseppe Attardi -
Guido Vetere -
M. Fioretti -
Marco A. Calamari -
Maria Chiara Pievatolo