Re: [nexa] Perché Richard Stallman sbaglia in tema di intelligenza artificiale
Non solo lui, ma gran parte degli studiosi di linguistica della vecchia generazione, a partire da Noam Chomsky, sono rimasti indietro di 8 anni. Non solo, ma non comprendono la differenza tra i LLM e i chatbot, che sono delle applicazioni dei primi, nate inizialmente per gioco: ricorderete la storia degli unicorni, prodotta da GPT-2. Era un esercizio classico di uso dei LM per generare testo a completamento di un prompt. Ma I chatbot sono un’applicazione specializzata dei LLM, allenata con una fase di post-training, con varie tecniche, in primis il RLHF introdotto in ChatGPT, per addestrarlo a partecipare a dialoghi, ossia ad accontentare gli interlocutori. Ma oltre ai chatbot, ci sono mille altre applicazioni dei LLM che non sono solo per chiacchierare. Da allora, la tecnica si è poi ulteriormente evoluta con tre sostanziali progressi: 1. Con l’aumentare della scala dei modelli, sono apparse capacità emergenti (emergent abilities), che vanno oltre la banale capacità di predire la prossima parola: un fenomeno che si spiega con la teoria dei sitemi complessi di Giorgio Parisi: l’applicazione su larga scala di semplici funzioni di probabilità dà origine a comportamenti complessi, non riducibili alla funzione di partenza 2. Si sono raffinate le tecniche di post-processing: SFT e RL basato su DPO (Direct Preference Optimizazion) o GRPO (quella usata da DeepSeek R1 ecc.) Quest’ultima tecnica accelera l’apprendimento con RL e viene usata per insegnare direttamente a effettuare ragionamenti matematici e logici ai modelli, senza bisogno di un secondo modello di critica delle risposte come in ChatGPT. 3. Le capacità apprese dai modelli di grandissime dimensioni possono essere “distillate” in modelli più piccoli, mantenendone le capacità acquisite. Quindi i modelli attuali, come GPT-4 o3, DeepSeek R1, Gemini 2.0, ecc., fanno cose ben diverse dalla semplice generazione a caso di risposte. DeepSeek è particolarmente interessante da osservare, perché riporta nella risposta tutte le fasi del suo ragionamento, racchiuse tra i tag <think></think>, mentre gli altri modelli li tengono nascosti. Si vede chiaramente come svolge il suo ragionamento: propone una prima risposta, poi la valuta criticamente, dicendo: “Ah wait. …” e spiegando come quella risposta funziona e se ci sono criticità, poi ne genera una seconda che risolve quelle criticità e poi ci ragiona sopra di nuovo. Questo purtroppo in Italia ci è vietato dalla decisione del Garante della Privacy che ci ha impedito l’accesso a DeepSeek. Ma è un passo avanti importante, anche perché rintuzza un’altra critica ai modelli ML, la mancanza di trasparenza. In questo caso, l’intero processo di ragionamento viene esposto, compresa una spiegazione in termini perfettamente comprensibili della ragione della risposta. — Beppe
On 13 Feb 2025, at 12:00, nexa-request@server-nexa.polito.it wrote:
From: Diego Giorio <dgiorio@hotmail.com <mailto:dgiorio@hotmail.com>> To: Nexa <nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it>> Subject: [nexa] Perché Richard Stallman sbaglia in tema di intelligenza artificiale Message-ID: <BN6PR17MB3139F372CA9F7422D383438FBEFF2@BN6PR17MB3139.namprd17.prod.outlook.com <mailto:BN6PR17MB3139F372CA9F7422D383438FBEFF2@BN6PR17MB3139.namprd17.prod.outlook.com>>
Content-Type: text/plain; charset="iso-8859-1"
Ieri è stata una bellissima esperienza.
A titolo personale mi pongo un po' a metà tra l'opinione di Stallman e quella di questo articolo, che comunque ritengo giusto segnalare
Buona giornata a tutti
Il giorno gio 13 feb 2025 alle ore 12:36 Giuseppe Attardi < attardi@di.unipi.it> ha scritto:
[...] 2. Si sono raffinate le tecniche di post-processing: SFT e RL basato su DPO (Direct Preference Optimizazion) o GRPO (quella usata da DeepSeek R1 ecc.) Quest’ultima tecnica accelera l’apprendimento con RL e viene usata per insegnare direttamente a effettuare ragionamenti matematici e logici ai modelli, senza bisogno di un secondo modello di critica delle risposte come in ChatGPT.
Qualche giorno fa ho postato nella lista l'abstract e link a uno studio che mostra come gli LLM "capiscono" la matematica: usando la trigonometria, che comunque nessuno gli ha insegnato. https://server-nexa.polito.it/pipermail/nexa/2025-February/054015.html [...]
Questo purtroppo in Italia ci è vietato dalla decisione del Garante della Privacy che ci ha impedito l’accesso a DeepSeek.
Lo si può comunque scaricare sul proprio computer e farlo girare in locale. Qui un tutorial: https://www.datacamp.com/tutorial/deepseek-r1-ollama Fabio
Ciao Fabio, Il 13 Febbraio 2025 12:00:47 UTC, Fabio Alemagna ha scritto:
Qualche giorno fa ho postato nella lista l'abstract e link a uno studio che mostra come gli LLM "capiscono" la matematica: usando la trigonometria, che comunque nessuno gli ha insegnato. https://server-nexa.polito.it/pipermail/nexa/2025-February/054015.html
Ma... quell'articolo l'hai letto? Giacomo
Ciao Fabio Il 13/02/2025 13:00, Fabio Alemagna ha scritto:
Qualche giorno fa ho postato nella lista l'abstract e link a uno studio che mostra come gli LLM "capiscono" la matematica: usando la trigonometria, che comunque nessuno gli ha insegnato. https://server-nexa.polito.it/pipermail/nexa/2025-February/054015.html
Qui c'è un articolo dei ricercatori di intelligenza artificiale della Apple che fanno vedere che gli LLM non riesono a generalizzare fuori dalla distribuzione dei problemi matematici su cui sono stati allenati https://arxiv.org/pdf/2410.05229 Visto che DeepSeek si può scaricare e far girare in locale non dovrebbe essere troppo lungo o complicato rifare con DeepSeek gli stessi esperimenti citati in quest'articolo... Che sia ben chiaro che il senso della mia osservazione non è "giocare a chi ce l'ha più lungo" (ovviamente intendo il CV scientifico ... 😂 ) ma solo per ricordare a noi tutti che stiamo parlando di ricerca scientifica che sta avvenendo sotto i nostri occhi e sulla quale dovremmo, da ricercatori, essere molto più critici e dubbiosi rispetto ai markettari che devono vendere i loro prodotti. Se gli LLM funzionano davvero il mercato crescerà significativamente nei prossimi anni. Per adesso mi pare che stia ancora arrancando o, per lo meno, non ha mantenuto le promesse iperboliche fatte tra fine 2022 e inizio 2023. Sicuramente gli LLM avranno un loro spazio in determinati domìni, sostanzialmente quelli caratterizzati da un "mondo chiuso" sui quali possono essere generati sinteticamente dati affidabili da usare per incrementare la scala di addestramento, ma ritengo che *finché gli LLM vengono usati da soli non saranno in grado di darci nessuna AGI (Artificial General Intelligence)*. Ricercatori internazionali molto più quotati di me sostengono questa posizione che ritengo del tutto corretta (ad esempio Francoise Chollet). Il motivo scientifico è che l'approccio usato dagli LLM non costruisce rappresentazioni simboliche sulle quali è in grado di ragionare. AlphaGo e AlphaFold hanno integrato approccio statistico e approccio simbolico. Se volete leggere le argomentazioni di Chollet le trovate sinteticamente esposte in questo tweet https://x.com/fchollet/status/1800577565717148143 e quelli che seguono. È assolutamente necessario investire in ricerca, ma - appunto - una cosa sono ricerca e sviluppo, una cosa ben diversa l'uso in produzione. Ciao, Enrico -- -- EN https://www.hoepli.it/libro/la-rivoluzione-informatica/9788896069516.html ====================================================== Prof. Enrico Nardelli Past President di "Informatics Europe" Direttore del Laboratorio Nazionale "Informatica e Scuola" del CINI Dipartimento di Matematica - Università di Roma "Tor Vergata" Via della Ricerca Scientifica snc - 00133 Roma home page: https://www.mat.uniroma2.it/~nardelli blog: https://link-and-think.blogspot.it/ tel: +39 06 7259.4204 fax: +39 06 7259.4699 mobile: +39 335 590.2331 e-mail: nardelli@mat.uniroma2.it online meeting: https://blue.meet.garr.it/b/enr-y7f-t0q-ont ====================================================== --
On 13 Feb 2025, at 13:01, Fabio Alemagna <falemagn@gmail.com> wrote:
[...] Questo purtroppo in Italia ci è vietato dalla decisione del Garante della Privacy che ci ha impedito l’accesso a DeepSeek.
Lo si può comunque scaricare sul proprio computer e farlo girare in locale. Qui un tutorial: https://www.datacamp.com/tutorial/deepseek-r1-ollama
Sto sperimentando coi modelli DeepSeek da parecchio tempo, prima che diventassero famosi e non è così semplice. Il modello DeepSeek V3 ha 617B parameters, ossia occupa 1.2TB di memoria: solo per caricarlo ci vogliono 8 GPU da 80GB. Lo dicono loro stessi, nel technical report, che il modello è pesante to deploy e richiederà ulteriori studi. Si possono usare modelli più piccoli, ma le prestazioni calano e comunque non sono velocissimi. Il modello DeepSeek-Coder-33-instruct impiega circa 1 minuto a risposta. DeepSeek lascia a terze parti di offrire accesso online, perché non ce la fanno. Shameless push. Non avendo grandi risorse, siamo partiti dal più piccolo dei modelli e abbiamo fatto SFT e RL con Preference Optimization sulla challenge Semeval 2025 Tabular Question Answering. Ci siamo classificati secondi nella categoria modelli piccoli.
Fabio
Beppe, immagino tu lo sappia visto che parli sia di DeepSeek che di modelli piccoli, ma nel caso (e per gli altri): DeepSeek R1 è disponibile anche in molte altre versioni, tra cui 1.5B, 7B e 8B parametri, tutte con pesi distribuiti sotto licenza MIT. Le dimensioni di questi 3 modelli sono tutte sotto i 5 GiB; la prima, 1.1 GiB, gira anche su una GPU "dei poveri" come quella parecchio vecchia che ho sul mio laptop. Vedi qua per il dettaglio di parametri vs dimensione dei vari modelli: https://ollama.com/library/deepseek-r1/tags . Per quanto riguarda la democratizzazione dell'*uso* *locale* (e quindi indipendente) di questi modelli, le barriere stanno cadendo, non c'è dibattito. Sugli altri fronti (addestramento, dataset, etc.) è un'altra storia, ma il gradiente è comunque quello giusto. Ciao On Fri, Feb 14, 2025 at 08:59:31AM +0100, Giuseppe Attardi wrote:
On 13 Feb 2025, at 13:01, Fabio Alemagna <falemagn@gmail.com> wrote:
[...] Questo purtroppo in Italia ci è vietato dalla decisione del Garante della Privacy che ci ha impedito l’accesso a DeepSeek.
Lo si può comunque scaricare sul proprio computer e farlo girare in locale. Qui un tutorial: https://www.datacamp.com/tutorial/deepseek-r1-ollama
Sto sperimentando coi modelli DeepSeek da parecchio tempo, prima che diventassero famosi e non è così semplice. Il modello DeepSeek V3 ha 617B parameters, ossia occupa 1.2TB di memoria: solo per caricarlo ci vogliono 8 GPU da 80GB. Lo dicono loro stessi, nel technical report, che il modello è pesante to deploy e richiederà ulteriori studi.
Si possono usare modelli più piccoli, ma le prestazioni calano e comunque non sono velocissimi. Il modello DeepSeek-Coder-33-instruct impiega circa 1 minuto a risposta. DeepSeek lascia a terze parti di offrire accesso online, perché non ce la fanno.
Shameless push. Non avendo grandi risorse, siamo partiti dal più piccolo dei modelli e abbiamo fatto SFT e RL con Preference Optimization sulla challenge Semeval 2025 Tabular Question Answering. Ci siamo classificati secondi nella categoria modelli piccoli.
Fabio
-- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CSO Software Heritage o o o o /\|^|/\ Mastodon: https://mastodon.xyz/@zacchiro '" V "'
Ciao Beppe questo mi pare un po' come affermare che se un'auto rossa parte in prima fila si spiega con il fatto di essere una ferrari.. On 13/02/25 12:35, Giuseppe Attardi wrote:
vanno oltre la banale capacità di predire la prossima parola: un fenomeno che si spiega con la teoria dei sitemi complessi di Giorgio Parisi:
esiste una dimostrazione di cio' o e' una congettura ? ciao, s. -- You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
Beppe, ma la "spiegazione" della c.d. chain-of-thought si trova sullo stesso piano epistemico di ciò che intende spiegare, cioè quello della correlazione, non quello delle causalità. La differenza è 'striking' e la spiega bene Judea Pearl nel suo "The Book of Why" (https://en.wikipedia.org/wiki/The_Book_of_Why) G. On Thu, 13 Feb 2025 at 12:36, Giuseppe Attardi <attardi@di.unipi.it> wrote:
Non solo lui, ma gran parte degli studiosi di linguistica della vecchia generazione, a partire da Noam Chomsky, sono rimasti indietro di 8 anni. Non solo, ma non comprendono la differenza tra i LLM e i chatbot, che sono delle applicazioni dei primi, nate inizialmente per gioco: ricorderete la storia degli unicorni, prodotta da GPT-2. Era un esercizio classico di uso dei LM per generare testo a completamento di un prompt.
Ma I chatbot sono un’applicazione specializzata dei LLM, allenata con una fase di post-training, con varie tecniche, in primis il RLHF introdotto in ChatGPT, per addestrarlo a partecipare a dialoghi, ossia ad accontentare gli interlocutori. Ma oltre ai chatbot, ci sono mille altre applicazioni dei LLM che non sono solo per chiacchierare.
Da allora, la tecnica si è poi ulteriormente evoluta con tre sostanziali progressi:
1. Con l’aumentare della scala dei modelli, sono apparse capacità emergenti (emergent abilities), che vanno oltre la banale capacità di predire la prossima parola: un fenomeno che si spiega con la teoria dei sitemi complessi di Giorgio Parisi: l’applicazione su larga scala di semplici funzioni di probabilità dà origine a comportamenti complessi, non riducibili alla funzione di partenza 2. Si sono raffinate le tecniche di post-processing: SFT e RL basato su DPO (Direct Preference Optimizazion) o GRPO (quella usata da DeepSeek R1 ecc.) Quest’ultima tecnica accelera l’apprendimento con RL e viene usata per insegnare direttamente a effettuare ragionamenti matematici e logici ai modelli, senza bisogno di un secondo modello di critica delle risposte come in ChatGPT. 3. Le capacità apprese dai modelli di grandissime dimensioni possono essere “distillate” in modelli più piccoli, mantenendone le capacità acquisite.
Quindi i modelli attuali, come GPT-4 o3, DeepSeek R1, Gemini 2.0, ecc., fanno cose ben diverse dalla semplice generazione a caso di risposte. DeepSeek è particolarmente interessante da osservare, perché riporta nella risposta tutte le fasi del suo ragionamento, racchiuse tra i tag <think></think>, mentre gli altri modelli li tengono nascosti. Si vede chiaramente come svolge il suo ragionamento: propone una prima risposta, poi la valuta criticamente, dicendo: “Ah wait. …” e spiegando come quella risposta funziona e se ci sono criticità, poi ne genera una seconda che risolve quelle criticità e poi ci ragiona sopra di nuovo.
Questo purtroppo in Italia ci è vietato dalla decisione del Garante della Privacy che ci ha impedito l’accesso a DeepSeek.
Ma è un passo avanti importante, anche perché rintuzza un’altra critica ai modelli ML, la mancanza di trasparenza. In questo caso, l’intero processo di ragionamento viene esposto, compresa una spiegazione in termini perfettamente comprensibili della ragione della risposta.
— Beppe
On 13 Feb 2025, at 12:00, nexa-request@server-nexa.polito.it wrote:
From: Diego Giorio <dgiorio@hotmail.com> To: Nexa <nexa@server-nexa.polito.it> Subject: [nexa] Perché Richard Stallman sbaglia in tema di intelligenza artificiale Message-ID: < BN6PR17MB3139F372CA9F7422D383438FBEFF2@BN6PR17MB3139.namprd17.prod.outlook.com
Content-Type: text/plain; charset="iso-8859-1"
Ieri è stata una bellissima esperienza.
A titolo personale mi pongo un po' a metà tra l'opinione di Stallman e quella di questo articolo, che comunque ritengo giusto segnalare
Buona giornata a tutti
participants (7)
-
Enrico Nardelli -
Fabio Alemagna -
Giacomo Tesio -
Giuseppe Attardi -
Guido Vetere -
Stefano Quintarelli -
Stefano Zacchiroli