The Curious Case of David Mayer, the man ChatGPT cannot name
Dec 01, 2024 - Georg Zoeller (AILTI) The Curious Case of David Mayer, the man ChatGPT cannot name. ChatGPT users have noticed a curious behavior: It refuses to talk about a 'David Mayer'. We have the explanation and point out less obvious implications. TL;DR: While not a juicy conspiracy, OpenAI cut some corners on regulatory compliance and the implications are less benign than they seem. In fact, they can be weaponized with unexpected consequences. ChatGPT is well known for not knowing when to stop talking - the underlying transformer architecture lends itself to hallucinations in situations when the model is asked to generate text beyond the context it was trained on. Even more curious, sometimes it starts giving a response, only to change its mind mid sentence, and terminating the conversation. So naturally, when the software stops and refuses to answer, users take notice. In this case, ChatGPT users found that mention of the name “David Mayer”, whenever included in a message, would consistently cause the model to terminate the conversation. It’s a conspiracy! Creating even more mystery, chatGPT rejection messages quickly move from unhelpful to ominously threatening when the user starts investigating the phenomenon. Continua qui: <https://centreforaileadership.org/resources/analysis_the_curious_case_of_one...>
Grazie! Interessante leggere come da lontano vedano il GDPR e il diritto all'oblio (o quello che è). La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se interpretato restrittivamente non è compatibile con la tecnologia degli LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un totale contrasto, su più principi di base. E questo è un problema per l'Europa. Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l-accordo-gedi-openai-AGJ... ne è ulteriore riprova (quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia chiaro, ma per altre ragioni) Aggiungo a scanso di equivoci, che questa considerazione non vuol dire a mio parere che vi sia incompatibilità tra queste tecnologie ed il sacrosanto diritto fondamentale alla protezione dei dati personali. CB Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani < daniela.tafani@unipi.it> ha scritto:
Dec 01, 2024 - Georg Zoeller (AILTI) The Curious Case of David Mayer, the man ChatGPT cannot name.
ChatGPT users have noticed a curious behavior: It refuses to talk about a 'David Mayer'. We have the explanation and point out less obvious implications.
TL;DR: While not a juicy conspiracy, OpenAI cut some corners on regulatory compliance and the implications are less benign than they seem. In fact, they can be weaponized with unexpected consequences.
ChatGPT is well known for not knowing when to stop talking - the underlying transformer architecture lends itself to hallucinations in situations when the model is asked to generate text beyond the context it was trained on. Even more curious, sometimes it starts giving a response, only to change its mind mid sentence, and terminating the conversation.
So naturally, when the software stops and refuses to answer, users take notice. In this case, ChatGPT users found that mention of the name “David Mayer”, whenever included in a message, would consistently cause the model to terminate the conversation.
It’s a conspiracy! Creating even more mystery, chatGPT rejection messages quickly move from unhelpful to ominously threatening when the user starts investigating the phenomenon.
Continua qui: < https://centreforaileadership.org/resources/analysis_the_curious_case_of_one...
-- *Avv. Carlo Blengino* *Via Duchessa Jolanda n. 19,* *10138 Torino (TO) - Italy* *tel. +39 011 4474035* Penalistiassociati.it
Carlo... non devi berti qualsiasi sciocchezza che trovi su Google! ;-) On Mon, 2 Dec 2024 23:55:50 +0100 Carlo Blengino wrote:
il GDPR se interpretato restrittivamente non è compatibile con la tecnologia degli LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un totale contrasto, su più principi di base.
Il GDPR, se interpretato correttamente, rende costosa la realizzazione e la manutenzione degli LLM che le BigTech USA stanno immettendo sul mercato, richiedendo continui aggiornamenti (detti impropriamente re-training) ogni qual volta un cittadino esercita i propri diritti. Tutto qui. Costosa, non tecnicamente impossibile. Ma sono costi d'impresa, come le scarpe antinfortunistiche in cantiere, le siringhe in ospedale o la carta igienica in ufficio.
E questo è un problema per l'Europa.
Stai assumendo che questa tecnologia abbia una qualche utilità pratica. Come stanno finalmente notando molti investitori... è ancora ben lungi dall'essere dimostrato. Comunque al tuo posto non mi cruccerei. Le scuole sono ancora saldamente in mano a Google, a riprova del fatto che il GDPR e lo Stato di Diritto sono favole per bambini. Quindi rallegrati: potrai continuare a sollazzarti con ChatGPT a lungo! Mi preoccuperei piuttosto dell'incompatibilità intrinseca fra la pubblicazione sul Web di output prodotti da LLM e gli articoli 580 e 589 del Codice Penale https://apnews.com/article/chatbot-ai-lawsuit-suicide-teen-artificial-intell... https://www.brusselstimes.com/430098/belgian-man-commits-suicide-following-e... O dici che dovremmo interpretare anche il Codice Penale in modo "meno restrittivo" per tutelare i profitti europei di OpenAI e soci? Giacomo
Ciao Carlo, On Mon, Dec 02, 2024 at 11:55:50PM +0100, Carlo Blengino wrote:
La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se interpretato restrittivamente non è compatibile con la tecnologia degli LLM.
lo dici in considerazione del livello di difficoltà di cancellare da un LLM dati che ha memorizzato e che, ai sensi del GDPR (interpretato restrittivamente) devono essere dimenticati? Chiedo perché, concettualmente, non vedo una profonda differenza tra un LLM che memorizza qualcosa che non dovrebbe (ai sensi di GDPR) od un motore di ricerca o ancora un archivio digitale. Ritieni che anche queste altre tecnologie più datate siano fondamentalmente incompatibili con GDPR? A me pare che la differenza sia solamente nella difficoltà di cancellazione da un LLM, che oggi è oggettivamente molto alta (di fatto l'unico modo sicuro è fare retraining dopo avere pulito il training dataset, il che è molto costoso). Ma non è detto che questo difficoltà tecnica resti tale in futuro --- penso ad esempio a potenziali progressi nell'ambito del machine unlearning (mondo che alcuni Nexiani mi hanno di recente fatto scoprire, h/t a Antonio e Maurizio). Ciao -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CSO Software Heritage o o o o /\|^|/\ Mastodon: https://mastodon.xyz/@zacchiro '" V "'
Buongiorno, da fisico (quindi turista del diritto e da semplice 'smanettone' informatico) non sono certo di aver ben compreso su che base si fonda il ragionamento secondo il quale tale tecnologia non sarebbe compatibile con la protezione dei dati personali (la vedo abbastanza come Giacomo, direi). Ammesso e non concesso che lo sia, direi che sarebbe una cattiva notizia per l'Ai sub-simbolica, che andrebbe abbandonata di corsa. Osservazioni: - non sarebbe la prima volta che l'Ai sub-simbolica viene abbandonata. Basti dire che John McCarthy scriveva che non credeva nella bontà dell'approccio sub-simbolico, che ha già conosciuto un "inverno". E certamente non era uno scettico dell'Ai; - non sarebbe la prima volta che una tecnologia/materiale/sostanza viene abbandonata, senza che questo causi non solo l'arresto del progresso, ma nemmeno l'arresto di un determinato campo tecnologico. Per esempio l'abbandono del piombo come additivo per alimentare i motori a scoppio non ha certo fermato la diffusione di tali motori (purtroppo); - molti, e non da oggi (da oggi non più solo Gary Marcus), pensano che il puro approccio sub-simbolico non basti e che l'Ai dovrebbe evolvere verso qualcosa che sia capace di avere almeno un semplice modello di realtà "embedded", cosa che credo aiuterebbe assai a risolvere il problema in questione. Insomma, come sempre, There Are Thousands of Alternatives. Stefano Inviato con l'email sicura [Proton Mail](https://proton.me/mail/home). lunedì 2 dicembre 2024 23:55, Carlo Blengino <blengino@penalistiassociati.it> ha scritto:
Grazie! Interessante leggere come da lontano vedano il GDPR e il diritto all'oblio (o quello che è). La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se interpretato restrittivamente non è compatibile con la tecnologia degli LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un totale contrasto, su più principi di base. E questo è un problema per l'Europa. Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l-accordo-gedi-openai-AGJ... ne è ulteriore riprova (quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia chiaro, ma per altre ragioni) Aggiungo a scanso di equivoci, che questa considerazione non vuol dire a mio parere che vi sia incompatibilità tra queste tecnologie ed il sacrosanto diritto fondamentale alla protezione dei dati personali. CB
Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani <daniela.tafani@unipi.it> ha scritto:
Dec 01, 2024 - Georg Zoeller (AILTI) The Curious Case of David Mayer, the man ChatGPT cannot name.
ChatGPT users have noticed a curious behavior: It refuses to talk about a 'David Mayer'. We have the explanation and point out less obvious implications.
TL;DR: While not a juicy conspiracy, OpenAI cut some corners on regulatory compliance and the implications are less benign than they seem. In fact, they can be weaponized with unexpected consequences.
ChatGPT is well known for not knowing when to stop talking - the underlying transformer architecture lends itself to hallucinations in situations when the model is asked to generate text beyond the context it was trained on. Even more curious, sometimes it starts giving a response, only to change its mind mid sentence, and terminating the conversation.
So naturally, when the software stops and refuses to answer, users take notice. In this case, ChatGPT users found that mention of the name “David Mayer”, whenever included in a message, would consistently cause the model to terminate the conversation.
It’s a conspiracy! Creating even more mystery, chatGPT rejection messages quickly move from unhelpful to ominously threatening when the user starts investigating the phenomenon.
Continua qui: <https://centreforaileadership.org/resources/analysis_the_curious_case_of_one...>
--
Avv. Carlo Blengino Via Duchessa Jolanda n. 19, 10138 Torino (TO) - Italy
tel. +39 011 4474035 Penalistiassociati.it
Ciao Carlo On 02/12/24 23:55, Carlo Blengino wrote:
Grazie! Interessante leggere come da lontano vedano il GDPR e il diritto all'oblio (o quello che è). La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se interpretato restrittivamente non è compatibile con la tecnologia degli LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un totale contrasto, su più principi di base. E questo è un problema per l'Europa.
non mi pare. se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4 re-training del modello all'anno. per l'azienda si tratta di trovare il punto di equilibrio costi/benefici rispetto alle dimensioni del proprio modello (e per il sistema, fare un po' di ricerca su metodi di ottimizzazione) https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gp... d'altronde, anche il consorzio obbligatorio degli olii usati è una maggiorazione di costi per i meccanici... :-)
Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l- accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel- mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova (quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia chiaro, ma per altre ragioni) Aggiungo a scanso di equivoci, che questa considerazione non vuol dire a mio parere che vi sia incompatibilità tra queste tecnologie ed il sacrosanto diritto fondamentale alla protezione dei dati personali. CB
Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani <daniela.tafani@unipi.it <mailto:daniela.tafani@unipi.it>> ha scritto:
Dec 01, 2024 - Georg Zoeller (AILTI) The Curious Case of David Mayer, the man ChatGPT cannot name.
ChatGPT users have noticed a curious behavior: It refuses to talk about a 'David Mayer'. We have the explanation and point out less obvious implications.
TL;DR: While not a juicy conspiracy, OpenAI cut some corners on regulatory compliance and the implications are less benign than they seem. In fact, they can be weaponized with unexpected consequences.
ChatGPT is well known for not knowing when to stop talking - the underlying transformer architecture lends itself to hallucinations in situations when the model is asked to generate text beyond the context it was trained on. Even more curious, sometimes it starts giving a response, only to change its mind mid sentence, and terminating the conversation.
So naturally, when the software stops and refuses to answer, users take notice. In this case, ChatGPT users found that mention of the name “David Mayer”, whenever included in a message, would consistently cause the model to terminate the conversation.
It’s a conspiracy! Creating even more mystery, chatGPT rejection messages quickly move from unhelpful to ominously threatening when the user starts investigating the phenomenon.
Continua qui: <https://centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/ <https:// centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/>>
-- * * *Avv. Carlo Blengino* * * /Via Duchessa Jolanda n. 19,/ /10138 Torino (TO) - Italy/ /tel. +39 011 4474035/ Penalistiassociati.it //
-- You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si possono cedere dati sensibili di cui si è responsabili, che i giornali pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono farne usi diversi senza il consenso degli interessati. Quindi la cessione sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere e smentire le notizie 'on the fly' come possono fare i giornali. Il problema è che i LLM acquisiscono competenze linguistiche generali (ad es. quelle che servono per fare summarization) e fattuali (chi è David Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti progressi, tutto è più o meno fuso in un sol blocco. Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented Generation (RAG). In questi casi, le competenze fattuali si trovano nei documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM spetta solo il compito di mettere in bella prosa alcuni passaggi informativi che non si trovano nel modello ma appunto in qualche testo leggibile e emendabile. La notizia è che per questo esercizio bastano modelli relativamente piccoli, anche 'aperti', e non è impensabile che questi possano essere costruiti con dati 'puliti'. Nota a margine: quello che GEDI dice di voler fare, da quello che capisco, è esattamente un RAG, come quello che altre testate (es. Washington Post) stanno sperimentando. Non c'è davvero bisogno che OpenAI faccia training sul loro archivio. G. On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa < nexa@server-nexa.polito.it> wrote:
Ciao Carlo
On 02/12/24 23:55, Carlo Blengino wrote:
Grazie! Interessante leggere come da lontano vedano il GDPR e il diritto all'oblio (o quello che è). La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se interpretato restrittivamente non è compatibile con la tecnologia degli LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un totale contrasto, su più principi di base. E questo è un problema per l'Europa.
non mi pare. se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4 re-training del modello all'anno.
per l'azienda si tratta di trovare il punto di equilibrio costi/benefici rispetto alle dimensioni del proprio modello (e per il sistema, fare un po' di ricerca su metodi di ottimizzazione)
https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gp...
d'altronde, anche il consorzio obbligatorio degli olii usati è una maggiorazione di costi per i meccanici... :-)
Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l- accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel- mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova (quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia chiaro, ma per altre ragioni) Aggiungo a scanso di equivoci, che questa considerazione non vuol dire a mio parere che vi sia incompatibilità tra queste tecnologie ed il sacrosanto diritto fondamentale alla protezione dei dati personali. CB
Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani <daniela.tafani@unipi.it <mailto:daniela.tafani@unipi.it>> ha scritto:
Dec 01, 2024 - Georg Zoeller (AILTI) The Curious Case of David Mayer, the man ChatGPT cannot name.
ChatGPT users have noticed a curious behavior: It refuses to talk about a 'David Mayer'. We have the explanation and point out less obvious implications.
TL;DR: While not a juicy conspiracy, OpenAI cut some corners on regulatory compliance and the implications are less benign than they seem. In fact, they can be weaponized with unexpected consequences.
ChatGPT is well known for not knowing when to stop talking - the underlying transformer architecture lends itself to hallucinations in situations when the model is asked to generate text beyond the context it was trained on. Even more curious, sometimes it starts giving a response, only to change its mind mid sentence, and terminating the conversation.
So naturally, when the software stops and refuses to answer, users take notice. In this case, ChatGPT users found that mention of the name “David Mayer”, whenever included in a message, would consistently cause the model to terminate the conversation.
It’s a conspiracy! Creating even more mystery, chatGPT rejection messages quickly move from unhelpful to ominously threatening when the user starts investigating the phenomenon.
Continua qui: <https://centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/ <https:// centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/>>
-- * * *Avv. Carlo Blengino* * * /Via Duchessa Jolanda n. 19,/ /10138 Torino (TO) - Italy/ /tel. +39 011 4474035/ Penalistiassociati.it //
-- You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di chiarire la mia affermazione, forse un po' troppo secca, sull'incompatibilità del GDPR, e anche di rispondere indirettamente alle considerazioni che precedono. Non mi riferivo infatti solo al problema del diritto alla cancellazione. Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare servizi basati su RAG, ma se anche così fosse, e i dati non fossero utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si aprirebbero comunque infinite diatribe sulla corretta attribuzione dei ruoli di titolare e responsabile tra i diversi soggetti. Risolto faticosamente quello, il problema per cui un archivio pubblico come l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un fornitore per l'addestramento è vera, quale che sia la modalità di acquisizione (che sia con lo scraping o con accordi). Non ci sarà mai infatti per fini commeriali/imprenditoriali una base giuridica che legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari ex art. 10, circostanza questa che esclude il legittimo interesse. Solo che quella è l'unica possibilità di liceità del trattamento (il consenso ovviamente non è neppure pensabile), ed è già stata piegata e forzata fin troppo per i motori di ricerca dopo la sentenza Costeja Gonzales della ECJ. Per salvare il trattamento dei motori di ricerca quali titolari del trattamento sulla base del legittimo interesse si sono compiute capriole interpretative notevoli là dove tale base è recessiva rispetto al divieto di trattamento di dati particolari, ma lì era più facile e nessuno poteva vietare Google Search. Con gli LLM però non se ne esce, ed i tempi sono cambiati. Eppure gli archivi sono una fonte credo fondamentale e viene usata a man bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione. E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più consono alle privative legate alla proprietà intellettuale (altra normativa in frizione) che non al tema della protezione dati. Nel GDPR non esiste nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act, ma è riferito ad altro); i dati personali, a maggior ragione se pubblici, non sono di nessuno (il titolare è il titolare del trattamento, non dei dati, e l'interessato non possiede i suoi dati, può pretenderne la protezione, a determinate condizioni). E bene che sia così, perchè i dati, rectius le informazioni, anche personali devono circolare santo cielo! Sono la base della conoscenza, anche quella delle macchine spara stronzate (frankfurtianamente) Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un disastro per tutti, ma non perchè violino chissà quale diritto fondamentale dei cittadini o la protezione dei dati, ma perché generano delle privative e delle barriere economiche distorsive basate sul nulla, almeno sotto il profilo della data protection (a mio giudizio anche sotto il profilo della proprietà intellettuale, ma li le privative esistono davvero!). E di situazioni così, di incompatibilità, è piena la strada delle tecnologie dell'informazione che necessitano della ruminazione di molte informazioni. Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è incompatibile con il BigData (in allora il termine era una buzzword). Minimizzazione, limitazione della conservazione, stretta finalità...tutta roba contraria al valore informativo dei dati, ma per fortuna c'erano mille eccezioni, varianti e deroghe e soprattutto quei principi si potevano piegare, adattare e soprattutto i pochi che si occupavano di protezione dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile e recessivo, molto diverso dalla riservatezza (che quella sì se la passava già davvero male). Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i Salami non hanno alcun interesse per l'umanità, e che non meritano tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la governano. I problemi sono altri e necessitano di risposte diverse. Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma sono comunque sempre grato a tutti in questa lista per gli stimoli e le riflessioni che mi suscitate. CB ne fondi il trattamento Il giorno mer 4 dic 2024 alle ore 22:40 Guido Vetere <vetere.guido@gmail.com> ha scritto:
Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si possono cedere dati sensibili di cui si è responsabili, che i giornali pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono farne usi diversi senza il consenso degli interessati. Quindi la cessione sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere e smentire le notizie 'on the fly' come possono fare i giornali.
Il problema è che i LLM acquisiscono competenze linguistiche generali (ad es. quelle che servono per fare summarization) e fattuali (chi è David Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti progressi, tutto è più o meno fuso in un sol blocco.
Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented Generation (RAG). In questi casi, le competenze fattuali si trovano nei documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM spetta solo il compito di mettere in bella prosa alcuni passaggi informativi che non si trovano nel modello ma appunto in qualche testo leggibile e emendabile.
La notizia è che per questo esercizio bastano modelli relativamente piccoli, anche 'aperti', e non è impensabile che questi possano essere costruiti con dati 'puliti'. Nota a margine: quello che GEDI dice di voler fare, da quello che capisco, è esattamente un RAG, come quello che altre testate (es. Washington Post) stanno sperimentando. Non c'è davvero bisogno che OpenAI faccia training sul loro archivio.
G.
On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa < nexa@server-nexa.polito.it> wrote:
Ciao Carlo
On 02/12/24 23:55, Carlo Blengino wrote:
Grazie! Interessante leggere come da lontano vedano il GDPR e il diritto all'oblio (o quello che è). La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se interpretato restrittivamente non è compatibile con la tecnologia degli LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un totale contrasto, su più principi di base. E questo è un problema per l'Europa.
non mi pare. se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4 re-training del modello all'anno.
per l'azienda si tratta di trovare il punto di equilibrio costi/benefici rispetto alle dimensioni del proprio modello (e per il sistema, fare un po' di ricerca su metodi di ottimizzazione)
https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gp...
d'altronde, anche il consorzio obbligatorio degli olii usati è una maggiorazione di costi per i meccanici... :-)
Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l- accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel- mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova (quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia chiaro, ma per altre ragioni) Aggiungo a scanso di equivoci, che questa considerazione non vuol dire a mio parere che vi sia incompatibilità tra queste tecnologie ed il sacrosanto diritto fondamentale alla protezione dei dati personali. CB
Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani <daniela.tafani@unipi.it <mailto:daniela.tafani@unipi.it>> ha scritto:
Dec 01, 2024 - Georg Zoeller (AILTI) The Curious Case of David Mayer, the man ChatGPT cannot name.
ChatGPT users have noticed a curious behavior: It refuses to talk about a 'David Mayer'. We have the explanation and point out less obvious implications.
TL;DR: While not a juicy conspiracy, OpenAI cut some corners on regulatory compliance and the implications are less benign than they seem. In fact, they can be weaponized with unexpected consequences.
ChatGPT is well known for not knowing when to stop talking - the underlying transformer architecture lends itself to hallucinations in situations when the model is asked to generate text beyond the context it was trained on. Even more curious, sometimes it starts giving a response, only to change its mind mid sentence, and terminating the conversation.
So naturally, when the software stops and refuses to answer, users take notice. In this case, ChatGPT users found that mention of the name “David Mayer”, whenever included in a message, would consistently cause the model to terminate the conversation.
It’s a conspiracy! Creating even more mystery, chatGPT rejection messages quickly move from unhelpful to ominously threatening when the user starts investigating the phenomenon.
Continua qui: <https://centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/ <https:// centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/>>
-- * * *Avv. Carlo Blengino* * * /Via Duchessa Jolanda n. 19,/ /10138 Torino (TO) - Italy/ /tel. +39 011 4474035/ Penalistiassociati.it //
-- You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
-- *Avv. Carlo Blengino* *Via Duchessa Jolanda n. 19,* *10138 Torino (TO) - Italy* *tel. +39 011 4474035* Penalistiassociati.it
Grazie mille per le integrazioni. Per quanto riguarda i dati personali presenti nei testi, dal punto di vista tecnico NLP una soluzione sarebbe l’anonimizzazione (eliminare dai testi i dati personali / identificatori per cui non si ha l’autorizzazione al trattamento). Soluzione complicata ma teoricamente possibile, che si può fare in modo più o meno restrittivo. Inoltre, i tipi di testi, e quindi anche le news, possono essere classificati automaticamente, scartando quelli che non si possono riutilizzare . Riguardo alle persone, si possono ad es fare distinzioni tra personaggi pubblici e no. Si tratta di tecnologie/metodologie di cui le grandi aziende Ai dispongono. Fino a un paio di anni fa, per creare LLM si è buttato dentro tutto, “ramazzando” tutto quanto con poco preprocessing. Buona giornata, Andrea Il giorno gio 5 dic 2024 alle 00:41 Carlo Blengino < blengino@penalistiassociati.it> ha scritto:
Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di chiarire la mia affermazione, forse un po' troppo secca, sull'incompatibilità del GDPR, e anche di rispondere indirettamente alle considerazioni che precedono. Non mi riferivo infatti solo al problema del diritto alla cancellazione.
Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare servizi basati su RAG, ma se anche così fosse, e i dati non fossero utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si aprirebbero comunque infinite diatribe sulla corretta attribuzione dei ruoli di titolare e responsabile tra i diversi soggetti. Risolto faticosamente quello, il problema per cui un archivio pubblico come l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un fornitore per l'addestramento è vera, quale che sia la modalità di acquisizione (che sia con lo scraping o con accordi). Non ci sarà mai infatti per fini commeriali/imprenditoriali una base giuridica che legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari ex art. 10, circostanza questa che esclude il legittimo interesse. Solo che quella è l'unica possibilità di liceità del trattamento (il consenso ovviamente non è neppure pensabile), ed è già stata piegata e forzata fin troppo per i motori di ricerca dopo la sentenza Costeja Gonzales della ECJ. Per salvare il trattamento dei motori di ricerca quali titolari del trattamento sulla base del legittimo interesse si sono compiute capriole interpretative notevoli là dove tale base è recessiva rispetto al divieto di trattamento di dati particolari, ma lì era più facile e nessuno poteva vietare Google Search. Con gli LLM però non se ne esce, ed i tempi sono cambiati. Eppure gli archivi sono una fonte credo fondamentale e viene usata a man bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione. E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più consono alle privative legate alla proprietà intellettuale (altra normativa in frizione) che non al tema della protezione dati. Nel GDPR non esiste nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act, ma è riferito ad altro); i dati personali, a maggior ragione se pubblici, non sono di nessuno (il titolare è il titolare del trattamento, non dei dati, e l'interessato non possiede i suoi dati, può pretenderne la protezione, a determinate condizioni). E bene che sia così, perchè i dati, rectius le informazioni, anche personali devono circolare santo cielo! Sono la base della conoscenza, anche quella delle macchine spara stronzate (frankfurtianamente) Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un disastro per tutti, ma non perchè violino chissà quale diritto fondamentale dei cittadini o la protezione dei dati, ma perché generano delle privative e delle barriere economiche distorsive basate sul nulla, almeno sotto il profilo della data protection (a mio giudizio anche sotto il profilo della proprietà intellettuale, ma li le privative esistono davvero!).
E di situazioni così, di incompatibilità, è piena la strada delle tecnologie dell'informazione che necessitano della ruminazione di molte informazioni.
Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è incompatibile con il BigData (in allora il termine era una buzzword). Minimizzazione, limitazione della conservazione, stretta finalità...tutta roba contraria al valore informativo dei dati, ma per fortuna c'erano mille eccezioni, varianti e deroghe e soprattutto quei principi si potevano piegare, adattare e soprattutto i pochi che si occupavano di protezione dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile e recessivo, molto diverso dalla riservatezza (che quella sì se la passava già davvero male).
Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i Salami non hanno alcun interesse per l'umanità, e che non meritano tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la governano. I problemi sono altri e necessitano di risposte diverse.
Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma sono comunque sempre grato a tutti in questa lista per gli stimoli e le riflessioni che mi suscitate. CB
ne fondi il trattamento
Il giorno mer 4 dic 2024 alle ore 22:40 Guido Vetere < vetere.guido@gmail.com> ha scritto:
Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si possono cedere dati sensibili di cui si è responsabili, che i giornali pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono farne usi diversi senza il consenso degli interessati. Quindi la cessione sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere e smentire le notizie 'on the fly' come possono fare i giornali.
Il problema è che i LLM acquisiscono competenze linguistiche generali (ad es. quelle che servono per fare summarization) e fattuali (chi è David Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti progressi, tutto è più o meno fuso in un sol blocco.
Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented Generation (RAG). In questi casi, le competenze fattuali si trovano nei documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM spetta solo il compito di mettere in bella prosa alcuni passaggi informativi che non si trovano nel modello ma appunto in qualche testo leggibile e emendabile.
La notizia è che per questo esercizio bastano modelli relativamente piccoli, anche 'aperti', e non è impensabile che questi possano essere costruiti con dati 'puliti'. Nota a margine: quello che GEDI dice di voler fare, da quello che capisco, è esattamente un RAG, come quello che altre testate (es. Washington Post) stanno sperimentando. Non c'è davvero bisogno che OpenAI faccia training sul loro archivio.
G.
On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa < nexa@server-nexa.polito.it> wrote:
Ciao Carlo
On 02/12/24 23:55, Carlo Blengino wrote:
Grazie! Interessante leggere come da lontano vedano il GDPR e il diritto all'oblio (o quello che è). La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se interpretato restrittivamente non è compatibile con la tecnologia degli LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un totale contrasto, su più principi di base. E questo è un problema per l'Europa.
non mi pare. se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4 re-training del modello all'anno.
per l'azienda si tratta di trovare il punto di equilibrio costi/benefici rispetto alle dimensioni del proprio modello (e per il sistema, fare un po' di ricerca su metodi di ottimizzazione)
https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gp...
d'altronde, anche il consorzio obbligatorio degli olii usati è una maggiorazione di costi per i meccanici... :-)
Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l- accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel- mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova (quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia chiaro, ma per altre ragioni) Aggiungo a scanso di equivoci, che questa considerazione non vuol dire a mio parere che vi sia incompatibilità tra queste tecnologie ed il sacrosanto diritto fondamentale alla protezione dei dati personali. CB
Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani <daniela.tafani@unipi.it <mailto:daniela.tafani@unipi.it>> ha scritto:
Dec 01, 2024 - Georg Zoeller (AILTI) The Curious Case of David Mayer, the man ChatGPT cannot name.
ChatGPT users have noticed a curious behavior: It refuses to talk about a 'David Mayer'. We have the explanation and point out less obvious implications.
TL;DR: While not a juicy conspiracy, OpenAI cut some corners on regulatory compliance and the implications are less benign than they seem. In fact, they can be weaponized with unexpected consequences.
ChatGPT is well known for not knowing when to stop talking - the underlying transformer architecture lends itself to hallucinations in situations when the model is asked to generate text beyond the context it was trained on. Even more curious, sometimes it starts giving a response, only to change its mind mid sentence, and terminating the conversation.
So naturally, when the software stops and refuses to answer, users take notice. In this case, ChatGPT users found that mention of the name “David Mayer”, whenever included in a message, would consistently cause the model to terminate the conversation.
It’s a conspiracy! Creating even more mystery, chatGPT rejection messages quickly move from unhelpful to ominously threatening when the user starts investigating the phenomenon.
Continua qui: <https://centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/ <https:// centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/>>
-- * * *Avv. Carlo Blengino* * * /Via Duchessa Jolanda n. 19,/ <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F...>
<https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F10138+Torino+(TO)+-+Italy?entry=gmail&source=g>> /10138 Torino (TO) - Italy <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F...> /
/tel. +39 011 4474035/ Penalistiassociati.it //
-- You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
-- *Avv. Carlo Blengino* *Via Duchessa Jolanda n. 19, <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>* *10138 Torino (TO) - Italy <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>* *tel. +39 011 4474035* Penalistiassociati.it
Buongiorno, da _dilettante_ del diritto e di filosofia mi permetto un paio di commenti Carlo Blengino <blengino@penalistiassociati.it> writes: [...]
Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare servizi basati su RAG, ma se anche così fosse, e i dati non fossero utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati ad OpenAI,
lasciando da parte gli "esercizi di cattivo gusto" (giuridico) degli accordi tra editori e aziende informatiche, che differenza c'è tra l'indicizzazione degli articoli pubblicati - e sottolineo ottanta volte pubblicati - e altri tipi di elaborazione, dal punto di vista del GDPR? scusa l'ignoranza ma la circostanza che i _presunti_ "dati" siano stati resi _pubblici_ (pubblicati) da un organo di /informazione/ non rende quei "dati" /liberi/ da GDPR? (cioè: io non li ottengo dalla persona, li ottengo da una pubblicazione) [...]
il problema per cui un archivio pubblico come l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un fornitore per l'addestramento è vera, quale che sia la modalità di acquisizione (che sia con lo scraping o con accordi).
Tipo il /dato/ che un tale è stato condannato a X anni di carcere con sentenza passata in giudicato, ecc, ecc, ecc: quello è /trattamento di dati personali/? Questo vale anche per i libri nelle biblioteche, giusto? Questo vale solo per "l'addestramento LLM" o per qualsiasi tipo di trattamento per mezzo di elaboratore?
Non ci sarà mai infatti per fini commeriali/imprenditoriali una base giuridica che legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari ex art. 10, circostanza questa che esclude il legittimo interesse.
Quindi la Treccani non è legittimata a trattare gli archivi delle sentenze passate in giudicato, per esempio? Nelle questioni /pubbliche/ (cioè _pubblicate_) non è forse mio legittimo interesse conoscere i fatti e le circastanze (dati) che determinano la vita della mia nazione, inclusi dati personali? [...]
Per salvare il trattamento dei motori di ricerca quali titolari del trattamento sulla base del legittimo interesse si sono compiute capriole interpretative notevoli là dove tale base è recessiva rispetto al divieto di trattamento di dati particolari,
faranno delle capriole ancora più contorte anche per gli LLM ...fino a riformare il GDPR :-)
ma lì era più facile e nessuno poteva vietare Google Search.
"Too big to stop"? [...]
E mi chiedo cosa intenda il Garante quando parla di "licenza",
farà parte delle capriole (sgraziate) che tocca fare al Garante [...]
i dati personali, a maggior ragione se pubblici, non sono di nessuno (il titolare è il titolare del trattamento, non dei dati, e l'interessato non possiede i suoi dati, può pretenderne la protezione, a determinate condizioni).
protezione tipo che nessuno può leggere la sua corrispondenza privata (email, chat, compiti in classe, risultati di test scolastici, risultati di visite mediche, ecc. ecc. ecc. ecc.) come parte integrante del /servizio/, perché questo ha sempre fatto schifo e deve continuare a farlo? il GDPR dovrebbe servire a _questo_, non a stabilire chi può e chi non può trattare dati, anche personali, contenuti in archivi _pubblici_ (pubblicati)
E bene che sia così, perchè i dati, rectius le informazioni, anche personali devono circolare santo cielo! Sono la base della conoscenza,
Amen. [...]
Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è incompatibile con il BigData (in allora il termine era una buzzword).
Io, che sono ingenuo da fare paura, ho sempre pensato che il GDPR servisse a garantire che i dati _privati_ - e sottolineo ottanta volte privati - rimanessero tali, ovvero /riservati/ tra me e il mio fornitore, che non si deve azzardare a trasmetterli a terzi se non per l'esecuzione degli _specifici_ compiti inclusi nel rapporto _contrattuale_ (e di tali trasferimenti devo essere informato). ...e invece, il mio numero di cellulare è da anni in una lista che innumerevoli "agenti del male" (quello che sento per loro) usano insistentemente per tentare di interrompermi almeno 3 volte al giorno non mi risulta che i numeri di cellulare siano _pubblicati_ dagli organi di informazione, sicuramente non il mio
Minimizzazione, limitazione della conservazione, stretta finalità...tutta roba contraria al valore informativo dei dati,
non capisco perché i miei dati personali non debbano essere trattati secondo quei principi, _soprattutto_ perché il valore informativo dei miei dati personali VOGLIO che diventi zero una volta che con quel determinato fornitore ho cessato ogni rapporto cosa ben diversa è la _pubblicazione_ di ALCUNI dati personali, che SE avviene nell'ambito del c.d. interesse pubblico dovrebbe già essere ampiamente tutelata dal codice penale e civile, che superano di gran lunga il GDPR... ma io sono dilettante e ingenuo il solo pensiero che "la privacy" venga di tanto in tanto abusata come mezzo di CENSURA sia di attività di pubblica informazione che di attività di pubblica sicurezza mi disturba alquanto [...]
Però non facciamolo usando il GDPR come fosse il baluardo che difende l'umanità
soprattutto non facciamolo usando il GDPR come una _clava_ contro "la qualsiasi", perché fa malissimo allo stato di diritto
dall'AI cattiva e dai cattivi che la governano. I problemi sono altri e necessitano di risposte diverse.
tipo: vogliamo vietare o no che TONNELLATE di dati personali riservatissimi quali email, chat, compiti in classe, risultati di test scolastici, risultati di visite mediche, ecc. vengano raccolti ed elaborati? Certe cose non dovrebbero essere fatte NEMMENO col consenso dei "titolari dei diritti", perché sono comunque /minorati/. [...] Grazie per l'attenzione. Saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Ciao, molto sinteticamente, mi pare che le tue domande tradiscano l'errore prospettico di molti, ovvero confondere il diritto alla protezione dei dati con quello alla riservatezza. Errore indotto dal termine "privacy" usato ad ombrello. La ragione e la forza del "nuovo" diritto per la protezione dei dati personali è soprattutto in relazione a dati privi di riservatezza e dunque anche quelli pubblici. Se ti togli la riservatezza (la privacy) dalla testa, vedrai che risponderai da solo alle tue domande. CB
Carlo Blengino: *Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare servizi basati su RAG, ma se anche così fosse, e i dati non fossero utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si aprirebbero comunque infinite diatribe sulla corretta attribuzione dei ruoli di titolare e > responsabile tra i diversi soggetti* GEDI parla vagamente di innovazione eccetera, ma si evince (credo) che abbiano in mente proprio un RAG. OpenAI parla più esplicitamente di mettere nei modelli dati di buona qualità in italiano, cioè parla apertamente del training a livello 'foundational'. No, per la vettorializzazione (sentence embedding), si può usare un modello diverso da quello poi usato nella fase generativa, tipicamente si tratta di un piccolo modello specializzato per l'embedding. Insomma: dietro questa operazione c'è solo la monetizzazione dall'archivio da parte di GEDI, e il 'legal washing' di OpenAI. G. On Thu, 5 Dec 2024 at 00:41, Carlo Blengino <blengino@penalistiassociati.it> wrote:
Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di chiarire la mia affermazione, forse un po' troppo secca, sull'incompatibilità del GDPR, e anche di rispondere indirettamente alle considerazioni che precedono. Non mi riferivo infatti solo al problema del diritto alla cancellazione.
Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare servizi basati su RAG, ma se anche così fosse, e i dati non fossero utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si aprirebbero comunque infinite diatribe sulla corretta attribuzione dei ruoli di titolare e responsabile tra i diversi soggetti. Risolto faticosamente quello, il problema per cui un archivio pubblico come l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un fornitore per l'addestramento è vera, quale che sia la modalità di acquisizione (che sia con lo scraping o con accordi). Non ci sarà mai infatti per fini commeriali/imprenditoriali una base giuridica che legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari ex art. 10, circostanza questa che esclude il legittimo interesse. Solo che quella è l'unica possibilità di liceità del trattamento (il consenso ovviamente non è neppure pensabile), ed è già stata piegata e forzata fin troppo per i motori di ricerca dopo la sentenza Costeja Gonzales della ECJ. Per salvare il trattamento dei motori di ricerca quali titolari del trattamento sulla base del legittimo interesse si sono compiute capriole interpretative notevoli là dove tale base è recessiva rispetto al divieto di trattamento di dati particolari, ma lì era più facile e nessuno poteva vietare Google Search. Con gli LLM però non se ne esce, ed i tempi sono cambiati. Eppure gli archivi sono una fonte credo fondamentale e viene usata a man bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione. E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più consono alle privative legate alla proprietà intellettuale (altra normativa in frizione) che non al tema della protezione dati. Nel GDPR non esiste nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act, ma è riferito ad altro); i dati personali, a maggior ragione se pubblici, non sono di nessuno (il titolare è il titolare del trattamento, non dei dati, e l'interessato non possiede i suoi dati, può pretenderne la protezione, a determinate condizioni). E bene che sia così, perchè i dati, rectius le informazioni, anche personali devono circolare santo cielo! Sono la base della conoscenza, anche quella delle macchine spara stronzate (frankfurtianamente) Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un disastro per tutti, ma non perchè violino chissà quale diritto fondamentale dei cittadini o la protezione dei dati, ma perché generano delle privative e delle barriere economiche distorsive basate sul nulla, almeno sotto il profilo della data protection (a mio giudizio anche sotto il profilo della proprietà intellettuale, ma li le privative esistono davvero!).
E di situazioni così, di incompatibilità, è piena la strada delle tecnologie dell'informazione che necessitano della ruminazione di molte informazioni.
Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è incompatibile con il BigData (in allora il termine era una buzzword). Minimizzazione, limitazione della conservazione, stretta finalità...tutta roba contraria al valore informativo dei dati, ma per fortuna c'erano mille eccezioni, varianti e deroghe e soprattutto quei principi si potevano piegare, adattare e soprattutto i pochi che si occupavano di protezione dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile e recessivo, molto diverso dalla riservatezza (che quella sì se la passava già davvero male).
Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i Salami non hanno alcun interesse per l'umanità, e che non meritano tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la governano. I problemi sono altri e necessitano di risposte diverse.
Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma sono comunque sempre grato a tutti in questa lista per gli stimoli e le riflessioni che mi suscitate. CB
ne fondi il trattamento
Il giorno mer 4 dic 2024 alle ore 22:40 Guido Vetere < vetere.guido@gmail.com> ha scritto:
Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si possono cedere dati sensibili di cui si è responsabili, che i giornali pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono farne usi diversi senza il consenso degli interessati. Quindi la cessione sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere e smentire le notizie 'on the fly' come possono fare i giornali.
Il problema è che i LLM acquisiscono competenze linguistiche generali (ad es. quelle che servono per fare summarization) e fattuali (chi è David Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti progressi, tutto è più o meno fuso in un sol blocco.
Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented Generation (RAG). In questi casi, le competenze fattuali si trovano nei documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM spetta solo il compito di mettere in bella prosa alcuni passaggi informativi che non si trovano nel modello ma appunto in qualche testo leggibile e emendabile.
La notizia è che per questo esercizio bastano modelli relativamente piccoli, anche 'aperti', e non è impensabile che questi possano essere costruiti con dati 'puliti'. Nota a margine: quello che GEDI dice di voler fare, da quello che capisco, è esattamente un RAG, come quello che altre testate (es. Washington Post) stanno sperimentando. Non c'è davvero bisogno che OpenAI faccia training sul loro archivio.
G.
On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa < nexa@server-nexa.polito.it> wrote:
Ciao Carlo
On 02/12/24 23:55, Carlo Blengino wrote:
Grazie! Interessante leggere come da lontano vedano il GDPR e il diritto all'oblio (o quello che è). La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se interpretato restrittivamente non è compatibile con la tecnologia degli LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un totale contrasto, su più principi di base. E questo è un problema per l'Europa.
non mi pare. se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4 re-training del modello all'anno.
per l'azienda si tratta di trovare il punto di equilibrio costi/benefici rispetto alle dimensioni del proprio modello (e per il sistema, fare un po' di ricerca su metodi di ottimizzazione)
https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gp...
d'altronde, anche il consorzio obbligatorio degli olii usati è una maggiorazione di costi per i meccanici... :-)
Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l- accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel- mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova (quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia chiaro, ma per altre ragioni) Aggiungo a scanso di equivoci, che questa considerazione non vuol dire a mio parere che vi sia incompatibilità tra queste tecnologie ed il sacrosanto diritto fondamentale alla protezione dei dati personali. CB
Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani <daniela.tafani@unipi.it <mailto:daniela.tafani@unipi.it>> ha scritto:
Dec 01, 2024 - Georg Zoeller (AILTI) The Curious Case of David Mayer, the man ChatGPT cannot name.
ChatGPT users have noticed a curious behavior: It refuses to talk about a 'David Mayer'. We have the explanation and point out less obvious implications.
TL;DR: While not a juicy conspiracy, OpenAI cut some corners on regulatory compliance and the implications are less benign than they seem. In fact, they can be weaponized with unexpected consequences.
ChatGPT is well known for not knowing when to stop talking - the underlying transformer architecture lends itself to hallucinations in situations when the model is asked to generate text beyond the context it was trained on. Even more curious, sometimes it starts giving a response, only to change its mind mid sentence, and terminating the conversation.
So naturally, when the software stops and refuses to answer, users take notice. In this case, ChatGPT users found that mention of the name “David Mayer”, whenever included in a message, would consistently cause the model to terminate the conversation.
It’s a conspiracy! Creating even more mystery, chatGPT rejection messages quickly move from unhelpful to ominously threatening when the user starts investigating the phenomenon.
Continua qui: <https://centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/ <https:// centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/>>
-- * * *Avv. Carlo Blengino* * * /Via Duchessa Jolanda n. 19,/ /10138 Torino (TO) - Italy/ /tel. +39 011 4474035/ Penalistiassociati.it //
-- You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
-- *Avv. Carlo Blengino* *Via Duchessa Jolanda n. 19,* *10138 Torino (TO) - Italy* *tel. +39 011 4474035* Penalistiassociati.it
Caro Carlo,
temo gli sfottò del buon Tesio
posso rassicurarti: il mio sarcasmo veicola una critica feroce. Sia chiaro, di certe tue affermazioni apprezzo l'onestà intellettuale, ma non posso apprezzare null'altro purtroppo. E per quanto possa comprendere la difficoltà di trattare temi (come l'informatica) di cui non solo non si sa nulla, ma non si ha nemmeno idea di quanto ci sia da sapere, fatico a tollerare i danni che tali affermazioni producono alla noosfera, laddove chi ti legge o ascolta, soggetto alla medesima ignoranza, gli attribuisce l'autorevolezza che ti compete in altri ambiti. Per fare un paragone drammaticamente attinente, sei nella condizione di un analfabeta che, circondato da milioni di altri analfabeti, critica l'interpretazione delle norme che istituiscono l'obbligo scolastico. Lo fai in assoluta buona fede, convinto che saper leggere e scrivere sia solo una seccatura e non sia necessario per discutere di norme sul tema, rinforzato, nella tua credenza, sia dalla diffusione della stessa fra gli analfabeti sia il sostegno esplicito di diversi esperti di diritto (che sanno leggere benissimo, ma hanno tutto l'interesse a mantenerti nella tua supponente ignoranza). Immagina di osservare la scena con la tua conoscenza della storia, della letteratura e del diritto: come reagiresti? Ecco, questa è la condizione di qualsiasi informatico competente che ti ascolta: può decidere (come abbiamo fatto Stefano Quintarelli, Stefano Borroni Barale e Stefano Zacchiroli ed io) di metterti in discussione, può approfittare della tua ignoranza, usandoti per diffondere propaganda sul tema, o può ignorarti per scoramento. Personalmente oscillo fra la prima e la terza opzione perché a parlare a vanvera di informatica siete davvero in tanti. Ma esattamente come l'analfabeta del mio paragone, critichi la protezione dei dati cui sei stato programmato a rinunciare, non comprendendo che saresti il primo a beneficiarne se ti fosse permesso. Ad esempio, prendi questa frase:
i dati, rectius le informazioni, anche personali devono circolare santo cielo!
Le informazioni non circolano, se ne stanno chiuse in ciascuna delle nostre teste, come esperienze soggettive di pensiero comunicabile. L'unica cosa che può "circolare" sono i dati, rappresentazioni interpretabili impresse su un supporto trasferibile nello spazio o nel tempo. I dati si chiamano così perché possono essere dati a qualcuno, appunto. Le nostre menti si sincronizzano (in modo più o meno preciso a seconda di vari fattori) attraverso i dati che ci scambiamo esprimendoli ed interpretandoli. I dati possono essere espressi consapevolmente (tipicamente come contenuti) o emessi inconsapevolmente (appunto i dati personali). Tu li accomuni dicendo che "devono circolare santo cielo". Ti sei mai chiesto perché lo pensi? Perché _devono_ circolare? Cui prodest?
Sono la base della conoscenza,
Anzitutto, i dati sono il _veicolo_ della _cultura_, ma non necessariamente della conoscenza: i dati in circolazione possono tranquillamente essere falsi, come avvenne per secoli in tutti i testi in cui dottissimi studiosi discutevano sapientemente la teoria tolemaica dell'universo. E poi stai confondendo i dati emessi e i dati espressi dalle persone. I dati espressi dalle persone devono poter circolare perché esistono come espressione proprio per circolare. Ma chi ha detto che i dati emessi inconsapevolmente dalle persone debbano "circolare"? Perché mai dovrebbero, se sono stati registrati all'insaputa delle persone che le emettono? E credimi, non hanno (avete?) la minima consapevolezza della quantità e della qualità dei dati che vengono registrati ogni secondo da decine di organizzazioni quando si portano in giro un cellulare o navigano sul web. E non hanno (avete?) alcuna consapevolezza di come quei dati vengano usati per orientarne credenze, opinioni politiche, comportamenti e consumi.
anche quella delle macchine spara stronzate (frankfurtianamente)
Le macchine non conoscono e non apprendono. Non più di quanto conoscano o apprendano i libri. Ed è veramente frustrante doverlo ripetere continuamente anche a persone intelligenti come te. Un altro esempio, più corposo:
Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è incompatibile con il BigData (in allora il termine era una buzzword). Minimizzazione, limitazione della conservazione, stretta finalità...tutta roba contraria al valore informativo dei dati, ma per fortuna c'erano mille eccezioni, varianti e deroghe e soprattutto quei principi si potevano piegare, adattare e soprattutto i pochi che si occupavano di protezione dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile e recessivo, molto diverso dalla riservatezza (che quella sì se la passava già davvero male).
Puoi considerare la manipolazione individuale di miliardi di persone come una fortuna solo perché non hai idea (o non vuoi riconoscere) di esserne vittima in prima persona insieme a tutte le persone che ami, sia direttamente (se usi/usate uno smartphone comune), sia indirettamente (se vivi/vivete in uno stato dove persone che lo usano vivono, operano e votano). In un'altra mail poi scrivi:
La ragione e la forza del "nuovo" diritto per la protezione dei dati personali è soprattutto in relazione a dati privi di riservatezza e dunque anche quelli pubblici.
I dati pubblici sono la punta dell'iceberg, una frazione minima di quelli trattati e protetti dal GDPR. Purtroppo sono gli unici di cui tu hai consapevolezza, non essendo un informatico: per questo il diritto relativo alle espressioni (diritto d'autore) ti è molto più chiaro e ti appare più solido e comprensibile. Come poi una persona che si definisce liberale possa accettare la riduzione della libertà propria ed altrui (ancorché non attraverso costrizione fisica, ma menomazione intellettuale) mi sfugge completamente. Assumendo buona fede, l'unica spiegazione che mi riesco a dare è che tu non sia affatto consapevole di quanto le tue opinioni vengano costantemente e puntualmente orientate e che, fra queste opinioni eterodirette, vi sia la riduzione di tutto ciò che io ed altri abbiamo descritto a "complottismo". Ridurre tutta questa critica ad uno sfottò è miope e controproducente, perché mantiene te e chi ti ascolta in un'ignoranza presupponente utilissima a chi vi manipola. Spero quindi di essere stato più chiaro, eliminando qualsiasi ironia. Non considerarla, peraltro, una critica diretta a te solo, perché purtroppo di persone che parlano di informatica senza averne alcuna comprensione ce ne sono moltissime a tutti i livelli, filosofi, giornalisti, politici... Non si rendono conto di danneggiare sé stessi e i propri figli, di ridursi e ridurli a burattini, ad ingranaggi alienati di macchine controllate da altri. Poi ci sono quelli che lo comprendono e gli va bene così. Servi che non meritano sarcasmo, ma disprezzo. Giacomo
Il giorno ven 6 dic 2024 alle ore 10:37 Giacomo Tesio <giacomo@tesio.it> ha scritto:
Caro Carlo, ... Ecco, questa è la condizione di qualsiasi informatico competente che ti ascolta: può decidere (come abbiamo fatto Stefano Quintarelli, Stefano Borroni Barale e Stefano Zacchiroli ed io) di metterti in discussione, può approfittare della tua ignoranza, usandoti per diffondere propaganda sul tema, o può ignorarti per scoramento.
Personalmente oscillo fra la prima e la terza opzione perché a parlare a vanvera di informatica siete davvero in tanti.
Giacomo, Ti prego, opta per la terza opzione: ignorami, e lasciami nella mia consapevole ignoranza. Un abbraccio CB -- *Avv. Carlo Blengino* *Via Duchessa Jolanda n. 19,* *10138 Torino (TO) - Italy* *tel. +39 011 4474035* Penalistiassociati.it
On Fri, 6 Dec 2024 10:38:57 +0100 Carlo Blengino wrote:
Giacomo, Ti prego, opta per la terza opzione: ignorami, e lasciami nella mia consapevole ignoranza.
Lo faccio più spesso di quanto immagini (non solo con te, ovviamente). Talvolta però leggere certe sciocchezze mi risulta moralmente intollerabile. Le mie figlie vivranno nella società che contribuiamo a creare, anche con questi dibattiti. In tali occasioni, mi sento moralmente obbligato a rispondere. Se preferisci, però, posso tornare al consueto sarcasmo. ;-) Giacomo
Gentile Carlo, anzitutto mille grazie per aver chiarito il punto legale. Da turista del diritto avevo ovviamente compreso male, e credo che Nexa offra uno spazio prezioso a tutte coloro che amano arricchirsi con le conoscenze che provengono da campi che non sono il proprio. A me piacciono le tecnologie, poi nello scrivere di queste cose ho sviluppato una (malsana?) ammirazione per il lavoro dei cibernetici, che sono i "colpevoli", a mio modo di vedere, dell'approccio sub-simbolico all'Ai. Quindi provo a rispondere a questo specifico punto: Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i Salami non hanno alcun interesse per l'umanità, e che non meritano tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la governano. I problemi sono altri e necessitano di risposte diverse. Credo che metterla così rischi d'esser fuorviante. Ovviamente il problema non è tecnologico bensì politico. L'attuale "modo di esistenza" dei LLM crea quella che Lewis Mumford avrebbe definito "Authoritarian Technics". Non è l'unico "modo di esistenza" possibile. Ce ne sono molti altri (TATA, al solito). Uno possibile, che comunque non mi manderebbe in brodo di giuggiole, è l'approccio "democratico": la creazione di modelli generalisti diviene monopolio pubblico, in quanto -sotto stretto scrutinio della società con modi chiari e codificati legalmente tra cui trasparenza e accountability- solo lo stato è autorizzato a questo trattamento altamente pericoloso del dato in deroga al GDPR ai soli fini di ricerca. A tutte noi resterebbe la possibilità di cui è tanto preoccupata la OSI: quella di modificare il "comportamento" di un blob proprietario che tale sempre resterà per via del suo modo di esistenza inteso, sul piano tecnico, come "modo con cui sono reperiti e utilizzati i dati che ne inducono la programmazione statistica". Mi pare che sia l'idea che Morozov attribuisce ai "realisti" dell'Ai (cfr. articolo sul Boston Review passato in lista). Secondo me sarebbe una pessima idea dal punto di vista del software libero, della concentrazione del potere, dell'innovazione e del creare un'eccezione a un diritto che dovrebbe essere umano fondamentale (quello al controllo dei propri dati), soprattutto alla luce dell'uso che l'accademia fa del potere e visto quanto ormai sia prona agli appetiti dell'industria, ma _ottima_ dal punto di vista del principio democratico dei "poteri e contropoteri". A patto di chiamare le cose col loro nome: a quel punto avremmo un blob proprietario scaricabile ed eseguibile gratuitamente fornito dal monopolio pubblico a fini di ricerca e sviluppo. Sempre un notevole passo avanti rispetto alla situazione attuale di appropriazione indebita dei commons e dei dati privati da parte di (cinque/sei) privati senza alcun contraddittorio politico o conflitto sociale. Il potere assoluto non può essere nelle mani di un solo uomo, soprattutto se è un uomo con gravi problemi psichiatrici come Elon Musk o Sam Altman (entrambi evidenti casi clinici, del primo sappiamo bene anche i motivi, vista la biografia). Altra possibilità: provare a costruire dei LLM con dati interamente liberi e trasparenti per vedere se davvero sono tanto meno performanti del blob proprietario. In pratica partiremmo dal principio della libertà e del rispetto del diritto umano alla protezione dei dati personali e vedremmo cosa si può fare all'interno di quel contesto (guard-rail a priori invece che a posteriori). Lo so che questa idea pone sfide tecniche notevoli e non necessariamente destinate al successo ma... dove sta scritto che dev'essere semplice? Quasi nulla che abbia valore è semplice da ottenere (vedi i diritti dei lavoratori). Proseguendo poi la ricerca si potrebbe puntare a evitare la concentrazione tout-court (questa ipotesi, invece, mi manderebbe in brodo di giuggiole), sviluppando tecnologie che per funzionare non necessitino di masse così ingenti di dati così "sensibili" (perdonate il termine desueto/sbagliato), magari perché includono al loro interno un modello di mondo e affiancano all'approccio sub-simbolico un approccio simbolico. E' la direzione di molta ricerca: Yann Le Cun con la sua JEPA, per esempio, ma sono certo che in lista qualcuno sa fare altri esempi ancora più interessanti. Ovviamente tali ricerche dovrebbero essere condotte con il metodo scientifico (piena condivisione dei risultati, non mi dite "open" perché se no mi arrabbio: "alla maniera di Galilei" è più che sufficiente) cosa che al momento non mi pare essere la policy di Meta, Microsoft o tantomeno "Open" Ai. Riassumendo: potrebbe anche essere che l'approccio LLM sia da abbandonare del tutto. Ce lo potrebbe dire la ricerca pura, se la facessimo. Attualmente i modelli generalisti tipo Llama su cui fare "fine tuning" mi sembrano l'equivalente di quello che era il Kernel Unix per Stallman e il primo nucleo del progetto GNU, salvo per il fatto che non è detto sia possibile ottenere un Kernel interamente libero basato su questa tecnologia. Almeno in parte, ci siamo già passati. Il futuro è tutto da scrivere. Stefano Inviato con l'email sicura [Proton Mail](https://proton.me/mail/home). giovedì 5 dicembre 2024 00:41, Carlo Blengino <blengino@penalistiassociati.it> ha scritto:
Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di chiarire la mia affermazione, forse un po' troppo secca, sull'incompatibilità del GDPR, e anche di rispondere indirettamente alle considerazioni che precedono. Non mi riferivo infatti solo al problema del diritto alla cancellazione.
Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare servizi basati su RAG, ma se anche così fosse, e i dati non fossero utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si aprirebbero comunque infinite diatribe sulla corretta attribuzione dei ruoli di titolare e responsabile tra i diversi soggetti. Risolto faticosamente quello, il problema per cui un archivio pubblico come l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un fornitore per l'addestramento è vera, quale che sia la modalità di acquisizione (che sia con lo scraping o con accordi). Non ci sarà mai infatti per fini commeriali/imprenditoriali una base giuridica che legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari ex art. 10, circostanza questa che esclude il legittimo interesse. Solo che quella è l'unica possibilità di liceità del trattamento (il consenso ovviamente non è neppure pensabile), ed è già stata piegata e forzata fin troppo per i motori di ricerca dopo la sentenza Costeja Gonzales della ECJ. Per salvare il trattamento dei motori di ricerca quali titolari del trattamento sulla base del legittimo interesse si sono compiute capriole interpretative notevoli là dove tale base è recessiva rispetto al divieto di trattamento di dati particolari, ma lì era più facile e nessuno poteva vietare Google Search. Con gli LLM però non se ne esce, ed i tempi sono cambiati. Eppure gli archivi sono una fonte credo fondamentale e viene usata a man bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione. E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più consono alle privative legate alla proprietà intellettuale (altra normativa in frizione) che non al tema della protezione dati. Nel GDPR non esiste nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act, ma è riferito ad altro); i dati personali, a maggior ragione se pubblici, non sono di nessuno (il titolare è il titolare del trattamento, non dei dati, e l'interessato non possiede i suoi dati, può pretenderne la protezione, a determinate condizioni). E bene che sia così, perchè i dati, rectius le informazioni, anche personali devono circolare santo cielo! Sono la base della conoscenza, anche quella delle macchine spara stronzate (frankfurtianamente) Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un disastro per tutti, ma non perchè violino chissà quale diritto fondamentale dei cittadini o la protezione dei dati, ma perché generano delle privative e delle barriere economiche distorsive basate sul nulla, almeno sotto il profilo della data protection (a mio giudizio anche sotto il profilo della proprietà intellettuale, ma li le privative esistono davvero!).
E di situazioni così, di incompatibilità, è piena la strada delle tecnologie dell'informazione che necessitano della ruminazione di molte informazioni.
Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è incompatibile con il BigData (in allora il termine era una buzzword). Minimizzazione, limitazione della conservazione, stretta finalità...tutta roba contraria al valore informativo dei dati, ma per fortuna c'erano mille eccezioni, varianti e deroghe e soprattutto quei principi si potevano piegare, adattare e soprattutto i pochi che si occupavano di protezione dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile e recessivo, molto diverso dalla riservatezza (che quella sì se la passava già davvero male).
Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i Salami non hanno alcun interesse per l'umanità, e che non meritano tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la governano. I problemi sono altri e necessitano di risposte diverse.
Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma sono comunque sempre grato a tutti in questa lista per gli stimoli e le riflessioni che mi suscitate. CB
ne fondi il trattamento
Il giorno mer 4 dic 2024 alle ore 22:40 Guido Vetere <vetere.guido@gmail.com> ha scritto:
Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si possono cedere dati sensibili di cui si è responsabili, che i giornali pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono farne usi diversi senza il consenso degli interessati. Quindi la cessione sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere e smentire le notizie 'on the fly' come possono fare i giornali.
Il problema è che i LLM acquisiscono competenze linguistiche generali (ad es. quelle che servono per fare summarization) e fattuali (chi è David Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti progressi, tutto è più o meno fuso in un sol blocco.
Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented Generation (RAG). In questi casi, le competenze fattuali si trovano nei documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM spetta solo il compito di mettere in bella prosa alcuni passaggi informativi che non si trovano nel modello ma appunto in qualche testo leggibile e emendabile.
La notizia è che per questo esercizio bastano modelli relativamente piccoli, anche 'aperti', e non è impensabile che questi possano essere costruiti con dati 'puliti'. Nota a margine: quello che GEDI dice di voler fare, da quello che capisco, è esattamente un RAG, come quello che altre testate (es. Washington Post) stanno sperimentando. Non c'è davvero bisogno che OpenAI faccia training sul loro archivio.
G.
On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa <nexa@server-nexa.polito.it> wrote:
Ciao Carlo
On 02/12/24 23:55, Carlo Blengino wrote:
Grazie! Interessante leggere come da lontano vedano il GDPR e il diritto all'oblio (o quello che è). La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se interpretato restrittivamente non è compatibile con la tecnologia degli LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un totale contrasto, su più principi di base. E questo è un problema per l'Europa.
non mi pare. se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4 re-training del modello all'anno.
per l'azienda si tratta di trovare il punto di equilibrio costi/benefici rispetto alle dimensioni del proprio modello (e per il sistema, fare un po' di ricerca su metodi di ottimizzazione) https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gp...
d'altronde, anche il consorzio obbligatorio degli olii usati è una maggiorazione di costi per i meccanici... :-)
Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l- accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel- mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova (quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia chiaro, ma per altre ragioni) Aggiungo a scanso di equivoci, che questa considerazione non vuol dire a mio parere che vi sia incompatibilità tra queste tecnologie ed il sacrosanto diritto fondamentale alla protezione dei dati personali. CB
Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani <daniela.tafani@unipi.it <mailto:daniela.tafani@unipi.it>> ha scritto:
Dec 01, 2024 - Georg Zoeller (AILTI) The Curious Case of David Mayer, the man ChatGPT cannot name.
ChatGPT users have noticed a curious behavior: It refuses to talk about a 'David Mayer'. We have the explanation and point out less obvious implications.
TL;DR: While not a juicy conspiracy, OpenAI cut some corners on regulatory compliance and the implications are less benign than they seem. In fact, they can be weaponized with unexpected consequences.
ChatGPT is well known for not knowing when to stop talking - the underlying transformer architecture lends itself to hallucinations in situations when the model is asked to generate text beyond the context it was trained on. Even more curious, sometimes it starts giving a response, only to change its mind mid sentence, and terminating the conversation.
So naturally, when the software stops and refuses to answer, users take notice. In this case, ChatGPT users found that mention of the name “David Mayer”, whenever included in a message, would consistently cause the model to terminate the conversation.
It’s a conspiracy! Creating even more mystery, chatGPT rejection messages quickly move from unhelpful to ominously threatening when the user starts investigating the phenomenon.
Continua qui: <https://centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/ <https:// centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/>>
-- * * *Avv. Carlo Blengino* * * /Via Duchessa Jolanda n. 19,/ /10138 Torino (TO) - Italy/ /tel. +39 011 4474035/ Penalistiassociati.it //
-- You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
--
Avv. Carlo Blengino Via Duchessa Jolanda n. 19, 10138 Torino (TO) - Italy
tel. +39 011 4474035 Penalistiassociati.it
Solo a precisazione, a scanso di equivoci e imprecisioni: per finalità di ricerca il trattamento di dati personali anche "particolari" è ammesso ed anzi inventivato, con le dovute cautele. Tutto il GDPR e diverse normative UE spingono per l'apertura dei dati per la ricerca. Poi certo, nella complessità della catena del valore dei sistemi IA è tutto molto complesso... Il ven 6 dic 2024, 17:39 Stefano Borroni Barale <s.barale@erentil.net> ha scritto:
Gentile Carlo,
anzitutto mille grazie per aver chiarito il punto legale. Da turista del diritto avevo ovviamente compreso male, e credo che Nexa offra uno spazio prezioso a tutte coloro che amano arricchirsi con le conoscenze che provengono da campi che non sono il proprio. A me piacciono le tecnologie, poi nello scrivere di queste cose ho sviluppato una (malsana?) ammirazione per il lavoro dei cibernetici, che sono i "colpevoli", a mio modo di vedere, dell'approccio sub-simbolico all'Ai. Quindi provo a rispondere a questo specifico punto:
*Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i Salami non hanno alcun interesse per l'umanità, e che non meritano tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la governano. I problemi sono altri e necessitano di risposte diverse.*
Credo che metterla così rischi d'esser fuorviante. Ovviamente il problema non è tecnologico bensì politico. L'attuale "modo di esistenza" dei LLM crea quella che Lewis Mumford avrebbe definito "Authoritarian Technics". Non è l'unico "modo di esistenza" possibile.
Ce ne sono molti altri (TATA, al solito). Uno possibile, che comunque non mi manderebbe in brodo di giuggiole, è l'approccio "democratico": la creazione di modelli generalisti diviene monopolio pubblico, in quanto -sotto stretto scrutinio della società con modi chiari e codificati legalmente tra cui trasparenza e accountability- solo lo stato è autorizzato a questo trattamento altamente pericoloso del dato *in deroga* al GDPR ai soli fini di ricerca. A tutte noi resterebbe la possibilità di cui è tanto preoccupata la OSI: quella di modificare il "comportamento" di un *blob proprietario che tale sempre resterà per via del suo modo di esistenza *inteso, sul piano tecnico, come "modo con cui sono reperiti e utilizzati i dati che ne inducono la programmazione statistica". Mi pare che sia l'idea che Morozov attribuisce ai "realisti" dell'Ai (cfr. articolo sul Boston Review passato in lista).
Secondo me sarebbe una pessima idea dal punto di vista del software libero, della concentrazione del potere, dell'innovazione e del creare un'eccezione a un diritto che dovrebbe essere umano fondamentale (quello al controllo dei propri dati), soprattutto alla luce dell'uso che l'accademia fa del potere e visto quanto ormai sia prona agli appetiti dell'industria, ma _ottima_ dal punto di vista del principio democratico dei "poteri e contropoteri". A patto di chiamare le cose col loro nome: a quel punto avremmo un *blob proprietario scaricabile ed eseguibile gratuitamente fornito dal monopolio pubblico a fini di ricerca e sviluppo. *Sempre un notevole passo avanti rispetto alla situazione attuale di appropriazione indebita dei commons e dei dati privati da parte di (cinque/sei) privati senza alcun contraddittorio politico o conflitto sociale.
Il potere assoluto non può essere nelle mani di un solo uomo, soprattutto se è un uomo con gravi problemi psichiatrici come Elon Musk o Sam Altman (entrambi evidenti casi clinici, del primo sappiamo bene anche i motivi, vista la biografia).
Altra possibilità: provare a costruire dei LLM con dati interamente liberi e trasparenti per vedere se davvero sono tanto meno performanti del *blob proprietario. *In pratica partiremmo dal principio della libertà e del rispetto del diritto umano alla protezione dei dati personali e vedremmo cosa si può fare all'interno di quel contesto (guard-rail a priori invece che a posteriori). Lo so che questa idea pone sfide tecniche notevoli e non necessariamente destinate al successo ma... dove sta scritto che dev'essere semplice? Quasi nulla che abbia valore è semplice da ottenere (vedi i diritti dei lavoratori).
Proseguendo poi la ricerca si potrebbe puntare a evitare la concentrazione tout-court (questa ipotesi, invece, mi manderebbe in brodo di giuggiole), sviluppando tecnologie che per funzionare non necessitino di masse così ingenti di dati così "sensibili" (perdonate il termine desueto/sbagliato), magari perché includono al loro interno un modello di mondo e affiancano all'approccio sub-simbolico un approccio simbolico.
E' la direzione di molta ricerca: Yann Le Cun con la sua JEPA, per esempio, ma sono certo che in lista qualcuno sa fare altri esempi ancora più interessanti. Ovviamente tali ricerche dovrebbero essere condotte con il metodo scientifico (piena condivisione dei risultati, non mi dite "open" perché se no mi arrabbio: "alla maniera di Galilei" è più che sufficiente) cosa che al momento non mi pare essere la policy di Meta, Microsoft o tantomeno "Open" Ai.
Riassumendo: potrebbe anche essere che l'approccio LLM sia da abbandonare del tutto. Ce lo potrebbe dire la ricerca pura, se la facessimo. Attualmente i modelli generalisti tipo Llama su cui fare "fine tuning" mi sembrano l'equivalente di quello che era il Kernel Unix per Stallman e il primo nucleo del progetto GNU, salvo per il fatto che non è detto sia possibile ottenere un Kernel interamente libero basato su questa tecnologia.
Almeno in parte, ci siamo già passati. Il futuro è tutto da scrivere.
Stefano
Inviato con l'email sicura Proton Mail <https://proton.me/mail/home>.
giovedì 5 dicembre 2024 00:41, Carlo Blengino < blengino@penalistiassociati.it> ha scritto:
Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di chiarire la mia affermazione, forse un po' troppo secca, sull'incompatibilità del GDPR, e anche di rispondere indirettamente alle considerazioni che precedono. Non mi riferivo infatti solo al problema del diritto alla cancellazione.
Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare servizi basati su RAG, ma se anche così fosse, e i dati non fossero utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si aprirebbero comunque infinite diatribe sulla corretta attribuzione dei ruoli di titolare e responsabile tra i diversi soggetti. Risolto faticosamente quello, il problema per cui un archivio pubblico come l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un fornitore per l'addestramento è vera, quale che sia la modalità di acquisizione (che sia con lo scraping o con accordi). Non ci sarà mai infatti per fini commeriali/imprenditoriali una base giuridica che legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari ex art. 10, circostanza questa che esclude il legittimo interesse. Solo che quella è l'unica possibilità di liceità del trattamento (il consenso ovviamente non è neppure pensabile), ed è già stata piegata e forzata fin troppo per i motori di ricerca dopo la sentenza Costeja Gonzales della ECJ. Per salvare il trattamento dei motori di ricerca quali titolari del trattamento sulla base del legittimo interesse si sono compiute capriole interpretative notevoli là dove tale base è recessiva rispetto al divieto di trattamento di dati particolari, ma lì era più facile e nessuno poteva vietare Google Search. Con gli LLM però non se ne esce, ed i tempi sono cambiati. Eppure gli archivi sono una fonte credo fondamentale e viene usata a man bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione. E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più consono alle privative legate alla proprietà intellettuale (altra normativa in frizione) che non al tema della protezione dati. Nel GDPR non esiste nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act, ma è riferito ad altro); i dati personali, a maggior ragione se pubblici, non sono di nessuno (il titolare è il titolare del trattamento, non dei dati, e l'interessato non possiede i suoi dati, può pretenderne la protezione, a determinate condizioni). E bene che sia così, perchè i dati, rectius le informazioni, anche personali devono circolare santo cielo! Sono la base della conoscenza, anche quella delle macchine spara stronzate (frankfurtianamente) Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un disastro per tutti, ma non perchè violino chissà quale diritto fondamentale dei cittadini o la protezione dei dati, ma perché generano delle privative e delle barriere economiche distorsive basate sul nulla, almeno sotto il profilo della data protection (a mio giudizio anche sotto il profilo della proprietà intellettuale, ma li le privative esistono davvero!).
E di situazioni così, di incompatibilità, è piena la strada delle tecnologie dell'informazione che necessitano della ruminazione di molte informazioni.
Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è incompatibile con il BigData (in allora il termine era una buzzword). Minimizzazione, limitazione della conservazione, stretta finalità...tutta roba contraria al valore informativo dei dati, ma per fortuna c'erano mille eccezioni, varianti e deroghe e soprattutto quei principi si potevano piegare, adattare e soprattutto i pochi che si occupavano di protezione dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile e recessivo, molto diverso dalla riservatezza (che quella sì se la passava già davvero male).
Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i Salami non hanno alcun interesse per l'umanità, e che non meritano tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la governano. I problemi sono altri e necessitano di risposte diverse.
Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma sono comunque sempre grato a tutti in questa lista per gli stimoli e le riflessioni che mi suscitate. CB
ne fondi il trattamento
Il giorno mer 4 dic 2024 alle ore 22:40 Guido Vetere < vetere.guido@gmail.com> ha scritto:
Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si possono cedere dati sensibili di cui si è responsabili, che i giornali pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono farne usi diversi senza il consenso degli interessati. Quindi la cessione sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere e smentire le notizie 'on the fly' come possono fare i giornali.
Il problema è che i LLM acquisiscono competenze linguistiche generali (ad es. quelle che servono per fare summarization) e fattuali (chi è David Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti progressi, tutto è più o meno fuso in un sol blocco.
Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented Generation (RAG). In questi casi, le competenze fattuali si trovano nei documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM spetta solo il compito di mettere in bella prosa alcuni passaggi informativi che non si trovano nel modello ma appunto in qualche testo leggibile e emendabile.
La notizia è che per questo esercizio bastano modelli relativamente piccoli, anche 'aperti', e non è impensabile che questi possano essere costruiti con dati 'puliti'. Nota a margine: quello che GEDI dice di voler fare, da quello che capisco, è esattamente un RAG, come quello che altre testate (es. Washington Post) stanno sperimentando. Non c'è davvero bisogno che OpenAI faccia training sul loro archivio.
G.
On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa < nexa@server-nexa.polito.it> wrote:
Ciao Carlo
On 02/12/24 23:55, Carlo Blengino wrote:
Grazie! Interessante leggere come da lontano vedano il GDPR e il diritto all'oblio (o quello che è). La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se interpretato restrittivamente non è compatibile con la tecnologia degli LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un totale contrasto, su più principi di base. E questo è un problema per l'Europa.
non mi pare. se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4 re-training del modello all'anno.
per l'azienda si tratta di trovare il punto di equilibrio costi/benefici rispetto alle dimensioni del proprio modello (e per il sistema, fare un po' di ricerca su metodi di ottimizzazione)
https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gp...
d'altronde, anche il consorzio obbligatorio degli olii usati è una maggiorazione di costi per i meccanici... :-)
Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l- accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel- mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova (quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia chiaro, ma per altre ragioni) Aggiungo a scanso di equivoci, che questa considerazione non vuol dire a mio parere che vi sia incompatibilità tra queste tecnologie ed il sacrosanto diritto fondamentale alla protezione dei dati personali. CB
Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani <daniela.tafani@unipi.it <mailto:daniela.tafani@unipi.it>> ha scritto:
Dec 01, 2024 - Georg Zoeller (AILTI) The Curious Case of David Mayer, the man ChatGPT cannot name.
ChatGPT users have noticed a curious behavior: It refuses to talk about a 'David Mayer'. We have the explanation and point out less obvious implications.
TL;DR: While not a juicy conspiracy, OpenAI cut some corners on regulatory compliance and the implications are less benign than they seem. In fact, they can be weaponized with unexpected consequences.
ChatGPT is well known for not knowing when to stop talking - the underlying transformer architecture lends itself to hallucinations in situations when the model is asked to generate text beyond the context it was trained on. Even more curious, sometimes it starts giving a response, only to change its mind mid sentence, and terminating the conversation.
So naturally, when the software stops and refuses to answer, users take notice. In this case, ChatGPT users found that mention of the name “David Mayer”, whenever included in a message, would consistently cause the model to terminate the conversation.
It’s a conspiracy! Creating even more mystery, chatGPT rejection messages quickly move from unhelpful to ominously threatening when the user starts investigating the phenomenon.
Continua qui: <https://centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/ <https:// centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/>>
-- * * *Avv. Carlo Blengino* * * /Via Duchessa Jolanda n. 19,/ <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F...>
<https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F10138+Torino+(TO)+-+Italy?entry=gmail&source=g>> /10138 Torino (TO) - Italy <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F...> /
/tel. +39 011 4474035/ Penalistiassociati.it //
-- You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
-- *Avv. Carlo Blengino* *Via Duchessa Jolanda n. 19, <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>* *10138 Torino (TO) - Italy <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>* *tel. +39 011 4474035* Penalistiassociati.it
Si, mi pare complesso assai. Mi era parso di comprendere che il problema dei LLM fosse che per crearli bisognasse per forza violare il GDPR, ma se le cose non stanno così... non vedo più il conflitto che sembrava emergere dal post iniziale (del tipo "o GDPR o LLM!"). Per di più la nuova Ai directive limita le cose che si possono fare con l'Ai, ma non per i progetti "open source" (qualsiasi cosa abbia finito per significare, vista la 'deriva' della OSAID). Mi pare siamo di nuovo al punto di partenza. Le uniche certezze che ho sono: 1. l'approccio all'Ai generativa dei LLM non è detto che sopravviva a questa ondata di hype; 2. ho seri dubbi che, a prescindere dall'hype, sia in grado di offrirci applicazioni pratiche realmente utili; 3. anche se lo fosse resterebbero gli enormi problemi di sostenibilità ecologica, sociale, politica, informazionale. Quindi mi pare che la ricerca nel campo degli agenti cibernetici automatici dovrebbe smetterla di mettere tutte le sue uova nel paniere dei LLM e cominciare a guardarsi attorno: magari ci sono frutti da cogliere solo qualche metro più in là, miscelando approcci differenti. Se anche non fosse così, in generale la scienza può solo guadagnare dal proliferare dei modelli (sub-simbolici, simbolici, mixati, etc) in competizione (di nuovo Feyerabend, "Contro il metodo"). Per inciso, la ricerca andrebbe finanziata con soldi pubblici (non come adesso), meglio se recuperando i soldi dalle tasse fatte pagare alle megacorp che hanno già lucrato abbastanza evadendo in tutti i modi possibili e immaginabili. Stefano Inviato da Proton Mail Android -------- Messaggio originale -------- 06/12/24 18:57, Carlo Blengino ha scritto:
Solo a precisazione, a scanso di equivoci e imprecisioni: per finalità di ricerca il trattamento di dati personali anche "particolari" è ammesso ed anzi inventivato, con le dovute cautele. Tutto il GDPR e diverse normative UE spingono per l'apertura dei dati per la ricerca. Poi certo, nella complessità della catena del valore dei sistemi IA è tutto molto complesso...
Il ven 6 dic 2024, 17:39 Stefano Borroni Barale <s.barale@erentil.net> ha scritto:
Gentile Carlo,
anzitutto mille grazie per aver chiarito il punto legale. Da turista del diritto avevo ovviamente compreso male, e credo che Nexa offra uno spazio prezioso a tutte coloro che amano arricchirsi con le conoscenze che provengono da campi che non sono il proprio. A me piacciono le tecnologie, poi nello scrivere di queste cose ho sviluppato una (malsana?) ammirazione per il lavoro dei cibernetici, che sono i "colpevoli", a mio modo di vedere, dell'approccio sub-simbolico all'Ai. Quindi provo a rispondere a questo specifico punto:
Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i Salami non hanno alcun interesse per l'umanità, e che non meritano tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la governano. I problemi sono altri e necessitano di risposte diverse.
Credo che metterla così rischi d'esser fuorviante. Ovviamente il problema non è tecnologico bensì politico. L'attuale "modo di esistenza" dei LLM crea quella che Lewis Mumford avrebbe definito "Authoritarian Technics". Non è l'unico "modo di esistenza" possibile.
Ce ne sono molti altri (TATA, al solito). Uno possibile, che comunque non mi manderebbe in brodo di giuggiole, è l'approccio "democratico": la creazione di modelli generalisti diviene monopolio pubblico, in quanto -sotto stretto scrutinio della società con modi chiari e codificati legalmente tra cui trasparenza e accountability- solo lo stato è autorizzato a questo trattamento altamente pericoloso del dato in deroga al GDPR ai soli fini di ricerca. A tutte noi resterebbe la possibilità di cui è tanto preoccupata la OSI: quella di modificare il "comportamento" di un blob proprietario che tale sempre resterà per via del suo modo di esistenza inteso, sul piano tecnico, come "modo con cui sono reperiti e utilizzati i dati che ne inducono la programmazione statistica". Mi pare che sia l'idea che Morozov attribuisce ai "realisti" dell'Ai (cfr. articolo sul Boston Review passato in lista).
Secondo me sarebbe una pessima idea dal punto di vista del software libero, della concentrazione del potere, dell'innovazione e del creare un'eccezione a un diritto che dovrebbe essere umano fondamentale (quello al controllo dei propri dati), soprattutto alla luce dell'uso che l'accademia fa del potere e visto quanto ormai sia prona agli appetiti dell'industria, ma _ottima_ dal punto di vista del principio democratico dei "poteri e contropoteri". A patto di chiamare le cose col loro nome: a quel punto avremmo un blob proprietario scaricabile ed eseguibile gratuitamente fornito dal monopolio pubblico a fini di ricerca e sviluppo. Sempre un notevole passo avanti rispetto alla situazione attuale di appropriazione indebita dei commons e dei dati privati da parte di (cinque/sei) privati senza alcun contraddittorio politico o conflitto sociale.
Il potere assoluto non può essere nelle mani di un solo uomo, soprattutto se è un uomo con gravi problemi psichiatrici come Elon Musk o Sam Altman (entrambi evidenti casi clinici, del primo sappiamo bene anche i motivi, vista la biografia).
Altra possibilità: provare a costruire dei LLM con dati interamente liberi e trasparenti per vedere se davvero sono tanto meno performanti del blob proprietario. In pratica partiremmo dal principio della libertà e del rispetto del diritto umano alla protezione dei dati personali e vedremmo cosa si può fare all'interno di quel contesto (guard-rail a priori invece che a posteriori). Lo so che questa idea pone sfide tecniche notevoli e non necessariamente destinate al successo ma... dove sta scritto che dev'essere semplice? Quasi nulla che abbia valore è semplice da ottenere (vedi i diritti dei lavoratori).
Proseguendo poi la ricerca si potrebbe puntare a evitare la concentrazione tout-court (questa ipotesi, invece, mi manderebbe in brodo di giuggiole), sviluppando tecnologie che per funzionare non necessitino di masse così ingenti di dati così "sensibili" (perdonate il termine desueto/sbagliato), magari perché includono al loro interno un modello di mondo e affiancano all'approccio sub-simbolico un approccio simbolico.
E' la direzione di molta ricerca: Yann Le Cun con la sua JEPA, per esempio, ma sono certo che in lista qualcuno sa fare altri esempi ancora più interessanti. Ovviamente tali ricerche dovrebbero essere condotte con il metodo scientifico (piena condivisione dei risultati, non mi dite "open" perché se no mi arrabbio: "alla maniera di Galilei" è più che sufficiente) cosa che al momento non mi pare essere la policy di Meta, Microsoft o tantomeno "Open" Ai.
Riassumendo: potrebbe anche essere che l'approccio LLM sia da abbandonare del tutto. Ce lo potrebbe dire la ricerca pura, se la facessimo. Attualmente i modelli generalisti tipo Llama su cui fare "fine tuning" mi sembrano l'equivalente di quello che era il Kernel Unix per Stallman e il primo nucleo del progetto GNU, salvo per il fatto che non è detto sia possibile ottenere un Kernel interamente libero basato su questa tecnologia.
Almeno in parte, ci siamo già passati. Il futuro è tutto da scrivere.
Stefano
Inviato con l'email sicura [Proton Mail](https://proton.me/mail/home).
giovedì 5 dicembre 2024 00:41, Carlo Blengino <blengino@penalistiassociati.it> ha scritto:
Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di chiarire la mia affermazione, forse un po' troppo secca, sull'incompatibilità del GDPR, e anche di rispondere indirettamente alle considerazioni che precedono. Non mi riferivo infatti solo al problema del diritto alla cancellazione.
Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare servizi basati su RAG, ma se anche così fosse, e i dati non fossero utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si aprirebbero comunque infinite diatribe sulla corretta attribuzione dei ruoli di titolare e responsabile tra i diversi soggetti. Risolto faticosamente quello, il problema per cui un archivio pubblico come l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un fornitore per l'addestramento è vera, quale che sia la modalità di acquisizione (che sia con lo scraping o con accordi). Non ci sarà mai infatti per fini commeriali/imprenditoriali una base giuridica che legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari ex art. 10, circostanza questa che esclude il legittimo interesse. Solo che quella è l'unica possibilità di liceità del trattamento (il consenso ovviamente non è neppure pensabile), ed è già stata piegata e forzata fin troppo per i motori di ricerca dopo la sentenza Costeja Gonzales della ECJ. Per salvare il trattamento dei motori di ricerca quali titolari del trattamento sulla base del legittimo interesse si sono compiute capriole interpretative notevoli là dove tale base è recessiva rispetto al divieto di trattamento di dati particolari, ma lì era più facile e nessuno poteva vietare Google Search. Con gli LLM però non se ne esce, ed i tempi sono cambiati. Eppure gli archivi sono una fonte credo fondamentale e viene usata a man bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione. E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più consono alle privative legate alla proprietà intellettuale (altra normativa in frizione) che non al tema della protezione dati. Nel GDPR non esiste nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act, ma è riferito ad altro); i dati personali, a maggior ragione se pubblici, non sono di nessuno (il titolare è il titolare del trattamento, non dei dati, e l'interessato non possiede i suoi dati, può pretenderne la protezione, a determinate condizioni). E bene che sia così, perchè i dati, rectius le informazioni, anche personali devono circolare santo cielo! Sono la base della conoscenza, anche quella delle macchine spara stronzate (frankfurtianamente) Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un disastro per tutti, ma non perchè violino chissà quale diritto fondamentale dei cittadini o la protezione dei dati, ma perché generano delle privative e delle barriere economiche distorsive basate sul nulla, almeno sotto il profilo della data protection (a mio giudizio anche sotto il profilo della proprietà intellettuale, ma li le privative esistono davvero!).
E di situazioni così, di incompatibilità, è piena la strada delle tecnologie dell'informazione che necessitano della ruminazione di molte informazioni.
Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è incompatibile con il BigData (in allora il termine era una buzzword). Minimizzazione, limitazione della conservazione, stretta finalità...tutta roba contraria al valore informativo dei dati, ma per fortuna c'erano mille eccezioni, varianti e deroghe e soprattutto quei principi si potevano piegare, adattare e soprattutto i pochi che si occupavano di protezione dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile e recessivo, molto diverso dalla riservatezza (che quella sì se la passava già davvero male).
Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i Salami non hanno alcun interesse per l'umanità, e che non meritano tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la governano. I problemi sono altri e necessitano di risposte diverse.
Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma sono comunque sempre grato a tutti in questa lista per gli stimoli e le riflessioni che mi suscitate. CB
ne fondi il trattamento
Il giorno mer 4 dic 2024 alle ore 22:40 Guido Vetere <vetere.guido@gmail.com> ha scritto:
Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si possono cedere dati sensibili di cui si è responsabili, che i giornali pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono farne usi diversi senza il consenso degli interessati. Quindi la cessione sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere e smentire le notizie 'on the fly' come possono fare i giornali.
Il problema è che i LLM acquisiscono competenze linguistiche generali (ad es. quelle che servono per fare summarization) e fattuali (chi è David Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti progressi, tutto è più o meno fuso in un sol blocco.
Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented Generation (RAG). In questi casi, le competenze fattuali si trovano nei documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM spetta solo il compito di mettere in bella prosa alcuni passaggi informativi che non si trovano nel modello ma appunto in qualche testo leggibile e emendabile.
La notizia è che per questo esercizio bastano modelli relativamente piccoli, anche 'aperti', e non è impensabile che questi possano essere costruiti con dati 'puliti'. Nota a margine: quello che GEDI dice di voler fare, da quello che capisco, è esattamente un RAG, come quello che altre testate (es. Washington Post) stanno sperimentando. Non c'è davvero bisogno che OpenAI faccia training sul loro archivio.
G.
On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa <nexa@server-nexa.polito.it> wrote:
Ciao Carlo
On 02/12/24 23:55, Carlo Blengino wrote:
Grazie! Interessante leggere come da lontano vedano il GDPR e il diritto all'oblio (o quello che è). La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se interpretato restrittivamente non è compatibile con la tecnologia degli LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un totale contrasto, su più principi di base. E questo è un problema per l'Europa.
non mi pare. se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4 re-training del modello all'anno.
per l'azienda si tratta di trovare il punto di equilibrio costi/benefici rispetto alle dimensioni del proprio modello (e per il sistema, fare un po' di ricerca su metodi di ottimizzazione) https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gp...
d'altronde, anche il consorzio obbligatorio degli olii usati è una maggiorazione di costi per i meccanici... :-)
Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l- accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel- mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova (quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia chiaro, ma per altre ragioni) Aggiungo a scanso di equivoci, che questa considerazione non vuol dire a mio parere che vi sia incompatibilità tra queste tecnologie ed il sacrosanto diritto fondamentale alla protezione dei dati personali. CB
Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani <daniela.tafani@unipi.it <mailto:daniela.tafani@unipi.it>> ha scritto:
Dec 01, 2024 - Georg Zoeller (AILTI) The Curious Case of David Mayer, the man ChatGPT cannot name.
ChatGPT users have noticed a curious behavior: It refuses to talk about a 'David Mayer'. We have the explanation and point out less obvious implications.
TL;DR: While not a juicy conspiracy, OpenAI cut some corners on regulatory compliance and the implications are less benign than they seem. In fact, they can be weaponized with unexpected consequences.
ChatGPT is well known for not knowing when to stop talking - the underlying transformer architecture lends itself to hallucinations in situations when the model is asked to generate text beyond the context it was trained on. Even more curious, sometimes it starts giving a response, only to change its mind mid sentence, and terminating the conversation.
So naturally, when the software stops and refuses to answer, users take notice. In this case, ChatGPT users found that mention of the name “David Mayer”, whenever included in a message, would consistently cause the model to terminate the conversation.
It’s a conspiracy! Creating even more mystery, chatGPT rejection messages quickly move from unhelpful to ominously threatening when the user starts investigating the phenomenon.
Continua qui: <https://centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/ <https:// centreforaileadership.org/resources/ analysis_the_curious_case_of_one_david_mayer/>>
-- * * *Avv. Carlo Blengino* * * /[Via Duchessa Jolanda n. 19,/](https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F...) https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F...> [/10138 Torino (TO) - Italy](https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F... /tel. +39 011 4474035/ Penalistiassociati.it //
-- You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
--
Avv. Carlo Blengino [Via Duchessa Jolanda n. 19,](https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+...) [10138 Torino (TO) - Italy](https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+...)
tel. +39 011 4474035 Penalistiassociati.it
participants (9)
-
380° -
Andrea Bolioli -
Carlo Blengino -
Daniela Tafani -
Giacomo Tesio -
Guido Vetere -
Stefano Borroni Barale -
Stefano Quintarelli -
Stefano Zacchiroli