Re: [nexa] The Curious Case of David Mayer, the man ChatGPT cannot name

Dec. 7, 2024

      Si, mi pare complesso assai.

Mi era parso di comprendere che il problema dei LLM fosse che per crearli bisognasse per forza violare il GDPR, ma se le cose non stanno così... non vedo più il conflitto che sembrava emergere dal post iniziale (del tipo "o GDPR o LLM!").

Per di più la nuova Ai directive limita le cose che si possono fare con l'Ai, ma non per i progetti "open source" (qualsiasi cosa abbia finito per significare, vista la 'deriva' della OSAID). Mi pare siamo di nuovo al punto di partenza.

Le uniche certezze che ho sono:

1. l'approccio all'Ai generativa dei LLM non è detto che sopravviva a questa ondata di hype;
2. ho seri dubbi che, a prescindere dall'hype, sia in grado di offrirci applicazioni pratiche realmente utili;
3. anche se lo fosse resterebbero gli enormi problemi di sostenibilità ecologica, sociale, politica, informazionale.

Quindi mi pare che la ricerca nel campo degli agenti cibernetici automatici dovrebbe smetterla di mettere tutte le sue uova nel paniere dei LLM e cominciare a guardarsi attorno: magari ci sono frutti da cogliere solo qualche metro più in là, miscelando approcci differenti.

Se anche non fosse così, in generale la scienza può solo guadagnare dal proliferare dei modelli (sub-simbolici, simbolici, mixati, etc) in competizione (di nuovo Feyerabend, "Contro il metodo").

Per inciso, la ricerca andrebbe finanziata con soldi pubblici (non come adesso), meglio se recuperando i soldi dalle tasse fatte pagare alle megacorp che hanno già lucrato abbastanza evadendo in tutti i modi possibili e immaginabili.

Stefano

Inviato da Proton Mail Android

-------- Messaggio originale --------
06/12/24 18:57, Carlo Blengino ha scritto:
...
Solo a precisazione, a scanso di equivoci e imprecisioni: per finalità di ricerca il trattamento di dati personali anche "particolari" è ammesso ed anzi inventivato, con le dovute cautele. Tutto il GDPR e diverse normative UE spingono per l'apertura dei dati per la ricerca. Poi certo, nella complessità della catena del valore dei sistemi IA è tutto molto complesso...
Il ven 6 dic 2024, 17:39 Stefano Borroni Barale <s.barale@erentil.net> ha scritto:
...
Gentile Carlo,
anzitutto mille grazie per aver chiarito il punto legale. Da turista del diritto avevo ovviamente compreso male, e credo che Nexa offra uno spazio prezioso a tutte coloro che amano arricchirsi con le conoscenze che provengono da campi che non sono il proprio.
A me piacciono le tecnologie, poi nello scrivere di queste cose ho sviluppato una (malsana?) ammirazione per il lavoro dei cibernetici, che sono i "colpevoli", a mio modo di vedere, dell'approccio sub-simbolico all'Ai. Quindi provo a rispondere a questo specifico punto:
Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i Salami non hanno alcun interesse per l'umanità, e che non meritano tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la governano. I problemi sono altri e necessitano di risposte diverse.
Credo che metterla così rischi d'esser fuorviante. Ovviamente il problema non è tecnologico bensì politico. L'attuale "modo di esistenza" dei LLM crea quella che Lewis Mumford avrebbe definito "Authoritarian Technics". Non è l'unico "modo di esistenza" possibile.
Ce ne sono molti altri (TATA, al solito). Uno possibile, che comunque non mi manderebbe in brodo di giuggiole, è l'approccio "democratico": la creazione di modelli generalisti diviene monopolio pubblico, in quanto -sotto stretto scrutinio della società con modi chiari e codificati legalmente tra cui trasparenza e accountability- solo lo stato è autorizzato a questo trattamento altamente pericoloso del dato in deroga al GDPR ai soli fini di ricerca.
A tutte noi resterebbe la possibilità di cui è tanto preoccupata la OSI: quella di modificare il "comportamento" di un blob proprietario che tale sempre resterà per via del suo modo di esistenza inteso, sul piano tecnico, come "modo con cui sono reperiti e utilizzati i dati che ne inducono la programmazione statistica". Mi pare che sia l'idea che Morozov attribuisce ai "realisti" dell'Ai (cfr. articolo sul Boston Review passato in lista).
Secondo me sarebbe una pessima idea dal punto di vista del software libero, della concentrazione del potere, dell'innovazione e del creare un'eccezione a un diritto che dovrebbe essere umano fondamentale (quello al controllo dei propri dati), soprattutto alla luce dell'uso che l'accademia fa del potere e visto quanto ormai sia prona agli appetiti dell'industria, ma _ottima_ dal punto di vista del principio democratico dei "poteri e contropoteri". A patto di chiamare le cose col loro nome: a quel punto avremmo un blob proprietario scaricabile ed eseguibile gratuitamente fornito dal monopolio pubblico a fini di ricerca e sviluppo. Sempre un notevole passo avanti rispetto alla situazione attuale di appropriazione indebita dei commons e dei dati privati da parte di (cinque/sei) privati senza alcun contraddittorio politico o conflitto sociale.
Il potere assoluto non può essere nelle mani di un solo uomo, soprattutto se è un uomo con gravi problemi psichiatrici come Elon Musk o Sam Altman (entrambi evidenti casi clinici, del primo sappiamo bene anche i motivi, vista la biografia).
Altra possibilità: provare a costruire dei LLM con dati interamente liberi e trasparenti per vedere se davvero sono tanto meno performanti del blob proprietario. In pratica partiremmo dal principio della libertà e del rispetto del diritto umano alla protezione dei dati personali e vedremmo cosa si può fare all'interno di quel contesto (guard-rail a priori invece che a posteriori). Lo so che questa idea pone sfide tecniche notevoli e non necessariamente destinate al successo ma... dove sta scritto che dev'essere semplice? Quasi nulla che abbia valore è semplice da ottenere (vedi i diritti dei lavoratori).
Proseguendo poi la ricerca si potrebbe puntare a evitare la concentrazione tout-court (questa ipotesi, invece, mi manderebbe in brodo di giuggiole), sviluppando tecnologie che per funzionare non necessitino di masse così ingenti di dati così "sensibili" (perdonate il termine desueto/sbagliato), magari perché includono al loro interno un modello di mondo e affiancano all'approccio sub-simbolico un approccio simbolico.
E' la direzione di molta ricerca: Yann Le Cun con la sua JEPA, per esempio, ma sono certo che in lista qualcuno sa fare altri esempi ancora più interessanti. Ovviamente tali ricerche dovrebbero essere condotte con il metodo scientifico (piena condivisione dei risultati, non mi dite "open" perché se no mi arrabbio: "alla maniera di Galilei" è più che sufficiente) cosa che al momento non mi pare essere la policy di Meta, Microsoft o tantomeno "Open" Ai.
Riassumendo: potrebbe anche essere che l'approccio LLM sia da abbandonare del tutto. Ce lo potrebbe dire la ricerca pura, se la facessimo. Attualmente i modelli generalisti tipo Llama su cui fare "fine tuning" mi sembrano l'equivalente di quello che era il Kernel Unix per Stallman e il primo nucleo del progetto GNU, salvo per il fatto che non è detto sia possibile ottenere un Kernel interamente libero basato su questa tecnologia.
Almeno in parte, ci siamo già passati. Il futuro è tutto da scrivere.
Stefano
Inviato con l'email sicura [Proton Mail](https://proton.me/mail/home).
giovedì 5 dicembre 2024 00:41, Carlo Blengino <blengino@penalistiassociati.it> ha scritto:
...
Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di chiarire la mia affermazione, forse un po' troppo secca, sull'incompatibilità del GDPR, e anche di rispondere indirettamente alle considerazioni che precedono. Non mi riferivo infatti solo al problema del diritto alla cancellazione.
Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare servizi basati su RAG, ma se anche così fosse, e i dati non fossero utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si aprirebbero comunque infinite diatribe sulla corretta attribuzione dei ruoli di titolare e responsabile tra i diversi soggetti. Risolto faticosamente quello, il problema per cui un archivio pubblico come l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un fornitore per l'addestramento è vera, quale che sia la modalità di acquisizione (che sia con lo scraping o con accordi). Non ci sarà mai infatti per fini commeriali/imprenditoriali una base giuridica che legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari ex art. 10, circostanza questa che esclude il legittimo interesse. Solo che quella è l'unica possibilità di liceità del trattamento (il consenso ovviamente non è neppure pensabile), ed è già stata piegata e forzata fin troppo per i motori di ricerca dopo la sentenza Costeja Gonzales della ECJ. Per salvare il trattamento dei motori di ricerca quali titolari del trattamento sulla base del legittimo interesse si sono compiute capriole interpretative notevoli là dove tale base è recessiva rispetto al divieto di trattamento di dati particolari, ma lì era più facile e nessuno poteva vietare Google Search.
Con gli LLM però non se ne esce, ed i tempi sono cambiati.
Eppure gli archivi sono una fonte credo fondamentale e viene usata a man bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione.
E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più consono alle privative legate alla proprietà intellettuale (altra normativa in frizione) che non al tema della protezione dati. Nel GDPR non esiste nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act, ma è riferito ad altro); i dati personali, a maggior ragione se pubblici, non sono di nessuno (il titolare è il titolare del trattamento, non dei dati, e l'interessato non possiede i suoi dati, può pretenderne la protezione, a determinate condizioni). E bene che sia così, perchè i dati, rectius le informazioni, anche personali devono circolare santo cielo! Sono la base della conoscenza, anche quella delle macchine spara stronzate (frankfurtianamente)
Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un disastro per tutti, ma non perchè violino chissà quale diritto fondamentale dei cittadini o la protezione dei dati, ma perché generano delle privative e delle barriere economiche distorsive basate sul nulla, almeno sotto il profilo della data protection (a mio giudizio anche sotto il profilo della proprietà intellettuale, ma li le privative esistono davvero!).
E di situazioni così, di incompatibilità, è piena la strada delle tecnologie dell'informazione che necessitano della ruminazione di molte informazioni.
Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è incompatibile con il BigData (in allora il termine era una buzzword). Minimizzazione, limitazione della conservazione, stretta finalità...tutta roba contraria al valore informativo dei dati, ma per fortuna c'erano mille eccezioni, varianti e deroghe e soprattutto quei principi si potevano piegare, adattare e soprattutto i pochi che si occupavano di protezione dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile e recessivo, molto diverso dalla riservatezza (che quella sì se la passava già davvero male).
Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i Salami non hanno alcun interesse per l'umanità, e che non meritano tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la governano. I problemi sono altri e necessitano di risposte diverse.
Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma sono comunque sempre grato a tutti in questa lista per gli stimoli e le riflessioni che mi suscitate.
CB
ne fondi il trattamento
Il giorno mer 4 dic 2024 alle ore 22:40 Guido Vetere <vetere.guido@gmail.com> ha scritto:
...
Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si possono cedere dati sensibili di cui si è responsabili, che i giornali pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono farne usi diversi senza il consenso degli interessati. Quindi la cessione sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere e smentire le notizie 'on the fly' come possono fare i giornali.
Il problema è che i LLM acquisiscono competenze linguistiche generali (ad es. quelle che servono per fare summarization) e fattuali (chi è David Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti progressi, tutto è più o meno fuso in un sol blocco.
Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented Generation (RAG). In questi casi, le competenze fattuali si trovano nei documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM spetta solo il compito di mettere in bella prosa alcuni passaggi informativi che non si trovano nel modello ma appunto in qualche testo leggibile e emendabile.
La notizia è che per questo esercizio bastano modelli relativamente piccoli, anche 'aperti', e non è impensabile che questi possano essere costruiti con dati 'puliti'.
Nota a margine: quello che GEDI dice di voler fare, da quello che capisco, è esattamente un RAG, come quello che altre testate (es. Washington Post) stanno sperimentando. Non c'è davvero bisogno che OpenAI faccia training sul loro archivio.
G.
On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa <nexa@server-nexa.polito.it> wrote:
...
Ciao Carlo
On 02/12/24 23:55, Carlo Blengino wrote:
...
Grazie!
Interessante leggere come da lontano vedano il GDPR e il diritto
all'oblio (o quello che è).
La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se
interpretato restrittivamente non è compatibile con la tecnologia degli
LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un
totale contrasto, su più principi di base. E questo è un problema per
l'Europa.
non mi pare.
se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4
re-training del modello all'anno.
per l'azienda si tratta di trovare il punto di equilibrio costi/benefici
rispetto alle dimensioni del proprio modello (e per il sistema, fare un
po' di ricerca su metodi di ottimizzazione)
https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gp...
d'altronde, anche il consorzio obbligatorio degli olii usati è una
maggiorazione di costi per i meccanici...
:-)
...
Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l-
accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel-
mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova
(quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia
chiaro, ma per altre ragioni)
Aggiungo a scanso di equivoci, che questa considerazione non vuol dire a
mio parere che vi sia incompatibilità tra queste tecnologie ed il
sacrosanto diritto fondamentale alla protezione dei dati personali.
CB
Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani
<daniela.tafani@unipi.it <mailto:daniela.tafani@unipi.it>> ha scritto:
Dec 01, 2024 - Georg Zoeller (AILTI)
The Curious Case of David Mayer, the man ChatGPT cannot name.
ChatGPT users have noticed a curious behavior: It refuses to talk
about a 'David Mayer'. We have the explanation and point out less
obvious implications.
TL;DR: While not a juicy conspiracy, OpenAI cut some corners on
regulatory compliance and the implications are less benign than they
seem. In fact, they can be weaponized with unexpected consequences.
ChatGPT is well known for not knowing when to stop talking - the
underlying transformer architecture lends itself to hallucinations
in situations when the model is asked to generate text beyond the
context it was trained on. Even more curious, sometimes it starts
giving a response, only to change its mind mid sentence, and
terminating the conversation.
So naturally, when the software stops and refuses to answer, users
take notice. In this case, ChatGPT users found that mention of the
name “David Mayer”, whenever included in a message, would
consistently cause the model to terminate the conversation.
It’s a conspiracy!
Creating even more mystery, chatGPT rejection messages quickly move
from unhelpful to ominously threatening when the user starts
investigating the phenomenon.
Continua qui:
<https://centreforaileadership.org/resources/
analysis_the_curious_case_of_one_david_mayer/ <https://
centreforaileadership.org/resources/
analysis_the_curious_case_of_one_david_mayer/>>
--
*
*
*Avv. Carlo Blengino*
*
*
/[Via Duchessa Jolanda n. 19,/](https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F...)
https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F...> [/10138 Torino (TO) - Italy](https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F...
/tel. +39 011 4474035/
Penalistiassociati.it
//
--
You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
--
Avv. Carlo Blengino
[Via Duchessa Jolanda n. 19,](https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+...)
[10138 Torino (TO) - Italy](https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+...)
tel. +39 011 4474035
Penalistiassociati.it