Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si possono cedere dati sensibili di cui si è responsabili, che i giornali pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono farne usi diversi senza il consenso degli interessati. Quindi la cessione sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere e smentire le notizie 'on the fly' come possono fare i giornali.

Il problema è che i LLM acquisiscono competenze linguistiche generali (ad es. quelle che servono per fare summarization) e fattuali (chi è David Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti progressi, tutto è più o meno fuso in un sol blocco.

Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented Generation (RAG). In questi casi, le competenze fattuali si trovano nei documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM spetta solo il compito di mettere in bella prosa alcuni passaggi informativi che non si trovano nel modello ma appunto in qualche testo leggibile e emendabile.

La notizia è che per questo esercizio bastano modelli relativamente piccoli, anche 'aperti', e non è impensabile che questi possano essere costruiti con dati 'puliti'.
Nota a margine: quello che GEDI dice di voler fare, da quello che capisco, è esattamente un RAG, come quello che altre testate (es. Washington Post) stanno sperimentando. Non c'è davvero bisogno che OpenAI faccia training sul loro archivio.

G.


On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa <nexa@server-nexa.polito.it> wrote:
Ciao Carlo

On 02/12/24 23:55, Carlo Blengino wrote:
> Grazie!
> Interessante leggere come da lontano vedano il GDPR e il diritto
> all'oblio (o quello che è).
> La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se
> interpretato restrittivamente non è compatibile con la tecnologia degli
> LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un
 > totale contrasto, su più principi di base. E questo è un problema per
 > l'Europa.

non mi pare.
se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4
re-training del modello all'anno.

per l'azienda si tratta di trovare il punto di equilibrio costi/benefici
rispetto alle dimensioni del proprio modello (e per il sistema, fare un
po' di ricerca su metodi di ottimizzazione)
https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gpu-inference/

d'altronde, anche il consorzio obbligatorio degli olii usati è una
maggiorazione di costi per i meccanici...
:-)



> Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l-
> accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel-
> mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova
> (quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia
> chiaro, ma per altre ragioni)
> Aggiungo a scanso di equivoci, che questa considerazione non vuol dire a
> mio parere che vi sia incompatibilità tra queste tecnologie ed il
> sacrosanto diritto fondamentale alla protezione dei dati personali.
> CB
>
>
>
> Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani
> <daniela.tafani@unipi.it <mailto:daniela.tafani@unipi.it>> ha scritto:
>
>     Dec 01, 2024 - Georg Zoeller (AILTI)
>     The Curious Case of David Mayer, the man ChatGPT cannot name.
>
>     ChatGPT users have noticed a curious behavior: It refuses to talk
>     about a 'David Mayer'. We have the explanation and point out less
>     obvious implications.
>
>     TL;DR: While not a juicy conspiracy, OpenAI cut some corners on
>     regulatory compliance and the implications are less benign than they
>     seem. In fact, they can be weaponized with unexpected consequences.
>
>     ChatGPT is well known for not knowing when to stop talking - the
>     underlying transformer architecture lends itself to hallucinations
>     in situations when the model is asked to generate text beyond the
>     context it was trained on. Even more curious, sometimes it starts
>     giving a response, only to change its mind mid sentence, and
>     terminating the conversation.
>
>     So naturally, when the software stops and refuses to answer, users
>     take notice. In this case, ChatGPT users found that mention of the
>     name “David Mayer”, whenever included in a message, would
>     consistently cause the model to terminate the conversation.
>
>     It’s a conspiracy!
>     Creating even more mystery, chatGPT rejection messages quickly move
>     from unhelpful to ominously threatening when the user starts
>     investigating the phenomenon.
>
>     Continua qui:
>     <https://centreforaileadership.org/resources/
>     analysis_the_curious_case_of_one_david_mayer/ <https://
>     centreforaileadership.org/resources/
>     analysis_the_curious_case_of_one_david_mayer/>>
>
>
>
> --
> *
> *
> *Avv. Carlo Blengino*
> *
> *
> /Via Duchessa Jolanda n. 19,/
> /10138 Torino (TO) - Italy/
> /tel. +39 011 4474035/
> Penalistiassociati.it
> //

--
You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)