GPDP - Provvedimento del 2 novembre 2024 [10085455] - nexa

GPDP - Provvedimento del 2 novembre 2024 [10085455]

older
Re: [nexa] black box in ricerche...

Carlo Blengino

Dec. 20, 2024

12:46 p.m.

GPDP sanziona OpenAI per trattamento illecito, quello descritto in motivazione. Qui il provvedimento: https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/... Buona lettura e soprattutto Buon Natale e buone feste a tutti voi. CB -- *Avv. Carlo Blengino* *Via Duchessa Jolanda n. 19,* *10138 Torino (TO) - Italy* *tel. +39 011 4474035* Penalistiassociati.it

Attachments:

attachment.html (text/html — 1.1 KB)

Show replies by date

Guido Vetere

December 2024

9:40 p.m.

15 milioni di ammenda e 6 mesi di pubblicità, direi che è finita in burletta, o mi sfugge qualcosa? Il Ven 20 Dic 2024, 13:59 Carlo Blengino <blengino@penalistiassociati.it> ha scritto:

...

GPDP sanziona OpenAI per trattamento illecito, quello descritto in motivazione. Qui il provvedimento:

https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/... Buona lettura e soprattutto Buon Natale e buone feste a tutti voi. CB

-- *Avv. Carlo Blengino* *Via Duchessa Jolanda n. 19, <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>* *10138 Torino (TO) - Italy <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>* *tel. +39 011 4474035* Penalistiassociati.it

Roberto Resoli

7:58 a.m.

Il 20 dicembre 2024 22:40:40 CET, Guido Vetere <vetere.guido@gmail.com> ha scritto:

...

15 milioni di ammenda e 6 mesi di pubblicità, direi che è finita in burletta, o mi sfugge qualcosa?

Non direi; questo é molto più pesante ed efficace de 15 milioni (dal comunicato stampa https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/10085432 ):

...

...
L’Autorità, con l’obiettivo di garantire, innanzitutto, un’effettiva trasparenza del trattamento dei dati personali, ha ordinato a OpenAI, utilizzando per la prima volta i nuovi poteri previsti dall’articolo 166, comma 7 del Codice Privacy, di realizzare una campagna di comunicazione istituzionale di 6 mesi su radio, televisione, giornali e Internet.

I contenuti, da concordare con l’Autorità, dovranno promuovere la comprensione e la consapevolezza del pubblico sul funzionamento di ChatGPT, in particolare sulla raccolta dei dati di utenti e non-utenti per l’addestramento dell’intelligenza artificiale generativa e i diritti esercitabili dagli interessati, inclusi quelli di opposizione, rettifica e cancellazione.

Grazie a tale campagna di comunicazione, gli utenti e i non-utenti di ChatGPT dovranno essere sensibilizzati su come opporsi all’addestramento dell’intelligenza artificiale generativa con i propri dati personali e, quindi, essere effettivamente posti nelle condizioni di esercitare i propri diritti ai sensi del GDPR.

...

Il Ven 20 Dic 2024, 13:59 Carlo Blengino <blengino@penalistiassociati.it> ha scritto:

...
GPDP sanziona OpenAI per trattamento illecito, quello descritto in motivazione. Qui il provvedimento:

https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/... Buona lettura e soprattutto Buon Natale e buone feste a tutti voi. CB

-- *Avv. Carlo Blengino* *Via Duchessa Jolanda n. 19, <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>* *10138 Torino (TO) - Italy <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>* *tel. +39 011 4474035* Penalistiassociati.it

Guido Vetere

9:20 a.m.

notare il passaggio:

...

i contenuti, da concordare con l’Autorità, dovranno promuovere la comprensione e la consapevolezza del pubblico sul funzionamento di ChatGPT

come farebbe l'Autorità a concordare con OpenAI i contenuti atti a promuovere la consapevolezza sul funzionamento di ChatGPT, se è vero che la stessa Autorità scrive: L’impiego di particolari modelli computazionali (Transformer) e di

...

particolari rappresentazioni numeriche delle unità linguistiche (Embedding) consente di costruire una rete molto fitta e molto estesa di correlazioni semantiche tra unità linguistiche in un testo, rendendo la generazione automatizzata di nuovi testi praticamente indistinguibile dal testo prodotto in forma creativa da un essere umano che abbia letto lo stesso corpus di testi comprendendone il senso.

Una 'rete di correlazione semantiche'? Come i grafi concettuali di Peirce e Sowa? Come i frame di Minsky e Fillmore? Come gli script di Roger Shank? E' sulla base di questa 'comprensione' che i nostri avvocati 'concorderanno i contenuti' con Sam Altman? Ma poi: perché solo con OpenAI? Meta, Google, Anthropic etc. non hanno usato cose come CommonCrawl? Sicuri? Finirà che per 6 mesi avremo Sam Altman che fa supercazzole con la benedizione e il logo del Garante, e tutto questo per soli 15M. Un ottimo risultato, Sam! G. On Sat, 21 Dec 2024 at 08:58, Roberto Resoli <roberto@resolutions.it> wrote:

...

Il 20 dicembre 2024 22:40:40 CET, Guido Vetere <vetere.guido@gmail.com> ha scritto:

...
15 milioni di ammenda e 6 mesi di pubblicità, direi che è finita in burletta, o mi sfugge qualcosa?

Non direi; questo é molto più pesante ed efficace de 15 milioni (dal comunicato stampa https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/10085432 ):

...
...
L’Autorità, con l’obiettivo di garantire, innanzitutto, un’effettiva trasparenza del trattamento dei dati personali, ha ordinato a OpenAI, utilizzando per la prima volta i nuovi poteri previsti dall’articolo 166, comma 7 del Codice Privacy, di realizzare una campagna di comunicazione istituzionale di 6 mesi su radio, televisione, giornali e Internet.

I contenuti, da concordare con l’Autorità, dovranno promuovere la comprensione e la consapevolezza del pubblico sul funzionamento di ChatGPT, in particolare sulla raccolta dei dati di utenti e non-utenti per l’addestramento dell’intelligenza artificiale generativa e i diritti esercitabili dagli interessati, inclusi quelli di opposizione, rettifica e cancellazione.

Grazie a tale campagna di comunicazione, gli utenti e i non-utenti di ChatGPT dovranno essere sensibilizzati su come opporsi all’addestramento dell’intelligenza artificiale generativa con i propri dati personali e, quindi, essere effettivamente posti nelle condizioni di esercitare i propri diritti ai sensi del GDPR.

...
Il Ven 20 Dic 2024, 13:59 Carlo Blengino <blengino@penalistiassociati.it> ha scritto:

...
GPDP sanziona OpenAI per trattamento illecito, quello descritto in motivazione. Qui il provvedimento:

...
Buona lettura e soprattutto Buon Natale e buone feste a tutti voi. CB

-- *Avv. Carlo Blengino* *Via Duchessa Jolanda n. 19, < https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+...

...
*10138 Torino (TO) - Italy < https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+...

https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/... * *

...
*tel. +39 011 4474035* Penalistiassociati.it

Roberto Resoli

1:06 p.m.

Il 21/12/24 10:20, Guido Vetere ha scritto:

...

notare il passaggio:

...
i contenuti, da concordare con l’Autorità, dovranno promuovere la comprensione e la consapevolezza del pubblico sul funzionamento di ChatGPT

manca la parte successiva:

...

, alle implicazioni dello stesso rispetto al diritto alla protezione dei dati personali, con riferimento alla raccolta dei dati di utenti e non-utenti per finalità di addestramento dei modelli ed ai diritti dagli stessi esercitabili ai sensi del Regolamento, con specifico riferimento al diritto degli interessati di esercitare il diritto di opposizione e quello di cancellazione dei dati personali;

Credo che al Garante (e a noi cittadini) interessi soprattutto la seconda parte. rob

Claudio Agosti

1:54 p.m.

Buondì nexas, i miei 2 cent sull'argomento: On Sat, Dec 21, 2024 at 10:21 AM Guido Vetere <vetere.guido@gmail.com> wrote:

...

Ma poi: perché solo con OpenAI? Meta, Google, Anthropic etc. non hanno usato cose come CommonCrawl? Sicuri?

Buon punto sollevi, ma, credo che il garante italiano abbia potuto esprimersi relativamente alla pratica che aveva sotto mano, e, intanto, si è mosso l'EDPB per dare un parere, così da uniformare quello che devono fare i soggetti menzionati ed i futuri. Alla fine, considera, l'autorità italiana è stata apripista in questo e ha dovuto giocare di compromessi, sia perchè non è regolamentando e multando che si fa il progresso, sia perchè il piacere che il pubblico ha dimostrato verso questa tecnologia andava ben oltre la critica ed i dubbi che dovrebbe sollevare.

...

Finirà che per 6 mesi avremo Sam Altman che fa supercazzole con la benedizione e il logo del Garante, e tutto questo per soli 15M. Un ottimo risultato, Sam!

Commento fino alla virgola, per prima cosa, è una misura prescrittiva nuova, quella di imporre una comunicazione pubblica. per secondo, non è detto che ci sia il logo del garante, se sei obbligato a farlo, non vuol dire che il messaggio sia condiviso/endorsato dall'autorità. per finire, il problema che si deve affrontare è che deve essere dato un "opt-out", e questo è chiaramente un problema di fondo perché l'uso dei dati personali deve andare in opt-in (se si usa il consenso come base giuridica), ma per via del funzionamento dei meccanismi di addestramento, l'opt-out sembra il compromesso più praticabile. e questo deve essere noto anche a chi non va su chatgpt.com, da qui, la campagna di comunicazione. quello che a me incuriosisce, è il metodo per fare opt-out. autenticare il data subject. Ipoteticamente questi cittadini potrebbero chiedere di essere rimossi. E questo è supportato dalla pratica dell'"unlearning", che funziona rimuovendo i neuroni/token che non devono stare nel LLM, e i link corrispettivi. Sebbene per Microsoft l'unlerarning sia la "soluzione per il GDPR e per il copyright".... non è veramente una tecnica completa perchè non tutto quello che afferisce al dato in input può essere identificato in token da rimuovere. inoltre non è una tecnica che, secondo me, può funzionare per i modelli general purpose. Ad esempio, se sono uno degli omonimo di Silvio Berlusconi? Rimuovere i token associati al nome di un data subject non permette di gestire l'omonimia, la differenza tra cronaca, storia, e diritti degli interessati in vita. L'unlearning sulla base del Nome Cognome è un'approssimazione troppo grossolana per dei modelli che trattano sia materiale recente, che storico, che di cronaca, e che inventano roba nuova. Sono scopi, usi, e diritti così diversi, che secondo me richiederanno una separazione dei modelli, amenochè l'obiettivo di Big LLM non sia quello di creare il caos, così da far credere che le regolamentazioni sono sempre sbagliate e lesive per gli utenti ed il servizio.... un po' come è stato per i cookie banner :D Buone feste! ... e ricordate: pucciare il panettone nel caffè, si dice sia un grande portafortuna per l'anno 3 D.A. (scorrere alla fine: https://hermescenter.substack.com/p/cosa-e-stato-per-noi-lanno-appena )

Guido Vetere

11:48 a.m.

per quello che ho capito anche in relazione alla vicenda dell'accordo tra GEDI e OpenAI, il problema è che l'addestramento dei modelli con i dati 'presi a strascico' (per usare una espressione del Garante) che contengono informazioni personali (ad es. procedimenti penali passati o in corso) avviene senza una base giuridica, ad esempio quella che consente agli organi di informazione di trattare quei dati per legittimo interesse esercitando il diritto di cronaca e con l'obbligo di rettifica. se questo è - indubbiamente - un problema, non vedo perché dovrebbe riguardare OpenAI e non anche gli altri, inclusi i modelli c.d. 'open' fatti nelle Università (ad esempio Sapienza), ma su questo mi pare che siamo d'accordo. di fatto la soluzione dell'opt-out sembra molto problematica: un LLM non è una Wikipedia on steroids, è proprio un altro oggetto. Se il mio omonimo (funzionario a Bruxelles) lo facesse, probabilmente cancellerebbe anche me, come facevi osservare. il fatto è che i LLM che conosciamo oggi imparano 'come' parlare e 'di cosa' parlare all at once, cioè la competenza linguistica e quella fattuale sono fuse in un sol blocco. i nuovi approcci basati su RAG (Retrieval Augmented Generation), à la Perplexity.ai, superano il problema, ma resta il peccato originale dell'addestramento illegale (almeno in Europa) dei loro modelli di base. credo che si finirà con una 'sanatoria', ma questa non può consistere in una ammenda o nella imposizione di costi, altrimenti la cosa andrà a vantaggio dei monopolisti e a discapito dei ricercatori pubblici e\o indipendenti. ah, Buon Natale! G. On Mon, 23 Dec 2024 at 14:55, Claudio Agosti < claudio.agosti@hermescenter.org> wrote:

...

Buondì nexas, i miei 2 cent sull'argomento:

On Sat, Dec 21, 2024 at 10:21 AM Guido Vetere <vetere.guido@gmail.com> wrote:

...
Ma poi: perché solo con OpenAI? Meta, Google, Anthropic etc. non hanno usato cose come CommonCrawl? Sicuri?

Buon punto sollevi, ma, credo che il garante italiano abbia potuto esprimersi relativamente alla pratica che aveva sotto mano, e, intanto, si è mosso l'EDPB per dare un parere, così da uniformare quello che devono fare i soggetti menzionati ed i futuri. Alla fine, considera, l'autorità italiana è stata apripista in questo e ha dovuto giocare di compromessi, sia perchè non è regolamentando e multando che si fa il progresso, sia perchè il piacere che il pubblico ha dimostrato verso questa tecnologia andava ben oltre la critica ed i dubbi che dovrebbe sollevare.

...
Finirà che per 6 mesi avremo Sam Altman che fa supercazzole con la benedizione e il logo del Garante, e tutto questo per soli 15M. Un ottimo risultato, Sam!

Commento fino alla virgola, per prima cosa, è una misura prescrittiva nuova, quella di imporre una comunicazione pubblica. per secondo, non è detto che ci sia il logo del garante, se sei obbligato a farlo, non vuol dire che il messaggio sia condiviso/endorsato dall'autorità. per finire, il problema che si deve affrontare è che deve essere dato un "opt-out", e questo è chiaramente un problema di fondo perché l'uso dei dati personali deve andare in opt-in (se si usa il consenso come base giuridica), ma per via del funzionamento dei meccanismi di addestramento, l'opt-out sembra il compromesso più praticabile. e questo deve essere noto anche a chi non va su chatgpt.com, da qui, la campagna di comunicazione.

quello che a me incuriosisce, è il metodo per fare opt-out. autenticare il data subject. Ipoteticamente questi cittadini potrebbero chiedere di essere rimossi. E questo è supportato dalla pratica dell'"unlearning", che funziona rimuovendo i neuroni/token che non devono stare nel LLM, e i link corrispettivi.

Sebbene per Microsoft l'unlerarning sia la "soluzione per il GDPR e per il copyright".... non è veramente una tecnica completa perchè non tutto quello che afferisce al dato in input può essere identificato in token da rimuovere. inoltre non è una tecnica che, secondo me, può funzionare per i modelli general purpose. Ad esempio, se sono uno degli omonimo di Silvio Berlusconi? Rimuovere i token associati al nome di un data subject non permette di gestire l'omonimia, la differenza tra cronaca, storia, e diritti degli interessati in vita. L'unlearning sulla base del Nome Cognome è un'approssimazione troppo grossolana per dei modelli che trattano sia materiale recente, che storico, che di cronaca, e che inventano roba nuova. Sono scopi, usi, e diritti così diversi, che secondo me richiederanno una separazione dei modelli, amenochè l'obiettivo di Big LLM non sia quello di creare il caos, così da far credere che le regolamentazioni sono sempre sbagliate e lesive per gli utenti ed il servizio.... un po' come è stato per i cookie banner :D

Buone feste! ... e ricordate: pucciare il panettone nel caffè, si dice sia un grande portafortuna per l'anno 3 D.A. (scorrere alla fine: https://hermescenter.substack.com/p/cosa-e-stato-per-noi-lanno-appena )

Claudio Agosti

3:42 p.m.

On Tue, Dec 24, 2024 at 12:48 PM Guido Vetere <vetere.guido@gmail.com> wrote:

...

per quello che ho capito anche in relazione alla vicenda dell'accordo tra GEDI e OpenAI,

Quell'"avvertimento" dato dal Garante, lo interpreto come un'azione che poteva essere fatta per evitare spiacevoli situazioni.. visto che il Garante stava comunque lavorando nel fascicolo di OpenAI, e chiaramente il comportamento di Gedi poteva solo portar loro ad essere inadempienti in un secondo momento. il problema è che l'addestramento dei modelli con i dati 'presi a

...

strascico' (per usare una espressione del Garante) che contengono informazioni personali (ad es. procedimenti penali passati o in corso) avviene senza una base giuridica, ad esempio quella che consente agli organi di informazione di trattare quei dati per legittimo interesse esercitando il diritto di cronaca e con l'obbligo di rettifica. Se questo è - indubbiamente - un problema, non vedo perché dovrebbe riguardare OpenAI e non anche gli altri, inclusi i modelli c.d. 'open' fatti nelle Università (ad esempio Sapienza), ma su questo mi pare che siamo d'accordo.

Si, credo che la decisione dell'EDPB vada ad informare tutti gli altri modelli. Poi, si sà, che questo indica come ci si può uniformare, ma non li obbliga a dargli priorità assoluta. Cose tipo.. MonitoraPA, che in modo automatico mandi mail di ammonimento a chiunque abbia sviluppato un LLM non conforme e/o offra un servizio basato su quest'ultimo. di fatto la soluzione dell'opt-out sembra molto problematica: un LLM non è

...

una Wikipedia on steroids, è proprio un altro oggetto. Se il mio omonimo (funzionario a Bruxelles) lo facesse, probabilmente cancellerebbe anche me, come facevi osservare. il fatto è che i LLM che conosciamo oggi imparano 'come' parlare e 'di cosa' parlare all at once, cioè la competenza linguistica e quella fattuale sono fuse in un sol blocco.

Sì, per questo è un compromesso problematico, e credo che per farlo funzionare le aziende debbano volerlo (e.s. dividendo i modelli sulla base del training set e della storicità dei dati). Se invece non vogliono farlo funzionare, possono tirare la corda fino a quando non si vede che non funziona, allora devi trovare l'abuso, descriverlo, riportarlo, aspettare l'istruttoria, e le nuove misure, sanzioni, linee guida, e ripeti da capo. Vorranno farlo succedere? boh. credo che si finirà con una 'sanatoria', ma questa non può consistere in

...

una ammenda o nella imposizione di costi, altrimenti la cosa andrà a vantaggio dei monopolisti e a discapito dei ricercatori pubblici e\o indipendenti.

Inevitabilmente tutto quello che discende dal deep learning, è disegnato per avvantaggiare chi ha più dati, GPU, e data scientists. La conformità ai diritti potrebbe essere uno sforzo condiviso, con degli standard, con dei dati garantiti, dei modelli dal quale partire, delle check list... Ma questo non succede (non so dire che è impossibile che succeda o semplicemente non c'è mai stata la volontà di farlo succedere). strada in salita, comunque la si guardi -- Claudio Agosti - Hermes Center, AI Forensics, Reversing Works. Platform Auditor & Tech Researcher [ linktr.ee/claudio.agosti ]

459

Age (days ago)

463

Last active (days ago)

List overview

Download

7 comments

4 participants

participants (4)

Carlo Blengino
Claudio Agosti
Guido Vetere
Roberto Resoli

GPDP - Provvedimento del 2 novembre 2024 [10085455]

tags

participants (4)