Con un simpatico 'Welcome back, Italy', OpenAI ci informa che possiamo tornare a usare ChatGPT (senza VPN, intendo) anche dai nostri lidi. Roberto Reale, sui social, faceva notare che c'è molto sottotesto in questo modo di mettere la cosa: erano loro in effetti a essersene andati. Cosa vogliono dirci? E che: ci prendono forse in giro? Per quello che capisco, le nuove garanzie che la piattaforma offre, e che hanno rassicurato il nostro Garante, sono in sostanza tre: 1) per entrare devi prima premere un bottone verde (sopra c'è scritto qualcosa, ma non credo che sia rilevante) 2) puoi negare il consenso a che le tue conversazioni vengano usate per raffinare l'addestramento del sistema, a scapito della 'customizzazione' *We understand that in some cases you may not want your data used to improve model performance. You can opt out of having your data used to improve our models by filling out this form. Please note that in some cases this will limit the ability of our models to better address your specific use case.* 3) puoi chiedere la rimozione dei tuoi dati personali, ma senza alcuna garanzia che la richiesta abbia effetto: *Submitting a request does not guarantee that information about you will be removed from ChatGPT outputs *(altrove si spiega: *Services like ChatGPT generate responses by reading a user’s request and then predicting the next most likely words that might appear in response. In some cases, the most likely next words may not be the most factually accurate ones. For this reason, you should not rely on the factual accuracy of output from our models*) Interessante è la form <https://share.hsforms.com/1UPy6xqxZSEqTrGDh4ywo_g4sk30> in cui si può comunque richiedere la rimozione dei 'dati personali': in sostanza, oltre a nome, cognome e paese di provenienza, c'è da indicare se la persona nominata è una celebrità o un comune mortale (bella domanda) e nel caso delle figure pubbliche c'è da specificare il contesto di tale celebrità. Poi viene la parte tecnicamente sfidante: c'è da fare 'prompt engineering' per evidenziare le possibili 'menzioni' del soggetto *Please provide any relevant prompts that resulted in the model mentioning the data subject. To be able to properly address your requests, we need clear evidence that the model has knowledge of the data subject conditioned on the prompts.* Insomma*,* la vedo dura, però credo che più di questo non potessero fare (giova ancora ripeterlo: un LLM non è un database) La richiesta di rimozione può ovviamente essere fatta 'on behalf' (le celebrità non hanno neanche tempo per lo shopping, figuriamoci per il prompt engineering). Su come si possano evitare attacchi di 'defacement', cioè miranti a cancellare le informazioni di qualcuno che voglia invece 'esserci', OpenAI (e il Garante) tacciono. Buon fine settimana e buon Primo Maggio! Guido
Salva Guido, Il 29 Aprile 2023 05:09:03 UTC, Guido Vetere <vetere.guido@gmail.com> ha scritto:
Poi viene la parte tecnicamente sfidante: c'è da fare 'prompt engineering' per evidenziare le possibili 'menzioni' del soggetto
*Please provide any relevant prompts that resulted in the model mentioning the data subject. To be able to properly address your requests, we need clear evidence that the model has knowledge of the data subject conditioned on the prompts.*
Insomma*,* la vedo dura, però credo che più di questo non potessero fare
Puoi elaborare? Tecnicamente hanno innumerevoli metodi per risolvere il problema in modo efficace e definitivo. Il più semplice consiste nel ripetere la programmazione statistica (il "training") senza i dati del soggetto. Perché si dovrebbe pretendere qualcosa di meno efficace?
(giova ancora ripeterlo: un LLM non è un database)
E giova ripetere che un LLM viene programmato a partire da un enorme database. Si può tranquillamente rimuovere i dati relativi al richiedente da quel database: è solo costoso. Poi per ulteriore sicurezza si può mettere un filtro a valle che impedisce al software di inviare dati del richiedente in output. Giacomo
Puoi elaborare?
Ci provo I nomi (intendo: <nome><cognome>) potrebbero essere in teoria (Kripke) 'designatori rigidi', cioè identificare un individuo in tutti i 'mondi' (contesti) possibili. Purtroppo però c'è l'omonimia, dunque occorre aggiungere al nome abbastanza informazione per selezionare quei contesti in cui il nome designa proprio il soggetto inteso. Per le figure pubbliche, OpenAI non a caso chiede, nella sua form di opt-out: *If the data subject is a public figure, please describe the data subject’s role in society or their community.* Per 'the rest of us' non è chiaro come vadano le cose, ma mettiamoci nella condizione ideale: abbiamo un nome e un selettore di contesti. A questo punto, sarebbe possibile, per ciascun opt-out, scandire l'intero 'database' testuale e rimuovere, con un certo grado di accuratezza (mai totale) la gran parte (mai completa) i passaggi in cui il soggetto è menzionato. Dopodiché basterebbe (si fa per dire) ricostruire il language model, et voilà. Nota però che classificare tutti i passaggi di decine di GB di testo e ricostruire un modello di diverse centinaia di miliardi di parametri impegnerebbe l'energia elettrica di una città (per quanti giorni? Potrebbe dircelo @Giovanna Sissa <sissa.giovanna@gmail.com>). Insomma: non sarebbe proprio come togliere una pagina da Wikipedia. Ma c'è anche un altro aspetto: oltre ai designatori rigidi kripkiani, ci sono le 'descrizioni definite' di Russel: Aristotele è 'il filosofo di Stagira', o anche 'il mentore di Alessandro Magno'. Insomma ci sono tante locuzioni che possono identificare un soggetto, da cui la richiesta di 'prompt engineering' di OpenAI: *Please provide any relevant prompts that resulted in the model mentioning the data subject.* Il caso si complica: includere tali locuzioni aumenta la precisione (il numero dei passaggi 'sospetti' eliminati) ma a scapito del 'richiamo' (qualche interessante passaggio sulla formazione di Alessandro Magno potrebbe andar perso). Un bel rebus. In realtà, comunque, quello che suppongo abbia in mente OpenAI non è un processo di 'bonifica' del language model per ogni opt-out ricevuto. Si tratterà, con ogni probabilità, di far leva su un meccanismo di 'reinforcement': a parità di LLM, la macchina sarà 'condizionata' per evitare di produrre certe frasi. Fattibile, ma funzionerà? OpenAI, giustamente, non può garantire e mette le mani avanti: molto dipenderà dai singoli casi, dai singoli 'prompt'. Il fatto è che un generatore come ChatGPT restituisce dati genuinamente contraffatti, difficile inibirlo del tutto. Io credo dunque che alla fine non accadrà nulla di significativo, ma vedremo. Il Garante però è soddisfatto: ha ottenuto il suo obiettivo burocratico e tanto basta. Restano sul tavolo, intatti, i problemi veri. Buona serata, G. On Sat, 29 Apr 2023 at 22:14, Giacomo Tesio <giacomo@tesio.it> wrote:
Salva Guido,
Il 29 Aprile 2023 05:09:03 UTC, Guido Vetere <vetere.guido@gmail.com> ha scritto:
Poi viene la parte tecnicamente sfidante: c'è da fare 'prompt engineering' per evidenziare le possibili 'menzioni' del soggetto
*Please provide any relevant prompts that resulted in the model mentioning the data subject. To be able to properly address your requests, we need clear evidence that the model has knowledge of the data subject
conditioned
on the prompts.*
Insomma*,* la vedo dura, però credo che più di questo non potessero fare
Puoi elaborare?
Tecnicamente hanno innumerevoli metodi per risolvere il problema in modo efficace e definitivo.
Il più semplice consiste nel ripetere la programmazione statistica (il "training") senza i dati del soggetto.
Perché si dovrebbe pretendere qualcosa di meno efficace?
(giova ancora ripeterlo: un LLM non è un database)
E giova ripetere che un LLM viene programmato a partire da un enorme database.
Si può tranquillamente rimuovere i dati relativi al richiedente da quel database: è solo costoso.
Poi per ulteriore sicurezza si può mettere un filtro a valle che impedisce al software di inviare dati del richiedente in output.
Giacomo
participants (2)
-
Giacomo Tesio -
Guido Vetere