> Puoi elaborare?

Ci provo

I nomi (intendo: <nome><cognome>) potrebbero essere in teoria (Kripke) 'designatori rigidi', cioè identificare un individuo in tutti i 'mondi' (contesti) possibili.
Purtroppo però c'è l'omonimia, dunque occorre aggiungere al nome abbastanza informazione per selezionare quei contesti in cui il nome designa proprio il soggetto inteso.
Per le figure pubbliche, OpenAI non a caso chiede, nella sua form di opt-out:
If the data subject is a public figure, please describe the data subject’s role in society or their community.
Per 'the rest of us' non è chiaro come vadano le cose, ma mettiamoci nella condizione ideale: abbiamo un nome e un selettore di contesti.
A questo punto, sarebbe possibile, per ciascun opt-out, scandire l'intero 'database' testuale e rimuovere, con un certo grado di accuratezza (mai totale) la gran parte (mai completa) i passaggi in cui il soggetto è menzionato. Dopodiché basterebbe (si fa per dire) ricostruire il language model, et voilà.
Nota però che classificare tutti i passaggi di decine di GB di testo e ricostruire un modello di diverse centinaia di miliardi di parametri impegnerebbe l'energia elettrica di una città (per quanti giorni? Potrebbe dircelo @Giovanna Sissa). Insomma: non sarebbe proprio come togliere una pagina da Wikipedia.
Ma c'è anche un altro aspetto: oltre ai designatori rigidi kripkiani, ci sono le 'descrizioni definite' di Russel: Aristotele è 'il filosofo di Stagira', o anche 'il mentore di Alessandro Magno'. Insomma ci sono tante locuzioni che possono identificare un soggetto, da cui la richiesta di 'prompt engineering' di OpenAI:
Please provide any relevant prompts that resulted in the model mentioning the data subject.
Il caso si complica: includere tali locuzioni aumenta la precisione (il numero dei passaggi 'sospetti' eliminati) ma a scapito del 'richiamo' (qualche interessante passaggio sulla formazione di Alessandro Magno potrebbe andar perso). Un bel rebus.
In realtà, comunque, quello che suppongo abbia in mente OpenAI non è un processo di 'bonifica' del language model per ogni opt-out ricevuto.  Si tratterà, con ogni probabilità, di far leva su un meccanismo di 'reinforcement': a parità di LLM, la macchina sarà 'condizionata' per evitare di produrre certe frasi.
Fattibile, ma funzionerà? OpenAI, giustamente, non può garantire e mette le mani avanti: molto dipenderà dai singoli casi, dai singoli 'prompt'. Il fatto è che un generatore come ChatGPT restituisce dati genuinamente contraffatti, difficile inibirlo del tutto. Io credo dunque che alla fine non accadrà nulla di significativo, ma vedremo.
Il Garante però è soddisfatto: ha ottenuto il suo obiettivo burocratico e tanto basta.
Restano sul tavolo, intatti, i problemi veri.
Buona serata,
G.


 

 

On Sat, 29 Apr 2023 at 22:14, Giacomo Tesio <giacomo@tesio.it> wrote:
Salva Guido,

Il 29 Aprile 2023 05:09:03 UTC, Guido Vetere <vetere.guido@gmail.com> ha scritto:
>
>Poi viene la parte tecnicamente sfidante: c'è da fare 'prompt engineering'
>per evidenziare le possibili 'menzioni' del soggetto
>
>*Please provide any relevant prompts that resulted in the model mentioning
>the data subject. To be able to properly address your requests, we need
>clear evidence that the model has knowledge of the data subject conditioned
>on the prompts.*
>
>Insomma*,* la vedo dura, però credo che più di questo non potessero fare


Puoi elaborare?

Tecnicamente hanno innumerevoli metodi per risolvere il problema in modo efficace e definitivo.

Il più semplice consiste nel ripetere la programmazione statistica (il "training")
senza i dati del soggetto.

Perché si dovrebbe pretendere qualcosa di meno efficace?


>(giova ancora ripeterlo: un LLM non è un database)

E giova ripetere che un LLM viene programmato a partire da un enorme database.

Si può tranquillamente rimuovere i dati relativi al richiedente da quel database: è solo costoso.

Poi per ulteriore sicurezza si può mettere un filtro a valle che impedisce al software di inviare
dati del richiedente in output.


Giacomo