Puoi elaborare?
Ci provo I nomi (intendo: <nome><cognome>) potrebbero essere in teoria (Kripke) 'designatori rigidi', cioè identificare un individuo in tutti i 'mondi' (contesti) possibili. Purtroppo però c'è l'omonimia, dunque occorre aggiungere al nome abbastanza informazione per selezionare quei contesti in cui il nome designa proprio il soggetto inteso. Per le figure pubbliche, OpenAI non a caso chiede, nella sua form di opt-out: *If the data subject is a public figure, please describe the data subject’s role in society or their community.* Per 'the rest of us' non è chiaro come vadano le cose, ma mettiamoci nella condizione ideale: abbiamo un nome e un selettore di contesti. A questo punto, sarebbe possibile, per ciascun opt-out, scandire l'intero 'database' testuale e rimuovere, con un certo grado di accuratezza (mai totale) la gran parte (mai completa) i passaggi in cui il soggetto è menzionato. Dopodiché basterebbe (si fa per dire) ricostruire il language model, et voilà. Nota però che classificare tutti i passaggi di decine di GB di testo e ricostruire un modello di diverse centinaia di miliardi di parametri impegnerebbe l'energia elettrica di una città (per quanti giorni? Potrebbe dircelo @Giovanna Sissa <sissa.giovanna@gmail.com>). Insomma: non sarebbe proprio come togliere una pagina da Wikipedia. Ma c'è anche un altro aspetto: oltre ai designatori rigidi kripkiani, ci sono le 'descrizioni definite' di Russel: Aristotele è 'il filosofo di Stagira', o anche 'il mentore di Alessandro Magno'. Insomma ci sono tante locuzioni che possono identificare un soggetto, da cui la richiesta di 'prompt engineering' di OpenAI: *Please provide any relevant prompts that resulted in the model mentioning the data subject.* Il caso si complica: includere tali locuzioni aumenta la precisione (il numero dei passaggi 'sospetti' eliminati) ma a scapito del 'richiamo' (qualche interessante passaggio sulla formazione di Alessandro Magno potrebbe andar perso). Un bel rebus. In realtà, comunque, quello che suppongo abbia in mente OpenAI non è un processo di 'bonifica' del language model per ogni opt-out ricevuto. Si tratterà, con ogni probabilità, di far leva su un meccanismo di 'reinforcement': a parità di LLM, la macchina sarà 'condizionata' per evitare di produrre certe frasi. Fattibile, ma funzionerà? OpenAI, giustamente, non può garantire e mette le mani avanti: molto dipenderà dai singoli casi, dai singoli 'prompt'. Il fatto è che un generatore come ChatGPT restituisce dati genuinamente contraffatti, difficile inibirlo del tutto. Io credo dunque che alla fine non accadrà nulla di significativo, ma vedremo. Il Garante però è soddisfatto: ha ottenuto il suo obiettivo burocratico e tanto basta. Restano sul tavolo, intatti, i problemi veri. Buona serata, G. On Sat, 29 Apr 2023 at 22:14, Giacomo Tesio <giacomo@tesio.it> wrote:
Salva Guido,
Il 29 Aprile 2023 05:09:03 UTC, Guido Vetere <vetere.guido@gmail.com> ha scritto:
Poi viene la parte tecnicamente sfidante: c'è da fare 'prompt engineering' per evidenziare le possibili 'menzioni' del soggetto
*Please provide any relevant prompts that resulted in the model mentioning the data subject. To be able to properly address your requests, we need clear evidence that the model has knowledge of the data subject
conditioned
on the prompts.*
Insomma*,* la vedo dura, però credo che più di questo non potessero fare
Puoi elaborare?
Tecnicamente hanno innumerevoli metodi per risolvere il problema in modo efficace e definitivo.
Il più semplice consiste nel ripetere la programmazione statistica (il "training") senza i dati del soggetto.
Perché si dovrebbe pretendere qualcosa di meno efficace?
(giova ancora ripeterlo: un LLM non è un database)
E giova ripetere che un LLM viene programmato a partire da un enorme database.
Si può tranquillamente rimuovere i dati relativi al richiedente da quel database: è solo costoso.
Poi per ulteriore sicurezza si può mettere un filtro a valle che impedisce al software di inviare dati del richiedente in output.
Giacomo