Re: [nexa] Welcome back a chi?

April 29, 2023

      ...
Puoi elaborare?
Ci provo

I nomi (intendo: <nome><cognome>) potrebbero essere in teoria (Kripke)
'designatori rigidi', cioè identificare un individuo in tutti i 'mondi'
(contesti) possibili.
Purtroppo però c'è l'omonimia, dunque occorre aggiungere al nome abbastanza
informazione per selezionare quei contesti in cui il nome designa proprio
il soggetto inteso.
Per le figure pubbliche, OpenAI non a caso chiede, nella sua form di
opt-out:
*If the data subject is a public figure, please describe the data subject’s
role in society or their community.*
Per 'the rest of us' non è chiaro come vadano le cose, ma mettiamoci nella
condizione ideale: abbiamo un nome e un selettore di contesti.
A questo punto, sarebbe possibile, per ciascun opt-out, scandire l'intero
'database' testuale e rimuovere, con un certo grado di accuratezza (mai
totale) la gran parte (mai completa) i passaggi in cui il soggetto è
menzionato. Dopodiché basterebbe (si fa per dire) ricostruire il language
model, et voilà.
Nota però che classificare tutti i passaggi di decine di GB di testo e
ricostruire un modello di diverse centinaia di miliardi di parametri
impegnerebbe l'energia elettrica di una città (per quanti giorni? Potrebbe
dircelo @Giovanna Sissa <sissa.giovanna@gmail.com>). Insomma: non sarebbe
proprio come togliere una pagina da Wikipedia.
Ma c'è anche un altro aspetto: oltre ai designatori rigidi kripkiani, ci
sono le 'descrizioni definite' di Russel: Aristotele è 'il filosofo di
Stagira', o anche 'il mentore di Alessandro Magno'. Insomma ci sono tante
locuzioni che possono identificare un soggetto, da cui la richiesta di
'prompt engineering' di OpenAI:
*Please provide any relevant prompts that resulted in the model mentioning
the data subject.*
Il caso si complica: includere tali locuzioni aumenta la precisione (il
numero dei passaggi 'sospetti' eliminati) ma a scapito del 'richiamo'
(qualche interessante passaggio sulla formazione di Alessandro Magno
potrebbe andar perso). Un bel rebus.
In realtà, comunque, quello che suppongo abbia in mente OpenAI non è un
processo di 'bonifica' del language model per ogni opt-out ricevuto.  Si
tratterà, con ogni probabilità, di far leva su un meccanismo di
'reinforcement': a parità di LLM, la macchina sarà 'condizionata' per
evitare di produrre certe frasi.
Fattibile, ma funzionerà? OpenAI, giustamente, non può garantire e mette le
mani avanti: molto dipenderà dai singoli casi, dai singoli 'prompt'. Il
fatto è che un generatore come ChatGPT restituisce dati genuinamente
contraffatti, difficile inibirlo del tutto. Io credo dunque che alla fine
non accadrà nulla di significativo, ma vedremo.
Il Garante però è soddisfatto: ha ottenuto il suo obiettivo burocratico e
tanto basta.
Restano sul tavolo, intatti, i problemi veri.
Buona serata,
G.

On Sat, 29 Apr 2023 at 22:14, Giacomo Tesio <giacomo@tesio.it> wrote:
...
Salva Guido,
Il 29 Aprile 2023 05:09:03 UTC, Guido Vetere <vetere.guido@gmail.com> ha
scritto:
...
Poi viene la parte tecnicamente sfidante: c'è da fare 'prompt engineering'
per evidenziare le possibili 'menzioni' del soggetto
*Please provide any relevant prompts that resulted in the model mentioning
the data subject. To be able to properly address your requests, we need
clear evidence that the model has knowledge of the data subject
conditioned
...
on the prompts.*
Insomma*,* la vedo dura, però credo che più di questo non potessero fare
Puoi elaborare?
Tecnicamente hanno innumerevoli metodi per risolvere il problema in modo
efficace e definitivo.
Il più semplice consiste nel ripetere la programmazione statistica (il
"training")
senza i dati del soggetto.
Perché si dovrebbe pretendere qualcosa di meno efficace?
...
(giova ancora ripeterlo: un LLM non è un database)
E giova ripetere che un LLM viene programmato a partire da un enorme
database.
Si può tranquillamente rimuovere i dati relativi al richiedente da quel
database: è solo costoso.
Poi per ulteriore sicurezza si può mettere un filtro a valle che impedisce
al software di inviare
dati del richiedente in output.
Giacomo