>
Puoi elaborare?
Ci provo
I nomi (intendo: <nome><cognome>) potrebbero essere in teoria (Kripke) 'designatori rigidi', cioè identificare un individuo in tutti i 'mondi' (contesti) possibili.
Purtroppo però c'è l'omonimia, dunque occorre aggiungere al nome abbastanza informazione per selezionare quei contesti in cui il nome designa proprio il soggetto inteso.
Per le figure pubbliche, OpenAI non a caso chiede, nella sua form di opt-out:
If the data subject is a public figure, please describe the data subject’s role in society or their community.
Per 'the rest of us' non è chiaro come vadano le cose, ma mettiamoci nella condizione ideale: abbiamo un nome e un selettore di contesti.
A questo punto, sarebbe possibile, per ciascun opt-out, scandire l'intero 'database' testuale e rimuovere, con un certo grado di accuratezza (mai totale) la gran parte (mai completa) i passaggi in cui il soggetto è menzionato. Dopodiché basterebbe (si fa per dire) ricostruire il language model, et voilà.
Nota però che classificare tutti i passaggi di decine di GB di testo e ricostruire un modello di diverse centinaia di miliardi di parametri impegnerebbe l'energia elettrica di una città (per quanti giorni? Potrebbe dircelo
@Giovanna Sissa). Insomma: non sarebbe proprio come togliere una pagina da Wikipedia.
Ma c'è anche un altro aspetto: oltre ai designatori rigidi kripkiani, ci sono le 'descrizioni definite' di Russel: Aristotele è 'il filosofo di Stagira', o anche 'il mentore di Alessandro Magno'. Insomma ci sono tante locuzioni che possono identificare un soggetto, da cui la richiesta di 'prompt engineering' di OpenAI:
Please provide any relevant prompts that resulted in the model mentioning the data subject.
Il caso si complica: includere tali locuzioni aumenta la precisione (il numero dei passaggi 'sospetti' eliminati) ma a scapito del 'richiamo' (qualche interessante passaggio sulla formazione di Alessandro Magno potrebbe andar perso). Un bel rebus.
In realtà, comunque, quello che suppongo abbia in mente OpenAI non è un processo di 'bonifica' del language model per ogni opt-out ricevuto. Si tratterà, con ogni probabilità, di far leva su un meccanismo di 'reinforcement': a parità di LLM, la macchina sarà 'condizionata' per evitare di produrre certe frasi.
Fattibile, ma funzionerà? OpenAI, giustamente, non può garantire
e mette le mani avanti: molto dipenderà dai singoli casi, dai singoli 'prompt'. Il fatto è che un generatore come ChatGPT restituisce dati genuinamente contraffatti, difficile inibirlo del tutto. Io credo dunque che alla fine non accadrà nulla di significativo, ma vedremo.
Il Garante però è soddisfatto: ha ottenuto il suo obiettivo burocratico e tanto basta.
Restano sul tavolo, intatti, i problemi veri.
Buona serata,
G.