Buondì nexas, i miei 2 cent sull'argomento:

On Sat, Dec 21, 2024 at 10:21 AM Guido Vetere <vetere.guido@gmail.com> wrote:

Ma poi: perché solo con OpenAI? Meta, Google, Anthropic etc. non hanno usato cose come CommonCrawl? Sicuri?

Buon punto sollevi, ma, credo che il garante italiano abbia potuto esprimersi relativamente alla pratica che aveva sotto mano, e, intanto, si è mosso l'EDPB per dare un parere, così da uniformare quello che devono fare i soggetti menzionati ed i futuri. Alla fine, considera, l'autorità italiana è stata apripista in questo e ha dovuto giocare di compromessi, sia perchè non è regolamentando e multando che si fa il progresso, sia perchè il piacere che il pubblico ha dimostrato verso questa tecnologia andava ben oltre la critica ed i dubbi che dovrebbe sollevare.

Finirà che per 6 mesi avremo Sam Altman che fa supercazzole con la benedizione e il logo del Garante, e tutto questo per soli 15M. Un ottimo risultato, Sam!

Commento fino alla virgola, per prima cosa, è una misura prescrittiva nuova, quella di imporre una comunicazione pubblica. per secondo, non è detto che ci sia il logo del garante, se sei obbligato a farlo, non vuol dire che il messaggio sia condiviso/endorsato dall'autorità. per finire, il problema che si deve affrontare è che deve essere dato un "opt-out", e questo è chiaramente un problema di fondo perché l'uso dei dati personali deve andare in opt-in (se si usa il consenso come base giuridica), ma per via del funzionamento dei meccanismi di addestramento, l'opt-out sembra il compromesso più praticabile. e questo deve essere noto anche a chi non va su chatgpt.com, da qui, la campagna di comunicazione.

quello che a me incuriosisce, è il metodo per fare opt-out. autenticare il data subject. Ipoteticamente questi cittadini potrebbero chiedere di essere rimossi. E questo è supportato dalla pratica dell'"unlearning", che funziona rimuovendo i neuroni/token che non devono stare nel LLM, e i link corrispettivi.

Sebbene per Microsoft l'unlerarning sia la "soluzione per il GDPR e per il copyright".... non è veramente una tecnica completa perchè non tutto quello che afferisce al dato in input può essere identificato in token da rimuovere. inoltre non è una tecnica che, secondo me, può funzionare per i modelli general purpose.

Ad esempio, se sono uno degli omonimo di Silvio Berlusconi? Rimuovere i token associati al nome di un data subject non permette di gestire l'omonimia, la differenza tra cronaca, storia, e diritti degli interessati in vita.

L'unlearning sulla base del Nome Cognome è un'approssimazione troppo grossolana per dei modelli che trattano sia materiale recente, che storico, che di cronaca, e che inventano roba nuova. Sono scopi, usi, e diritti così diversi, che secondo me richiederanno una separazione dei modelli, amenochè l'obiettivo di Big LLM non sia quello di creare il caos, così da far credere che le regolamentazioni sono sempre sbagliate e lesive per gli utenti ed il servizio.... un po' come è stato per i cookie banner :D

Buone feste!

... e ricordate: pucciare il panettone nel caffè, si dice sia un grande portafortuna per l'anno 3 D.A. (scorrere alla fine: https://hermescenter.substack.com/p/cosa-e-stato-per-noi-lanno-appena )