On Tue, Dec 24, 2024 at 12:48 PM Guido Vetere <vetere.guido@gmail.com> wrote:

per quello che ho capito anche in relazione alla vicenda dell'accordo tra GEDI e OpenAI,

Quell'"avvertimento" dato dal Garante, lo interpreto come un'azione che poteva essere fatta per evitare spiacevoli situazioni.. visto che il Garante stava comunque lavorando nel fascicolo di OpenAI, e chiaramente il comportamento di Gedi poteva solo portar loro ad essere inadempienti in un secondo momento.

il problema è che l'addestramento dei modelli con i dati 'presi a strascico' (per usare una espressione del Garante) che contengono informazioni personali (ad es. procedimenti penali passati o in corso) avviene senza una base giuridica, ad esempio quella che consente agli organi di informazione di trattare quei dati per legittimo interesse esercitando il diritto di cronaca e con l'obbligo di rettifica. Se questo è - indubbiamente - un problema, non vedo perché dovrebbe riguardare OpenAI e non anche gli altri, inclusi i modelli c.d. 'open' fatti nelle Università (ad esempio Sapienza), ma su questo mi pare che siamo d'accordo.

Si, credo che la decisione dell'EDPB vada ad informare tutti gli altri modelli. Poi, si sà, che questo indica come ci si può uniformare, ma non li obbliga a dargli priorità assoluta. Cose tipo.. MonitoraPA, che in modo automatico mandi mail di ammonimento a chiunque abbia sviluppato un LLM non conforme e/o offra un servizio basato su quest'ultimo.

di fatto la soluzione dell'opt-out sembra molto problematica: un LLM non è una Wikipedia on steroids, è proprio un altro oggetto. Se il mio omonimo (funzionario a Bruxelles) lo facesse, probabilmente cancellerebbe anche me, come facevi osservare. il fatto è che i LLM che conosciamo oggi imparano 'come' parlare e 'di cosa' parlare all at once, cioè la competenza linguistica e quella fattuale sono fuse in un sol blocco.

Sì, per questo è un compromesso problematico, e credo che per farlo funzionare le aziende debbano volerlo (e.s. dividendo i modelli sulla base del training set e della storicità dei dati).
Se invece non vogliono farlo funzionare, possono tirare la corda fino a quando non si vede che non funziona, allora devi trovare l'abuso, descriverlo, riportarlo, aspettare l'istruttoria, e le nuove misure, sanzioni, linee guida, e ripeti da capo.

Vorranno farlo succedere? boh.

credo che si finirà con una 'sanatoria', ma questa non può consistere in una ammenda o nella imposizione di costi, altrimenti la cosa andrà a vantaggio dei monopolisti e a discapito dei ricercatori pubblici e\o indipendenti.

Inevitabilmente tutto quello che discende dal deep learning, è disegnato per avvantaggiare chi ha più dati, GPU, e data scientists.
La conformità ai diritti potrebbe essere uno sforzo condiviso, con degli standard, con dei dati garantiti, dei modelli dal quale partire, delle check list... Ma questo non succede (non so dire che è impossibile che succeda o semplicemente non c'è mai stata la volontà di farlo succedere).

strada in salita, comunque la si guardi

--
Claudio Agosti - Hermes Center, AI Forensics, Reversing Works.
Platform Auditor & Tech Researcher
[ linktr.ee/claudio.agosti ]