Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di chiarire la mia affermazione, forse un po' troppo secca, sull'incompatibilità del GDPR, e anche di rispondere indirettamente alle considerazioni che precedono. Non mi riferivo infatti solo al problema del diritto alla cancellazione.
Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare servizi basati su RAG, ma se anche così fosse, e i dati non fossero utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si aprirebbero comunque infinite diatribe sulla corretta attribuzione dei ruoli di titolare e responsabile tra i diversi soggetti. Risolto faticosamente quello, il problema per cui un archivio pubblico come l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un fornitore per l'addestramento è vera, quale che sia la modalità di acquisizione (che sia con lo scraping o con accordi). Non ci sarà mai infatti per fini commeriali/imprenditoriali una base giuridica che legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari ex art. 10, circostanza questa che esclude il legittimo interesse. Solo che quella è l'unica possibilità di liceità del trattamento (il consenso ovviamente non è neppure pensabile), ed è già stata piegata e forzata fin troppo per i motori di ricerca dopo la sentenza Costeja Gonzales della ECJ. Per salvare il trattamento dei motori di ricerca quali titolari del trattamento sulla base del legittimo interesse si sono compiute capriole interpretative notevoli là dove tale base è recessiva rispetto al divieto di trattamento di dati particolari, ma lì era più facile e nessuno poteva vietare Google Search.
Con gli LLM però non se ne esce, ed i tempi sono cambiati.
Eppure gli archivi sono una fonte credo fondamentale e viene usata a man bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione.
E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più consono alle privative legate alla proprietà intellettuale (altra normativa in frizione) che non al tema della protezione dati. Nel GDPR non esiste nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act, ma è riferito ad altro); i dati personali, a maggior ragione se pubblici, non sono di nessuno (il titolare è il titolare del trattamento, non dei dati, e l'interessato non possiede i suoi dati, può pretenderne la protezione, a determinate condizioni). E bene che sia così, perchè i dati, rectius le informazioni, anche personali devono circolare santo cielo! Sono la base della conoscenza, anche quella delle macchine spara stronzate (frankfurtianamente)
Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un disastro per tutti, ma non perchè violino chissà quale diritto fondamentale dei cittadini o la protezione dei dati, ma perché generano delle privative e delle barriere economiche distorsive basate sul nulla, almeno sotto il profilo della data protection (a mio giudizio anche sotto il profilo della proprietà intellettuale, ma li le privative esistono davvero!).
E di situazioni così, di incompatibilità, è piena la strada delle tecnologie dell'informazione che necessitano della ruminazione di molte informazioni.
Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è incompatibile con il BigData (in allora il termine era una buzzword). Minimizzazione, limitazione della conservazione, stretta finalità...tutta roba contraria al valore informativo dei dati, ma per fortuna c'erano mille eccezioni, varianti e deroghe e soprattutto quei principi si potevano piegare, adattare e soprattutto i pochi che si occupavano di protezione dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile e recessivo, molto diverso dalla riservatezza (che quella sì se la passava già davvero male).
Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i Salami non hanno alcun interesse per l'umanità, e che non meritano tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la governano. I problemi sono altri e necessitano di risposte diverse.
Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma sono comunque sempre grato a tutti in questa lista per gli stimoli e le riflessioni che mi suscitate.
CB