Vorrei mettere alla prova il ragionamento di Carlo Blengino (se lo ho colto) su un punto. Anticipo anche io la conclusione: ciò che viene generato dall'LLM non è un dato, ma un documento che rappresenta dati, e il modo in cui lo fa non è unicamente sintetico, ma favorisce la produzione di dati originali. Mentre il documento prodotto da un motore di ricerca riporta prevalentemente dei collegamenti a documenti che /contengono/ i dati rilevanti, gli LLM producono intenzionalmente un nuovo documento /riorganizzando/ i dati estratti dai documenti usati in partenza. Diversamente dal motore di ricerca, che riporta i dati che effettivamente "rappresentano unicamente loro stessi", l'LLM li estrae e li introduce in un nuovo contesto secondo le esigenze della discorsività e dall'intenzione di apparire come un agente autonomo (che produce, appunto, un documento e non un elenco di puntatori). Già questo mi parrebbe un trattamento, se riferito a dati personali. Se poi un documento generato, data l’oscurità ed erraticità del processo informatico, contiene dati (veri o falsi) non riferibili a documenti noti relativi alla stessa persona, non può chiamarsi 'sintetico' (lo chiamerei ironicamente 'poietico') e contribuisce con il proprio contenuto originale a una rappresentazione ulteriore della persona. Ad esempio supponiamo che io chieda a un LLM una biografia di Tizio. Ammettiamo che il LLM attribuisca a Tizio anche un fatto che riguarda Caio suo omonimo. L'output sintetico/poietico raccoglie in una sola biografia elementi della vita di Tizio uniti ad altri della vita di Caio. Che magari sono anche veri, ma non suoi. In tal modo introduce nel documento che rappresenta la vita di Tizio un dato che è totalmente nuovo tra i documenti che lo riguardano, e per questo motivo quella biografia diventa un dato originale su Tizio. Indipendentemente dal fatto che il dato attribuito sia vero o falso, chi lo genera e lo diffonde effettua un trattamento. Altro esempio forse più forte ancora, quello del video deep-fake con la faccia di Tizio che lo rappresenta mentre fa qualcosa (qualcosa che non ha fatto o magari ha anche fatto, ma non in quell'occasione). Ammettiamo che il video (documento, non dato) sia diffuso senza precisare che si tratta di un elaborato fittizio (o satirico). Questo si aggiungerà ai dati reperibili su Tizio. Se per realizzare il fake vengono usati dati che ha conferito pubblicamente, Tizio ha diritto a opporsi a quello /specifico/ trattamento, anche se non ne riceve un danno immediato? E alla /possibilità/ che si effettui quel tipo di trattamento? Non so se ho frainteso il ragionamento di Blengino, ma credo che meriti attenzione proprio il fatto che se anche il dato -/per se/- non rappresenta nulla, il documento che si riferisce alla persona può farlo: /la/ rappresenta. E che caratteristica di questi programmi sia proprio la generazione di documenti che anche senza esser veri sono presentati in modo da essere verosimili. Purtroppo la verosimiglianza è sufficiente perché i più si accontentino: come è stato detto in questa sede, ci mettiamo noi il resto. Un saluto, Alberto On 03/04/23 17:56, Carlo Blengino wrote:
Provo ad inserirmi sul problema degli out-put falsi e “fantasiosi” con alcune considerazioni che non sono affatto sicuro stiano in piedi, ma la difficoltà del diritto non tanto a governare, quanto a comprendere e a collocare al suo interno, in norme e leggi, le realtà generate dalle nuove tecnologie è uno degli aspetti più affascinanti ed al contempo più complessi che questo tempo ci offre (Nexa nasce anche per questo!).
Parto dalla tesi di fondo, per poi argomentare.
I dati generati da ChatGPT ed in generale dalle attuali forme di AI Generativa, anche per immagini come Dall-e, anche quando apparentemente riferibili ad una persona fisica identificata o identificabile, *non dovrebbero mai esser considerati dati personali*, e ciò a prescindere dalla loro verità/falsità o dalla loro più o meno marcata aderenza alla realtà.
Sono dati sintetici che non rappresentano altro se non loro stessi.
Per comprendere l’affermazione, forse azzardata, è bene definire cosa è un dato per il diritto: il dato è /una rappresentazione di fatti, informazioni o concetti/. Il dato informatico è sin dalla Convenzione di Budapest del 2001 definito come una “presentazione di fatti, informazioni o concetti in forma suscettibile di essere utilizzata in un sistema computerizzato…”
Ora, per quanto ho capito io anche leggendo i contributi passati su questa lista, le frasi generate da ChatGPT, come le immagini di Dall-e, sono sempre “false”, o meglio “contraffatte”, anche quando corrispondono per “magia” (i millemila parametri) a fatti, concetti o informazioni reali.
Sono artefatti sintetici (come la carne, che in effetti l’abbiamo vietata Sic!) generati da una macchina che non ha alcuna contezza di ciò che il dato vuole rappresentare (e che è poi ciò che ontologicamente caratterizza il "dato"). E se ho ben capito, non ne hanno contezza neanche i “padroni” della macchina, che agisce in autonomia generando quegli pseudo-dati (pseudo-informazioni) più o meno plausibili.
Con le foto è altrettanto evidente: l’immagine generata da Dall-e può esser identica alla realtà (una veduta di Mondovì, per dire..) o rappresentare realisticamente un “fatto” mai accaduto (le foto dell’arresto di Trump) ma in entrambi i casi l’artefatto non è e non può esser "vero", o meglio, non ha le caratteristiche informative (i dati) che noi attribuiamo alla fotografia come rappresentazione di un fatto, in un dato tempo e in un dato posto.
Le creazioni di questi sistemi, da quel che ho capito, anche quando appaiono “dati” personali, rappresentano unicamente loro stessi, ovvero una sequenza di parole o numeri o di pixels, e null’altro.
Per questo a mio giudizio quei dati non dovrebbero esser oggetto /ex sé/ di protezione e di tutela alcuna. Non contengono alcuna rappresentazione di fatti concetti o informazioni in qualche modo degni di tutela dall’ordinamento (infatti non c'è diritto d'autore, che comunque è un diritto intimamente legato nei suoi aspetti morali all’identità della persona, esattamente come il diritto alla protezione dei dati).
Pensare di tutelare e “proteggere” come dati personali gli out-put di questi sistemi significa oggi conferire loro una valenza che non hanno ed avallare temo l’allucinazione che stiamo vivendo con l’intelligenza artificiale.
Queste considerazioni non vogliono negare le potenzialità lesive di quei dati sintetici o la pericolosità delle macchine che li generano, ma consentono di spostare il focus e l’attenzione da quel dato che non "rappresenta" nulla (se non se stesso), all'uso che di quell’artefatto sintetico e delle macchine che lo producono ne facciamo noi umani.
Forse il mio ragionamento non sta in piedi, ma io sotto il profilo “protezione dei dati personali” vedo enormi e quasi insormontabili problemi in relazione ai data-set di addestramento (e a mio giudizio non sono problemi legati agli errori di output quanto meno in relazione al GDPR) e vedo problemi possibili ma a me (e temo anche al Garante) ignoti in relazione ai dati degli utenti/fruitori ed ai dati da questi immessi nel prompt.
Trovo invece un po’ folle pensare di attenzionare le risposte sbagliate, attribuendo a quei non-dati uno status di tutela che, a mio giudizio, allo stato dell’arte, non dovrebbero avere.
Ultima annotazione: l’uso di dati falsi, inesatti o le lesioni ad onore e reputazione legati all’uso di informazioni comunque ottenute da quegli artefatti sono tutte condotte adeguatamente presidiate dall’ordinamento. Assai più preoccupante e poco presidiata la folle corsa alle API ed all’utilizzo di quei sistemi per automatizzare processi diversi come search...vedremo.
CB
Il giorno lun 3 apr 2023 alle ore 07:19 Stefano Zacchiroli <zack@upsilon.cc> ha scritto:
Certo. Ma questo è l'altro aspetto: quello del trattamento dei dati in *input* a ChatGPT, che esiste ed è potenzialmente problematico dal punto di vista della privacy, a prescindere dalla veridicità delle risposte date.
La mia domanda era su quale sia l'impatto della falsità dell'*output* (che sollevavi come fattore a se stante nella mail precedente) sui profili giuridici di violazione della privacy.
Saluti
On April 2, 2023 11:22:03 PM GMT+02:00, Maurizio Borghi <maurizio.borghi@unito.it> wrote: >On Sun, 2 Apr 2023 at 20:19, Stefano Zacchiroli <zack@upsilon.cc> wrote: > >> >> Che GhatGPT dica panzane a proposito di persone specifiche (viventi) è >> in effetti evidente a tutti. Ma, da non giurista, faccio veramente >> fatica a capire perché questo ponga problemi al Garante per la >> protezione dei dati personali. Se pubblico un sito web pieno di panzane >> su persone viventi, il Garante ha il potere di farmelo chiudere? Direi >> (sempre da non giurista), che al massimo rischio una querela per >> diffamazione > > >Se la produzione di quelle panzane richiede il trattamento dei dati di >milioni di ignari cittadini, allora sì, attrai le ire del Garante (oltre >che quelle dei destinatari delle tue panzane). > >> >> -- >_______________ >*Maurizio Borghi* >Università di Torino >https://www.dg.unito.it/persone/maurizio.borghi >Co-Director Nexa Center for Internet & Society <https://nexa.polito.it/> > >My Webex room: https://unito.webex.com/meet/maurizio.borghi
-- Sent from my mobile phone. Please excuse my brevity and top-posting. _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
-- * * *Avv. Carlo Blengino* * * /Via Duchessa Jolanda n. 19,/ /10138 Torino (TO) - Italy/ /tel. +39 011 4474035/ Penalistiassociati.it
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa