Salve Carlo, ciò che non è legale per un essere umano, non deve esserlo nemmeno per un automatismo creato o amministrato da un essere umano. Pena la fine dello stato di diritto. Ma prima di provare a spiegare cosa non regge della tua analisi, vorrei porti una domanda: perché senti questa urgenza di difendere un software? Davvero, ti prego di rifletterci e rispondere perché sono sinceramente curioso sui tuoi moventi profondi. E' probabile che mi aiutino a comprendere i miei. On Mon, 3 Apr 2023 17:56:41 +0200 Carlo Blengino wrote:
I dati generati da ChatGPT ed in generale dalle attuali forme di AI Generativa, anche per immagini come Dall-e, anche quando apparentemente riferibili ad una persona fisica identificata o identificabile, *non dovrebbero mai esser considerati dati personali*, e ciò a prescindere dalla loro verità/falsità o dalla loro più o meno marcata aderenza alla realtà.
Sono dati sintetici che non rappresentano altro se non loro stessi.
Per efficienza, proviamo a partire da due semplici definizioni: - informazione: esperienza soggettiva di pensiero comunicabile - dato: rappresentazione (su un supporto trasferibile) interpretabile come informazione da una mente umana L'informazione esiste solo nelle nostre menti e non esce mai dai nostri crani, ma grazie al linguaggio abbiamo inventato un protocollo che ci permette di sincronizzare le nostre menti, ricreando nella mente del destinatario un informazione analoga (ma mai identica) a quella condivisa da un mittente. Il dato è una rappresentazione, ovvero (per semplificare) un insieme di simboli che imprimiamo o facciamo imprimere su un supporto trasferibile nello spazio o nel tempo, affinché siano interpretati come informazione da una o più altre menti umane, lontane nello spazio o nel tempo. Questa definizione, prettamente informatica, di "dato" coincide con la definizione che hai condiviso da un punto di vista giuridico:
Per comprendere l’affermazione, forse azzardata, è bene definire cosa è un dato per il diritto: il dato è *una rappresentazione di fatti, informazioni o concetti*. Il dato informatico è sin dalla Convenzione di Budapest del 2001 definito come una “presentazione di fatti, informazioni o concetti in forma suscettibile di essere utilizzata in un sistema computerizzato…”
Presentazione e rappresentazione sono produzioni umane. La forma suscettibile di essere utilizzata in un sistema computerizzato è ormai del tutto irrilevante: in qualsiasi forma un'informazione (fatti, informazioni o concetti) venga presentata, è possibile costruire un software in grado di utilizzarla. Omessa questa specificazione ormai irrilevante, le due definizioni coincidono.
Le creazioni di questi sistemi, da quel che ho capito, anche quando appaiono “dati” personali, rappresentano unicamente loro stessi, ovvero una sequenza di parole o numeri o di pixels, e null’altro.
L'output di un software è sempre un dato. Anche una sequenza casuale di simboli è un dato (peraltro estremamente prezioso, se realmente casuale). Non solo perché rappresenta sempre qualcosa di interpretabile, come minimo, come l'applicazione di un certo numero di trasformazioni ad un certo input. E' un dato perché è interpretabile dall'uomo secondo il significato che chi ha progettato, realizzato e documentato il software che lo ha prodotto, vuole che gli sia attribuito. Nel caso di ChatGPT, tale significato è letteralmente il significato che la tua mente vi attribuisce leggendolo. Quel software è stato realizzato da qualcuno con la precisa intenzione di far produrre un output che la tua mente interpreti come informazione. Dunque non solo la tua mente interpreta i dati di quell'output come informazione, ma chi ha realizzato e mantiene in esecuzione quel software è il mittente di quel messaggio, dell'informazione veicolata da quell'output. Questo rimane vero qualunque disclaimer Open AI possa mettere all'ingresso dell'applicazione. Quello che leggi è e rimane un dato prodotto per conto di qualcuno (Open AI, Microsoft etc...) affinché la tua mente lo riesca ad interpretare come informazione. Il fatto che nessuno, dentro Open AI, abbia materialmente espresso la sequenza di parole che leggi è irrilevante: hanno espresso il software che lo ha prodotto al loro posto e per loro volontà. Sono loro gli autori dell'output di GPT4. Se io scrivessi un software che, quando eseguito, produce in output una poesia come combinazione di una serie di versi che io ho scritto, tu non avresti problemi (credo) a riconoscere in me sia l'autore del software che l'autore dell'opera prodotta dal software stesso. E questo rimarrebbe vero se anche la sequenza prodotta non corrispondesse (magari a causa di un bug) a quella che io avevo in mente durante la scrittura del software. E se le sequenze possibili fossero N, tutte previste dal mio codice, non avresti comunque problema a riconoscere me sia come autore del software sia come autore delle opere da esso prodotte in output. Il software, di fatto, sarebbe una forma compressa di quelle N opere in output. Con ChatGPT è esattamente la stessa cosa. L'unica differenza è che nessuno si vuole assumere la responsabilità di quell'output perché chi l'ha programmato non si è preoccupato delle conseguenze e degli errori. Ora, appurato che l'output di ChatGPT è un dato (in quanto rappresentazione INTERPRETABILE come informazione) dobbiamo chiarire se possa essere un dato personale. In questo caso, come già chiarito da Benedetto Ponti, se il dato fa riferimento (ovvero può essere interpretato da una mente umana come facente riferimento) ad una persona fisica identifica o identificabile, allora è un dato personale. Che sia vero, falso o NULL (con un valore di verità ignoto al lettore) è irrilevante: quel dato produce nella mente di chi lo legge un'informazione riferita ad una persona. Tale persona, va protetta. Il fatto che ChatGPT non abbia intenzionalità è irrilevante: è uno strumento creato da persone con intenzioni precise, e attua costantemente tali intenzioni. Dunque, non dobbiamo proteggere le persone da ChatGPT, ma da chi lo ha creato e lo controlla. In un mondo in cui un software sufficientemente opaco può violare i diritti delle persone, chi li può produrre e controllare sarebbe sempre al di sopra della legge. Scaricare la responsabilità delle violazioni del diritto d'autore o del diritto alla protezione dei dati personali sugli utilizzatori del software è veramente ridicolo. Il loro contributo alla produzione dell'output è quasi irrilevante se confrontato con l'enorme lavoro di programmazione statistica e l'enorme quantità di dati e di energia utilizzati per la produzione del software e del suo output. Output che, non dimentichiamolo, riproduce token/lemmi/parole presenti nel proprio enorme "binario matriciale".
Trovo invece un po’ folle pensare di attenzionare le risposte sbagliate, attribuendo a quei non-dati uno status di tutela che, a mio giudizio, allo stato dell’arte, non dovrebbero avere.
No attenzione: gli output contenenti dati personali (veri o falsi che siano) sono solo uno dei problemi. C'è l'utilizzo di dati personali durante la programmazione statistica senza un esplicito permesso degli interessati nonché la pretesa impossibilità di esercitare il diritto ad eliminare quei dati dal modello (impossibilità che non esiste: basta rifare la programmazione statistica senza, per quanto costoso possa essere) o l'impossibilità di emendare dati errati. Un software che non possa strutturalmente rispettare i diritti umani semplicemente non va eseguito.
Ultima annotazione: l’uso di dati falsi, inesatti o le lesioni ad onore e reputazione legati all’uso di informazioni comunque ottenute da quegli artefatti sono tutte condotte adeguatamente presidiate dall’ordinamento. Assai più preoccupante e poco presidiata la folle corsa alle API ed all’utilizzo di quei sistemi per automatizzare processi diversi come search...vedremo.
Una volta che l'output è prodotto, l'uso che chi lo riceve ne fa è presidiato, siamo d'accordo. Mal presidiato, ma presidiato. Ma qui non stiamo parlando di questo: stiamo parlando di ciò che ChatGPT fa per conto di chi lo ha realizzato e lo amministra. ChatGPT (e GPT4) è un software che qualcuno esegue. Se bastasse introdurre un software per non rispondere di un reato, allora non dovremmo rispondere di qualsiasi violazione del diritto d'autore perché la rimozione delle ridicole restrizioni imposte dal DRM viene sempre fatto da un software. O ancora, la pubblicazione di dati personali sottratti ad un individuo su un sito web non dovrebbe costituire un reato perché il server web che li distribuisce è un software che li produce in output per mio conto esattamente come ChatGPT produce output le sue risposte per conto di Open AI. Per questo la tua argomentazione non regge Carlo. Ciò che non è legale per un essere umano, non deve esserlo nemmeno per un automatismo creato o amministrato da un essere umano. Pena la fine dello stato di diritto. Giacomo