Salve Carlo,
ciò che non è legale per un essere umano, non deve esserlo nemmeno per
un automatismo creato o amministrato da un essere umano.
Pena la fine dello stato di diritto.
Ma prima di provare a spiegare cosa non regge della tua analisi, vorrei
porti una domanda: perché senti questa urgenza di difendere un software?
Davvero, ti prego di rifletterci e rispondere perché sono sinceramente
curioso sui tuoi moventi profondi. E' probabile che mi aiutino a
comprendere i miei.
On Mon, 3 Apr 2023 17:56:41 +0200 Carlo Blengino wrote:
> I dati generati da ChatGPT ed in generale dalle attuali forme di AI
> Generativa, anche per immagini come Dall-e, anche quando
> apparentemente riferibili ad una persona fisica identificata o
> identificabile, *non dovrebbero mai esser considerati dati
> personali*, e ciò a prescindere dalla loro verità/falsità o dalla
> loro più o meno marcata aderenza alla realtà.
>
> Sono dati sintetici che non rappresentano altro se non loro stessi.
Per efficienza, proviamo a partire da due semplici definizioni:
- informazione: esperienza soggettiva di pensiero comunicabile
- dato: rappresentazione (su un supporto trasferibile) interpretabile
come informazione da una mente umana
L'informazione esiste solo nelle nostre menti e non esce mai dai nostri
crani, ma grazie al linguaggio abbiamo inventato un protocollo che ci
permette di sincronizzare le nostre menti, ricreando nella mente del
destinatario un informazione analoga (ma mai identica) a quella
condivisa da un mittente.
Il dato è una rappresentazione, ovvero (per semplificare) un insieme di
simboli che imprimiamo o facciamo imprimere su un supporto trasferibile
nello spazio o nel tempo, affinché siano interpretati come informazione
da una o più altre menti umane, lontane nello spazio o nel tempo.
Questa definizione, prettamente informatica, di "dato" coincide con la
definizione che hai condiviso da un punto di vista giuridico:
> Per comprendere l’affermazione, forse azzardata, è bene definire cosa
> è un dato per il diritto: il dato è *una rappresentazione di fatti,
> informazioni o concetti*. Il dato informatico è sin dalla Convenzione
> di Budapest del 2001 definito come una “presentazione di fatti,
> informazioni o concetti in forma suscettibile di essere utilizzata in
> un sistema computerizzato…”
Presentazione e rappresentazione sono produzioni umane.
La forma suscettibile di essere utilizzata in un sistema computerizzato
è ormai del tutto irrilevante: in qualsiasi forma un'informazione
(fatti, informazioni o concetti) venga presentata, è possibile
costruire un software in grado di utilizzarla.
Omessa questa specificazione ormai irrilevante, le due definizioni
coincidono.
> Le creazioni di questi sistemi, da quel che ho capito, anche quando
> appaiono “dati” personali, rappresentano unicamente loro stessi,
> ovvero una sequenza di parole o numeri o di pixels, e null’altro.
L'output di un software è sempre un dato.
Anche una sequenza casuale di simboli è un dato (peraltro estremamente
prezioso, se realmente casuale).
Non solo perché rappresenta sempre qualcosa di interpretabile, come
minimo, come l'applicazione di un certo numero di trasformazioni ad un
certo input.
E' un dato perché è interpretabile dall'uomo secondo il significato che
chi ha progettato, realizzato e documentato il software che lo ha
prodotto, vuole che gli sia attribuito.
Nel caso di ChatGPT, tale significato è letteralmente il significato
che la tua mente vi attribuisce leggendolo.
Quel software è stato realizzato da qualcuno con la precisa intenzione
di far produrre un output che la tua mente interpreti come informazione.
Dunque non solo la tua mente interpreta i dati di quell'output come
informazione, ma chi ha realizzato e mantiene in esecuzione quel
software è il mittente di quel messaggio, dell'informazione veicolata
da quell'output.
Questo rimane vero qualunque disclaimer Open AI possa mettere
all'ingresso dell'applicazione.
Quello che leggi è e rimane un dato prodotto per conto di qualcuno
(Open AI, Microsoft etc...) affinché la tua mente lo riesca ad
interpretare come informazione.
Il fatto che nessuno, dentro Open AI, abbia materialmente espresso la
sequenza di parole che leggi è irrilevante: hanno espresso il software
che lo ha prodotto al loro posto e per loro volontà.
Sono loro gli autori dell'output di GPT4.
Se io scrivessi un software che, quando eseguito, produce in output una
poesia come combinazione di una serie di versi che io ho scritto, tu
non avresti problemi (credo) a riconoscere in me sia l'autore del
software che l'autore dell'opera prodotta dal software stesso.
E questo rimarrebbe vero se anche la sequenza prodotta non
corrispondesse (magari a causa di un bug) a quella che io avevo in
mente durante la scrittura del software.
E se le sequenze possibili fossero N, tutte previste dal mio codice,
non avresti comunque problema a riconoscere me sia come autore del
software sia come autore delle opere da esso prodotte in output.
Il software, di fatto, sarebbe una forma compressa di quelle
N opere in output.
Con ChatGPT è esattamente la stessa cosa.
L'unica differenza è che nessuno si vuole assumere la responsabilità di
quell'output perché chi l'ha programmato non si è preoccupato delle
conseguenze e degli errori.
Ora, appurato che l'output di ChatGPT è un dato (in quanto
rappresentazione INTERPRETABILE come informazione) dobbiamo chiarire se
possa essere un dato personale.
In questo caso, come già chiarito da Benedetto Ponti, se il dato fa
riferimento (ovvero può essere interpretato da una mente umana come
facente riferimento) ad una persona fisica identifica o identificabile,
allora è un dato personale.
Che sia vero, falso o NULL (con un valore di verità ignoto al lettore)
è irrilevante: quel dato produce nella mente di chi lo legge
un'informazione riferita ad una persona.
Tale persona, va protetta.
Il fatto che ChatGPT non abbia intenzionalità è irrilevante: è uno
strumento creato da persone con intenzioni precise, e attua
costantemente tali intenzioni.
Dunque, non dobbiamo proteggere le persone da ChatGPT, ma da chi lo ha
creato e lo controlla.
In un mondo in cui un software sufficientemente opaco può violare i
diritti delle persone, chi li può produrre e controllare sarebbe
sempre al di sopra della legge.
Scaricare la responsabilità delle violazioni del diritto d'autore o del
diritto alla protezione dei dati personali sugli utilizzatori del
software è veramente ridicolo.
Il loro contributo alla produzione dell'output è quasi irrilevante se
confrontato con l'enorme lavoro di programmazione statistica e l'enorme
quantità di dati e di energia utilizzati per la produzione del software
e del suo output. Output che, non dimentichiamolo, riproduce
token/lemmi/parole presenti nel proprio enorme "binario matriciale".
> Trovo invece un po’ folle pensare di attenzionare le risposte
> sbagliate, attribuendo a quei non-dati uno status di tutela che, a
> mio giudizio, allo stato dell’arte, non dovrebbero avere.
No attenzione: gli output contenenti dati personali (veri o falsi che
siano) sono solo uno dei problemi.
C'è l'utilizzo di dati personali durante la programmazione statistica
senza un esplicito permesso degli interessati nonché la pretesa
impossibilità di esercitare il diritto ad eliminare quei dati dal
modello (impossibilità che non esiste: basta rifare la programmazione
statistica senza, per quanto costoso possa essere) o l'impossibilità di
emendare dati errati.
Un software che non possa strutturalmente rispettare i diritti umani
semplicemente non va eseguito.
> Ultima annotazione: l’uso di dati falsi, inesatti o le lesioni ad
> onore e reputazione legati all’uso di informazioni comunque ottenute
> da quegli artefatti sono tutte condotte adeguatamente presidiate
> dall’ordinamento. Assai più preoccupante e poco presidiata la folle
> corsa alle API ed all’utilizzo di quei sistemi per automatizzare
> processi diversi come search...vedremo.
Una volta che l'output è prodotto, l'uso che chi lo riceve ne fa è
presidiato, siamo d'accordo. Mal presidiato, ma presidiato.
Ma qui non stiamo parlando di questo: stiamo parlando di ciò che
ChatGPT fa per conto di chi lo ha realizzato e lo amministra.
ChatGPT (e GPT4) è un software che qualcuno esegue.
Se bastasse introdurre un software per non rispondere di un reato,
allora non dovremmo rispondere di qualsiasi violazione del diritto
d'autore perché la rimozione delle ridicole restrizioni imposte dal DRM
viene sempre fatto da un software.
O ancora, la pubblicazione di dati personali sottratti ad un individuo
su un sito web non dovrebbe costituire un reato perché il server web
che li distribuisce è un software che li produce in output per mio conto
esattamente come ChatGPT produce output le sue risposte per conto di
Open AI.
Per questo la tua argomentazione non regge Carlo.
Ciò che non è legale per un essere umano, non deve esserlo nemmeno per
un automatismo creato o amministrato da un essere umano.
Pena la fine dello stato di diritto.
Giacomo
_______________________________________________
nexa mailing list