Re: [nexa] ChatGPT disabled for users in Italy

April 3, 2023

      Vorrei mettere alla prova il ragionamento di Carlo Blengino (se lo ho 
colto) su un punto.

Anticipo anche io la conclusione: ciò che viene generato dall'LLM non è 
un dato, ma un documento che rappresenta dati, e il modo in cui lo fa 
non è unicamente sintetico, ma favorisce la produzione di dati originali.

Mentre il documento prodotto da un motore di ricerca riporta 
prevalentemente dei collegamenti a documenti che /contengono/ i dati 
rilevanti, gli LLM  producono intenzionalmente un nuovo documento 
/riorganizzando/ i dati estratti dai documenti usati in partenza.

Diversamente dal motore di ricerca, che riporta i dati che 
effettivamente "rappresentano unicamente loro stessi", l'LLM li estrae e 
li introduce in un nuovo contesto secondo le esigenze della discorsività 
e dall'intenzione di apparire come un agente autonomo (che produce, 
appunto, un documento e non un elenco di puntatori).

Già questo mi parrebbe un trattamento, se riferito a dati personali. Se 
poi un documento generato, data l’oscurità ed erraticità del processo 
informatico, contiene dati (veri o falsi) non riferibili a documenti 
noti relativi alla stessa persona, non può chiamarsi 'sintetico' (lo 
chiamerei ironicamente 'poietico') e contribuisce con il proprio 
contenuto originale a una rappresentazione ulteriore della persona.

Ad esempio supponiamo che io chieda a un LLM una biografia di Tizio. 
Ammettiamo che il LLM attribuisca a Tizio anche un fatto che riguarda 
Caio suo omonimo. L'output sintetico/poietico raccoglie in una sola 
biografia elementi della vita di Tizio uniti ad altri della vita di 
Caio. Che magari sono anche veri, ma non suoi.

In tal modo introduce nel documento che rappresenta la vita di Tizio un 
dato che è totalmente nuovo tra i documenti che lo riguardano, e per 
questo motivo quella biografia diventa un dato originale su Tizio. 
Indipendentemente dal fatto che il dato attribuito sia vero o falso, chi 
lo genera e lo diffonde effettua un trattamento.

Altro esempio forse più forte ancora, quello del video deep-fake con la 
faccia di Tizio che lo rappresenta mentre fa qualcosa (qualcosa che non 
ha fatto o magari ha anche fatto, ma non in quell'occasione). Ammettiamo 
che il video (documento, non dato) sia diffuso senza precisare che si 
tratta di un elaborato fittizio (o satirico). Questo si aggiungerà ai 
dati reperibili su Tizio. Se per realizzare il fake vengono usati dati 
che ha conferito pubblicamente, Tizio ha diritto a opporsi a quello 
/specifico/ trattamento, anche se non ne riceve un danno immediato? E 
alla /possibilità/ che si effettui quel tipo di trattamento?

Non so se ho frainteso il ragionamento di Blengino, ma credo che meriti 
attenzione proprio il fatto che se anche il dato -/per se/- non 
rappresenta nulla, il documento che si riferisce alla persona può farlo: 
/la/ rappresenta. E che caratteristica di questi programmi sia proprio 
la generazione di documenti che anche senza esser veri sono  presentati 
in modo da essere verosimili.

Purtroppo la verosimiglianza è sufficiente perché i più si accontentino: 
come è stato detto in questa sede, ci mettiamo noi il resto.

Un saluto,

Alberto

On 03/04/23 17:56, Carlo Blengino wrote:
...
Provo ad inserirmi sul problema degli out-put falsi e “fantasiosi” con 
alcune considerazioni che non sono affatto sicuro stiano in piedi, ma 
la difficoltà del diritto non tanto a governare, quanto a comprendere 
e a collocare al suo interno, in norme e leggi, le realtà generate 
dalle nuove tecnologie è uno degli aspetti più affascinanti ed al 
contempo più complessi che questo tempo ci offre (Nexa nasce anche per 
questo!).
Parto dalla tesi di fondo, per poi argomentare.
I dati generati da ChatGPT ed in generale dalle attuali forme di AI 
Generativa, anche per immagini come Dall-e, anche quando 
apparentemente riferibili ad una persona fisica identificata o 
identificabile, *non dovrebbero mai esser considerati dati personali*, 
e ciò a prescindere dalla loro verità/falsità o dalla loro più o meno 
marcata aderenza alla realtà.
Sono dati sintetici che non rappresentano altro se non loro stessi.
Per comprendere l’affermazione, forse azzardata, è bene definire cosa 
è un dato per il diritto: il dato è /una rappresentazione di fatti, 
informazioni o concetti/. Il dato informatico è sin dalla Convenzione 
di Budapest del 2001 definito come una “presentazione di fatti, 
informazioni o concetti in forma suscettibile di essere utilizzata in 
un sistema computerizzato…”
Ora, per quanto ho capito io anche leggendo i contributi passati su 
questa lista, le frasi generate da ChatGPT, come le immagini di 
Dall-e, sono sempre “false”, o meglio “contraffatte”, anche quando 
corrispondono per “magia” (i millemila parametri) a fatti, concetti o 
informazioni reali.
Sono artefatti sintetici (come la carne, che in effetti l’abbiamo 
vietata Sic!) generati da una macchina che non ha alcuna contezza di 
ciò che il dato vuole rappresentare (e che è poi ciò che 
ontologicamente caratterizza il "dato"). E se ho ben capito, non ne 
hanno contezza neanche i “padroni” della macchina, che agisce in 
autonomia generando quegli pseudo-dati (pseudo-informazioni) più o 
meno plausibili.
Con le foto è altrettanto evidente: l’immagine generata da Dall-e può 
esser identica alla realtà (una veduta di Mondovì, per dire..) o 
rappresentare realisticamente un “fatto” mai accaduto (le foto 
dell’arresto di Trump) ma in entrambi i casi l’artefatto non è e non 
può esser "vero", o meglio, non ha le caratteristiche informative (i 
dati) che noi attribuiamo alla fotografia come rappresentazione di un 
fatto, in un dato tempo e in un dato posto.
Le creazioni di questi sistemi, da quel che ho capito, anche quando 
appaiono “dati” personali, rappresentano unicamente loro stessi, 
ovvero una sequenza di parole o numeri o di pixels, e null’altro.
Per questo a mio giudizio quei dati non dovrebbero esser oggetto /ex 
sé/ di protezione e di tutela alcuna. Non contengono alcuna 
rappresentazione di fatti concetti o informazioni in qualche modo 
degni di tutela dall’ordinamento (infatti non c'è diritto d'autore, 
che comunque è un diritto intimamente legato nei suoi aspetti morali 
all’identità della persona, esattamente come il diritto alla 
protezione dei dati).
Pensare di tutelare e  “proteggere” come dati personali gli out-put di 
questi sistemi significa oggi conferire loro una valenza che non hanno 
ed avallare temo l’allucinazione che stiamo vivendo con l’intelligenza 
artificiale.
Queste considerazioni non vogliono negare le potenzialità lesive di 
quei dati sintetici o la pericolosità delle macchine che li generano, 
ma consentono di spostare il focus e l’attenzione da quel dato che non 
"rappresenta" nulla (se non se stesso), all'uso che di quell’artefatto 
sintetico e delle macchine che lo producono ne facciamo noi umani.
Forse il mio ragionamento non sta in piedi, ma io sotto il profilo 
“protezione dei dati personali” vedo enormi e quasi insormontabili 
problemi in relazione ai data-set di addestramento (e a mio giudizio 
non sono problemi legati agli errori di output quanto meno in 
relazione al GDPR) e vedo problemi possibili ma a me (e temo anche al 
Garante) ignoti in relazione ai dati degli utenti/fruitori ed ai dati 
da questi immessi nel prompt.
Trovo invece un po’ folle pensare di attenzionare le risposte 
sbagliate, attribuendo a quei non-dati uno status di tutela che, a mio 
giudizio, allo stato dell’arte, non dovrebbero avere.
Ultima annotazione: l’uso di dati falsi, inesatti o le lesioni ad 
onore e reputazione legati all’uso di informazioni comunque ottenute 
da quegli artefatti sono tutte condotte adeguatamente presidiate 
dall’ordinamento. Assai più preoccupante e poco presidiata la folle 
corsa alle API ed all’utilizzo di quei sistemi per automatizzare 
processi diversi come search...vedremo.
CB
Il giorno lun 3 apr 2023 alle ore 07:19 Stefano Zacchiroli 
<zack@upsilon.cc> ha scritto:
Certo. Ma questo è l'altro aspetto: quello del trattamento dei
    dati in *input* a ChatGPT, che esiste ed è potenzialmente
    problematico dal punto di vista della privacy, a prescindere dalla
    veridicità delle risposte date.
La mia domanda era su quale sia l'impatto della falsità
    dell'*output* (che sollevavi come fattore a se stante nella mail
    precedente) sui profili giuridici di violazione della privacy.
Saluti
On April 2, 2023 11:22:03 PM GMT+02:00, Maurizio Borghi
    <maurizio.borghi@unito.it> wrote:
    >On Sun, 2 Apr 2023 at 20:19, Stefano Zacchiroli <zack@upsilon.cc>
    wrote:
    >
    >>
    >> Che GhatGPT dica panzane a proposito di persone specifiche
    (viventi) è
    >> in effetti evidente a tutti. Ma, da non giurista, faccio veramente
    >> fatica a capire perché questo ponga problemi al Garante per la
    >> protezione dei dati personali. Se pubblico un sito web pieno di
    panzane
    >> su persone viventi, il Garante ha il potere di farmelo
    chiudere? Direi
    >> (sempre da non giurista), che al massimo rischio una querela per
    >> diffamazione
    >
    >
    >Se la produzione di quelle panzane richiede il trattamento dei
    dati di
    >milioni di ignari cittadini, allora sì, attrai le ire del Garante
    (oltre
    >che quelle dei destinatari delle tue panzane).
    >
    >>
    >> --
    >_______________
    >*Maurizio Borghi*
    >Università di Torino
    >https://www.dg.unito.it/persone/maurizio.borghi
    >Co-Director Nexa Center for Internet & Society
    <https://nexa.polito.it/>
    >
    >My Webex room: https://unito.webex.com/meet/maurizio.borghi
-- 
    Sent from my mobile phone. Please excuse my brevity and top-posting.
    _______________________________________________
    nexa mailing list
    nexa@server-nexa.polito.it
    https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
-- 
*
*
*Avv. Carlo Blengino*
*
*
/Via Duchessa Jolanda n. 19,/
/10138 Torino (TO) - Italy/
/tel. +39 011 4474035/
Penalistiassociati.it
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Re: [nexa] ChatGPT disabled for users in Italy

Alberto Cammozzo