Re: [nexa] AI Training is Copyright Infringement

Sept. 7, 2024

      Ciao, Stefano,

sì, Sam Altman lo ha detto pubblicamente qualche mese fa:
OpenAI Pleads That It Can’t Make Money Without Using Copyrighted Materials for Free
"It would be impossible to train today’s leading AI models without using copyrighted materials."
<https://futurism.com/the-byte/openai-copyrighted-material-parliament>

Ed è ormai noto che i "pappagalli stocastici" sono più pappagalli del previsto;
capita infatti che riproducano integralmente le immagini o i testi utilizzati per il "training":
<https://qz.com/openai-chatgpt-anthropic-claude-copyright-law-violation-18513...>

Proprio in virtù di questo secondo aspetto, eviterei di cercare nel copyright la soluzione:
come scrive spesso Cory Doctorow, sarebbe come se ai tuoi bambini un gruppo di bulli rubasse sempre i soldi della merenda, davanti alla scuola,
e tu pensassi di risolvere il problema dando ai bambini più soldi.

Il punto che a me sembra decisivo è quello del plagio:
se si tratta di macchine per il plagio, è da questo che si deve prendere avvio.

I SALAMI copioni in distribuzione al momento si basano su pagine web, libri,
messaggi di posta elettronica, post privati e non, trascrizioni di video Youtube*, foto e video
che rigurgitano talvolta alla lettera (o all'ultimo pixel),
senza che sia possibile risalire alla fonte.

Per questo, i disabili si sono rivoltati contro gli organizzatori del National Novel Writing Month**,
che hanno ammesso l'uso di SALAMI (per scrivere il racconto da presentare al concorso) e tacciato di "classism and ableism" chi lo respinga.
Così, hanno replicato le associazioni di disabili, state sostenendo che noi siamo in grado soltanto di plagiare.

Se qualcuno scrive una poesia e la invia ai suoi amici con il servizio di posta elettronica offertogli da un monopolista,
la poesia sarà ovviamente insaccata e un SALAME potrà rigurgitarla per intero, pari pari,
al primo artista in stile NaNoWriMo, il quale si affretterà a pubblicarla, ben felice di questa "democratizzazione" del talento.

E nessun software antiplagio avrà da ridire.

Lo stesso per le immagini: si crede che siano "sintetiche" e a volte sono invece la foto di una persona esistente
(ad esempio, di una paziente, intubata, all'ospedale, che aveva dato il consenso soltanto ad essere curata).
Dopodiché qualcuno farà fare al SALAME un film porno a partire dalla foto "sintetica" e lo farà circolare.

Non escludo che la quota di testo rigurgitato sia enormemente più alta di quanto si stimi al momento
e che non ci accorgiamo della marea di plagi solo perché nessuno ha un database di tutto il web (post sui social inclusi) e di tutti i messaggi di posta elettronica.

Se si tratta di macchine per il plagio, mi pare che

- i sistemi attualmente distribuiti dai monopolisti siano irredimibili, visto che possono rigurgitare, e rigurgitano, dati privati di ogni genere
  o brandelli di opere dell'ingegno senza che sia possibile anche solo citarne l'autore;
- i sistemi costruiti a partire da dataset curati e documentati sarebbero comunque macchine per il plagio e dovrebbero essere utilizzati o distribuiti
quanto è lecito che lo siano, entro ciascun ordinamento giuridico, macchine che estrudano, a sorpresa e senza indicazione delle fonti,
testi o immagini che sono opere del lavoro di qualcuno.

Senza nominare il fatto che si tratta di sistemi che, sebbene non siano in grado di portarci via il lavoro,
di certo ci stanno portando via l'acqua
<https://www.context.news/ai/video/forget-jobs-ai-is-coming-for-your-water>

Credo che convenga solo ai broligarchs la rinuncia alle coltivazioni di riso
per un datacenter che può farci avere qualche immagine dei campi di riso o qualche penosa frase in rima sui medesimi.

Un saluto,
Daniela

*<https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artif...>
** <https://www.wired.com/story/nanowrimo-organizers-classist-and-ableist-to-con...>
________________________________________
Da: Stefano Quintarelli <stefano@quintarelli.it>
Inviato: sabato 7 settembre 2024 16:47
A: Daniela Tafani
Oggetto: Re: [nexa] AI Training is Copyright Infringement

Daniela,
come prendono i testi dai libri ?
usano file piratati o rompono loro il DRM ?
in ogni caso la fonte e' illecita
imho

On 06/09/24 14:09, Daniela Tafani wrote:
...
Caro Giacomo, caro 380°,
...
...
Tuttavia NON è ciò che avviene durante la programmazione statistica di
un "AI generativa" che è semplicemente un'opera derivata dei dati
sorgente
...
Il software (programmato statisticamente) è un'opera derivata dei testi
(dati?) utilizzati per il "machine learning": ho capito bene?
...
Per essere considerata opera derivata, è mio modestissimo parere che
tale opera debba essere espressa in una forma (linguaggio) comprensibile
agli umani, ma non mi pare proprio che il software programmato
statisticamente (che è del tutto analogo al software binario) rientri in
questa categoria.
...
...
non troppo dissimile da un jpeg o da uno zip danneggiato ma
ancora utilizzabile.
...
...oppure ho capito male e tu non ti stai riferendo al software
(binario) come opera derivata ma all'output dei sistem "AI generativi"?
La questione che state discutendo è l'elemento che mi ha indotta a segnalarvi l'articolo.
Ted Chiang l'ha posta sostenendo che ChatGPT sia come un certo tipo di fotocopiatrice:
quello che produce è un "JPEG sfuocato del web", una "lossy compression" del web*,
che potrebbe essermi utile, ad esempio, se stessi per perdere per sempre l'accesso a Internet
e volessi salvare tutto il testo del web su un server privato, in uno spazio pari a un centesimo dell'originale.
Con una simile compressione di gruppo, non potrei più avere accesso alle opere nella loro forma originale,
ma potrei ottenerne, per interpolazione, delle approssimazioni, tramite queries dalla forma di domande
(senza alcuna garanzia che il sistema sia in grado anche solo di indicare il titolo della singola opera originaria).
A me pare che questo modo di concettualizzare la questione fornisca un buon punto di partenza per discuterne, dal punto di vista politico.
Un saluto,
Daniela
*https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg...
--
You can reach me on Signal: @quinta.01 (no Whatsapp, Telegram)

Daniela Tafani

tags

participants (1)