Re: [nexa] AI Training is Copyright Infringement

Sept. 8, 2024

      Caro Giancarlo,

Mi spiace averti stancato, per cui non ti tedierò con le ovvie differenze fra un LLM 
(che è una compressione lossy eseguibile dei testi sorgente) e Google Books (che è una
semplice interfaccia web su _estratti_
di quei testi).

Tuttavia credo sia importante chiarire un aspetto che le tue considerazioni riportano alla mente

Il 8 Settembre 2024 18:13:43 UTC, GC F ha scritto:
...
Il materiale non è usato per il suo valore espressivo,
se così fosse Microsoft & friends non starebbero pagando scrittori e giornalisti per
scrivere testi che nessuno leggerà mai!

Lo fanno proprio perché sanno benissimo che il loro software non contiene idee ma espressioni.

SOLO espressioni.

Se l'uso delle espressioni originali negli LLM fosse "trasformativo", la presenza di espressioni
prodotte in output da altri LLM nei dataset sorgente non sarebbe un problema.

Invece il problema del "model collapse" deriva proprio dal fatto che l'output di un LLM
non ha alcun "valore espressivo", contrariamente alle opere originali.
...
quindi la creazione del software/modello non ha effetti sul
valore di mercato dell'opera originale utilizzata - non la sostituisce.
Non stiamo parlando del valore di mercato di un'opera, ma del valore di mercato dei
diritti di sfruttamento ad essa connessi.

In particolare del valore di mercato del diritto a creare opere derivate (l'LLM).

Questo diritto può essere ceduto per un corrispettvo che chi programma LLM non
sta pagando.

Se lo pagasse, il valore di mercato di quel diritto di sfruttamento economico dell'opera
aumenterebbe notevolmente, perché le varie aziende che producono LLM 
si contenderebbero il diritto di creare LLM derivati dalle opere migliori.

Lo vedi bene nell'articolo citato da Antonio in un altro thread, dove i diritti su articoli che 
nessuno leggerà mai e che dunque non avrebbero alcun valore di mercato, 
acquisiscono un valore comparabile a quello corrisposto da un giornale che li pubblica.
...
Si potrebbe discutere se quegli effetti sostitutivi ci siano nel contesto
della produzione degli output di quel modello, ma è altra questione
Vero, è un'altra questione: i modelli delle "AI generative" sono archivi compressi 
(con perdita di informazioni).

Non sostituiscono una singola opera.
Sono surrogati di tutte le opere usate per programmarli e di ciascuna di esse.

Surrogati di qualità variabile, ma pur sempre surrogati.

Come una jpeg compressa di una serie di dipinti affiancati sarebbe un surrogato di
tutti i dipinti inclusi e di ciascuno.

I loro output però sono evidenti surrogati per le opere da cui derivano.

Se così non fosse, non ci sarebbero decine
di pubblicazioni scientifiche che li riportano,
citando articoli mai scritti che gli autori non hanno nemmeno provato ad acquistare
(con buona pace della favola delle peer review).

E ricorderai anche tu il caso dell'avvocato che presentò al giudice un documento pieno
di riferimenti giurisprudenziali inesistenti perché prodotto con un LLM.
Riferimenti giurisprudenziali a testi che lui non aveva nemmeno provato a comprare,
accontentandosi del surrogato fornito dal LLM.

D'altronde chi usa le "AI generative" per "generare" contenuti non può proprio acquistare
le opere originali da cui quei contenuti sono tratti, neənche volendo.

Non solo perché a volte si tratta di chat o mail private, testi inediti etc... ma perché 
gli LLM non sono in grado di fornire i riferimenti corretti (anche quando ne forniscono
di esistenti) proprio per come funzionano.
...
Il mio riferimento precedente alla τέχνη era un'allusione a un dibattito
millenario. Non si può ridurre tutto alla τέχνη;
Perché, la Giurisprudenza non è essa stessa un'arte?

Giacomo

PS: non sentirti in alcun modo obbligato a rispondere se non ti va... 
e se preferisci possiamo continuare in privato.

Re: [nexa] AI Training is Copyright Infringement

Giacomo Tesio