Re: [nexa] AI Training is Copyright Infringement - Axel Voss

Sept. 8, 2024

      Tutto questo parlare di SALAMI mi ha fatto venire in mente un motto di
spirito che si ascolta talvolta ai tavoli di progettazione: "fare il maiale
dalla salsiccia", cioè ricostruire il modello originale dai dati di cui si
dispone. Si tratta ovviamente di un paradosso, perché certi processi di
trasformazione sono irreversibili.

L'analogia tra i LLM e i dati (immagini, testi) compressi con o senza
perdita è totalmente fuorviante, perché nei miliardi di parametri di una
rete neurale non si può ricavare all'inverso il dataset di training, né se
ne può leggere in chiaro alcun frammento. La costruzione di un LLM sembra
appunto un processo di trasformazione irreversibile.

Quando un LLM 'rigurgita' un frammento (ma questo è un evento eccezionale)
lo fa comunque in un processo generativo non deterministico in cui quel
frammento diviene temporaneamente "attrattore" in forza delle "tracce
mnestiche" che ha prodotto nei parametri, cioè qualche cifra decimale nelle
gigantesche matrici del modello. Ecco in omaggio, a tal proposito, un
articoletto
<https://ilmanifesto.it/e-se-chatgpt-fosse-un-autore-del-new-york-times/r/6sO...>
che scrissi a suo tempo per Il Manifesto.

La causa NYT vs OpenAI sta andando avanti, e credo che al momento vi siano
grandi team di informatici e legali che stanno analizzando a fondo la
questione. A riguardo, possiamo esprimere le nostre opinioni e le nostre
fantasie, ma credo che sarebbe ragionevole attendere e nel frattempo
studiare.

Una cosa però è certa: plagio o non plagio, i LLM estraggono (e rivendono)
valore da ciò che ingeriscono, sia al momento del training, sia
dinamicamente con tecniche di *retrieval augmented generation*. Tuttavia,
la situazione non è del tutto nuova: Google è già dovuta venire a patti per
il suo Google News Showcase. Il problema politico resta sempre quello della
giusta remunerazione del lavoro creativo, che le leggi sul copyright, anche
se rese più stringenti, non credo risolverebbero.

G.

On Sun, 8 Sept 2024 at 10:33, Maria Chiara Pievatolo <
mariachiara.pievatolo@unipi.it> wrote:
...
On 05/09/24 23:02, Daniela Tafani wrote:
...
Axel Voss, MEP and host of today's event in the European Parliament,
expressly thanks the scientists Dornis and Stober and is pleased that
“the study not only proves that the training of Generative AI models is
not covered by text and data mining, but that it also provides further
important indications and suggestions for a better balance between the
protection of human creativity and the promotion of AI innovation.”
“This study is explosive because it proves that we are dealing with
large-scale theft of intellectual property. The ball is now in the
politicians' court to draw the necessary conclusions and finally put an end
to this theft at the expense of journalists and other authors,”
commented Hanna Möllers, legal advisor to the DJV and representative of
the European Federation of Journalists (EFJ).
Axel Voss (https://en.wikipedia.org/wiki/Axel_Voss) citato qui sopra è
uno dei più accaniti sostenitori della direttiva copyright del 2019,
censorship machine
(
https://en.wikipedia.org/wiki/Directive_on_Copyright_in_the_Digital_Single_M...)
compresa. Cito la citazione che riporta wikipedia:
"this directive is an important step towards correcting a situation
which has allowed a few companies to earn huge sums of money without
properly remunerating the thousands of creatives and journalists whose
work they depend on"
Axel Voss non è un nemico dei monopoli intellettuali e dei loro
banchetti. Semplicemente desidera inasprire il copyright perché i
monopolisti tradizionali - che sono gli editori i quali si fanno cedere
il copyright dagli autori - ne ricevano qualche briciola.
*Dove i SAlAMI copiano alla lettera*, basta il copyright così com'è.
Dove i SALAMI rimescolano, bisognerebbe cambiare il copyright estendendo
a tutte le espressioni delle idee (recensioni, riassunti umani e no
etc.) la stessa disciplina che si applica, secondo me incoerentemente
(slide 22: https://zenodo.org/records/11163103),  alle traduzioni. Con
il risultato che i detentori del copyright (cioè per lo più gli editori)
potrebbero sequestrare buona parte del dibattito pubblico sulle "loro"
opere, come avviene con le traduzioni. Ed è poco rilevante che
Qui potete leggere di un paio di sequestri famosi, e catastrofici per
l'uso pubblico della ragione. In uno dei due la posta in gioco era
informare il pubblico statunitense delle idee di Hitler
https://btfp.sp.unipi.it/dida/kant_7/index.xhtml#idm181
L'idea di curare i monopoli, de iure o de facto, inasprendoli ed
estendendoli può apparire plausibile solo a chi già, come Axel Voss, li
apprezza. Le critiche di Doctorow
(
https://pluralistic.net/2024/03/13/hey-look-over-there/#lets-you-and-he-figh...)
mi sembrano ben fondate.
Oltre tutto, un copyright così inasprito ed esteso non impedirebbe
affatto agli editori di offrire i "propri" testi, a pagamento, per il
confezionamento di SALAMI. Soprattutto per gli editori scientifici
commerciali, che ricevono i loro testi gratis, sarebbe - ed è già - un
affarone.
"Bullies  want you to think they're on your side".
A presto,
MCP

Re: [nexa] AI Training is Copyright Infringement - Axel Voss

Guido Vetere