Tutto questo parlare di SALAMI mi ha fatto venire in mente un motto di spirito che si ascolta talvolta ai tavoli di progettazione: "fare il maiale dalla salsiccia", cioè ricostruire il modello originale dai dati di cui si dispone. Si tratta ovviamente di un paradosso, perché certi processi di trasformazione sono irreversibili.

L'analogia tra i LLM e i dati (immagini, testi) compressi con o senza perdita è totalmente fuorviante, perché nei miliardi di parametri di una rete neurale non si può ricavare all'inverso il dataset di training, né se ne può leggere in chiaro alcun frammento. La costruzione di un LLM sembra appunto un processo di trasformazione irreversibile.

Quando un LLM 'rigurgita' un frammento (ma questo è un evento eccezionale) lo fa comunque in un processo generativo non deterministico in cui quel frammento diviene temporaneamente "attrattore" in forza delle "tracce mnestiche" che ha prodotto nei parametri, cioè qualche cifra decimale nelle gigantesche matrici del modello. Ecco in omaggio, a tal proposito, un articoletto che scrissi a suo tempo per Il Manifesto.

La causa NYT vs OpenAI sta andando avanti, e credo che al momento vi siano grandi team di informatici e legali che stanno analizzando a fondo la questione. A riguardo, possiamo esprimere le nostre opinioni e le nostre fantasie, ma credo che sarebbe ragionevole attendere e nel frattempo studiare.

Una cosa però è certa: plagio o non plagio, i LLM estraggono (e rivendono) valore da ciò che ingeriscono, sia al momento del training, sia dinamicamente con tecniche di retrieval augmented generation. Tuttavia, la situazione non è del tutto nuova: Google è già dovuta venire a patti per il suo Google News Showcase. Il problema politico resta sempre quello della giusta remunerazione del lavoro creativo, che le leggi sul copyright, anche se rese più stringenti, non credo risolverebbero.

On Sun, 8 Sept 2024 at 10:33, Maria Chiara Pievatolo <mariachiara.pievatolo@unipi.it> wrote:

On 05/09/24 23:02, Daniela Tafani wrote:

> Axel Voss, MEP and host of today's event in the European Parliament, expressly thanks the scientists Dornis and Stober and is pleased that
>
> “the study not only proves that the training of Generative AI models is not covered by text and data mining, but that it also provides further important indications and suggestions for a better balance between the protection of human creativity and the promotion of AI innovation.”
> “This study is explosive because it proves that we are dealing with large-scale theft of intellectual property. The ball is now in the politicians' court to draw the necessary conclusions and finally put an end to this theft at the expense of journalists and other authors,”
> commented Hanna Möllers, legal advisor to the DJV and representative of the European Federation of Journalists (EFJ).

Axel Voss (https://en.wikipedia.org/wiki/Axel_Voss) citato qui sopra è
uno dei più accaniti sostenitori della direttiva copyright del 2019,
censorship machine
(https://en.wikipedia.org/wiki/Directive_on_Copyright_in_the_Digital_Single_Market#Article_13)
compresa. Cito la citazione che riporta wikipedia:

"this directive is an important step towards correcting a situation
which has allowed a few companies to earn huge sums of money without
properly remunerating the thousands of creatives and journalists whose
work they depend on"

Axel Voss non è un nemico dei monopoli intellettuali e dei loro
banchetti. Semplicemente desidera inasprire il copyright perché i
monopolisti tradizionali - che sono gli editori i quali si fanno cedere
il copyright dagli autori - ne ricevano qualche briciola.

*Dove i SAlAMI copiano alla lettera*, basta il copyright così com'è.

Dove i SALAMI rimescolano, bisognerebbe cambiare il copyright estendendo
a tutte le espressioni delle idee (recensioni, riassunti umani e no
etc.) la stessa disciplina che si applica, secondo me incoerentemente
(slide 22: https://zenodo.org/records/11163103), alle traduzioni. Con
il risultato che i detentori del copyright (cioè per lo più gli editori)
potrebbero sequestrare buona parte del dibattito pubblico sulle "loro"
opere, come avviene con le traduzioni. Ed è poco rilevante che
Qui potete leggere di un paio di sequestri famosi, e catastrofici per
l'uso pubblico della ragione. In uno dei due la posta in gioco era
informare il pubblico statunitense delle idee di Hitler
https://btfp.sp.unipi.it/dida/kant_7/index.xhtml#idm181

L'idea di curare i monopoli, de iure o de facto, inasprendoli ed
estendendoli può apparire plausibile solo a chi già, come Axel Voss, li
apprezza. Le critiche di Doctorow
(https://pluralistic.net/2024/03/13/hey-look-over-there/#lets-you-and-he-fight)
mi sembrano ben fondate.

Oltre tutto, un copyright così inasprito ed esteso non impedirebbe
affatto agli editori di offrire i "propri" testi, a pagamento, per il
confezionamento di SALAMI. Soprattutto per gli editori scientifici
commerciali, che ricevono i loro testi gratis, sarebbe - ed è già - un
affarone.

"Bullies want you to think they're on your side".

A presto,
MCP