Microsoft stessa non nega la natura di opera derivata dei LLM (pur
tentando disperatamente di giustificarla). Ad esempio in "Elephant
never forget..." [2] i suoi ricercatori scrivono: "This investigation
reveals that LLMs have memorized many popular tabular datasets

verbatim".

per completezza, riporto un passaggio seguente del suddetto articolo:

Research has also shown that memorization occurs if
an LLM sees a text repeatedly during training (Carlini et al., 2022b; Biderman et al., 2023).
Because of this, memorization can be seen as an extreme case of training data contamination
where a dataset is not only seen during training but repeated within the training set so often
that the LLM becomes able to consistently generate it.

La memorizzazione, insomma, è un caso degenere. Infatti, si applicano usualmente tecniche di filtering per deduplicare i passaggi che occorrono molte volte nei dataset di training, magari proprio perché gli umani li hanno plagiarizzati molte volte :-)

Cheers,

On Sun, 8 Sept 2024 at 15:48, Giacomo Tesio <giacomo@tesio.it> wrote:

Ciao Maria Chiara,

riporto il subject al valore iniziale perché non ho molto da aggiungere
sugli interessi rappresentati da Axel Voss: le norme su copyright,
brevetti e segreti industriali sono intrinsecamente oscurantiste,
e rallentano il progresso culturale e tecnologico dell'umanità vietando
alla maggioranza delle persone di conoscere e/o ragionare liberamente
sulle informazioni che i dati cui vengono applicate rappresentano.

Detto questo, l'eccitazione di Axel Voss dipende dalla stessa ignoranza
informatica di coloro che si strappano le vesti di fronte ad uno studio
che afferma una semplice ovvietà tecnica: le "AI generative" sono opere
derivate meccanicamente delle opere utilizzate per programmarle
statisticamente e di cui, come spiegavo in una mail precedente
costituiscono l'eseguibile compilato per una determinata architettura.

On Sun, 8 Sep 2024 10:33:05 +0200 Maria Chiara Pievatolo wrote:

> Dove i SALAMI rimescolano, bisognerebbe cambiare il copyright
> estendendo a tutte le espressioni delle idee (recensioni, riassunti
> umani e no etc.) la stessa disciplina che si applica, secondo me
> incoerentemente (slide 22: https://zenodo.org/records/11163103),
> alle traduzioni.

Non serve: il copyright com'è protegge già gli eseguibili compilati a
partire da testi chiamati "codice sorgente", senza bisogno di alcuna
modifica alla normativa o alcuna estensione alla sua interpretazione.

Anche il processo di compilazione di un comune software scritto in C è
un processo di compressione particolarmente evidente laddove non vi
siano molte dipendenze esterne. Ad esempio, il kernel di linux versione
5.10 è un testo da quasi un gigabyte. Compresso in tar.xz [1] occupa
circa 115 Mega (un fattore di compressione senza perdita di
informazione di 8 a 1, circa) mentre una volta compilato occupa circa 7
megabyte (un fattore di compressione CON perdita di informazione di
oltre 100 volte).

L'eseguibile che i fautori delle "AI generative" chiamano impropriamente
"modello" subisce una compressione concettualmente analoga attraverso
il processo di compilazione dei dataset sorgenti.

Non è dunque necessario modificare il diritto d'autore per riconoscere
i "modelli AI" (le matrici eseguibili da quelle macchine virtuali) come
opere derivate dai testi sorgenti.

Anche se poi le aziende forniscono accesso a quelle opere derivate "a
pezzetti", le opere sono state integralmente incluse nel processo di
programmazione statistica (il "training" della "AI").
In altri termini, il "modello" deriva dalla totalità di ciascun opera
usata per la sua programmazione, nonché dalla totalità di TUTTE le
opere utilizzate (pubblicamente note, o meno).
Ciò rende inapplicabili ai modelli le eccezioni che permettono di citare
piccoli frammenti di un opera in un'altra.

Dunque, indipendentemente dall'articolo e dalle ragioni di chi l'ha
scritto, affermare che "AI Training is Copyright Infringement" significa
semplicemente prendere atto di come funziona il processo in questione e
ciò che produce (il "modello").

Microsoft stessa non nega la natura di opera derivata dei LLM (pur
tentando disperatamente di giustificarla). Ad esempio in "Elephant
never forget..." [2] i suoi ricercatori scrivono: "This investigation
reveals that LLMs have memorized many popular tabular datasets
verbatim".

Dunque nessun bisogno di estendere o rafforzare il diritto d'autore:
basta applicare le norme vigenti anche a chi approfitta dell'ignoranza
altrui per sottrarvisi attraverso software che pochi comprendono
(anzitutto fra coloro che ne parlano)

Giacomo

[1]
https://cdn.kernel.org/pub/linux/kernel/v5.x/linux-5.10.225.tar.x

[2] https://arxiv.org/abs/2404.06209