Microsoft stessa non nega la natura di opera derivata dei LLM (pur tentando disperatamente di giustificarla). Ad esempio in "Elephant never forget..." [2] i suoi ricercatori scrivono: "This investigation reveals that LLMs have memorized many popular tabular datasets
verbatim". per completezza, riporto un passaggio seguente del suddetto articolo: Research has also shown that memorization occurs if an LLM sees a text repeatedly during training (Carlini et al., 2022b; Biderman et al., 2023). Because of this, *memorization can be seen as an extreme case of training data contamination* where a dataset is not only seen during training but repeated within the training set so often that the LLM becomes able to consistently generate it. La memorizzazione, insomma, è un caso degenere. Infatti, si applicano usualmente tecniche di filtering per deduplicare i passaggi che occorrono molte volte nei dataset di training, magari proprio perché gli umani li hanno plagiarizzati molte volte :-) Cheers, G. On Sun, 8 Sept 2024 at 15:48, Giacomo Tesio <giacomo@tesio.it> wrote:
Ciao Maria Chiara,
riporto il subject al valore iniziale perché non ho molto da aggiungere sugli interessi rappresentati da Axel Voss: le norme su copyright, brevetti e segreti industriali sono intrinsecamente oscurantiste, e rallentano il progresso culturale e tecnologico dell'umanità vietando alla maggioranza delle persone di conoscere e/o ragionare liberamente sulle informazioni che i dati cui vengono applicate rappresentano.
Detto questo, l'eccitazione di Axel Voss dipende dalla stessa ignoranza informatica di coloro che si strappano le vesti di fronte ad uno studio che afferma una semplice ovvietà tecnica: le "AI generative" sono opere derivate meccanicamente delle opere utilizzate per programmarle statisticamente e di cui, come spiegavo in una mail precedente costituiscono l'eseguibile compilato per una determinata architettura.
On Sun, 8 Sep 2024 10:33:05 +0200 Maria Chiara Pievatolo wrote:
Dove i SALAMI rimescolano, bisognerebbe cambiare il copyright estendendo a tutte le espressioni delle idee (recensioni, riassunti umani e no etc.) la stessa disciplina che si applica, secondo me incoerentemente (slide 22: https://zenodo.org/records/11163103), alle traduzioni.
Non serve: il copyright com'è protegge già gli eseguibili compilati a partire da testi chiamati "codice sorgente", senza bisogno di alcuna modifica alla normativa o alcuna estensione alla sua interpretazione.
Anche il processo di compilazione di un comune software scritto in C è un processo di compressione particolarmente evidente laddove non vi siano molte dipendenze esterne. Ad esempio, il kernel di linux versione 5.10 è un testo da quasi un gigabyte. Compresso in tar.xz [1] occupa circa 115 Mega (un fattore di compressione senza perdita di informazione di 8 a 1, circa) mentre una volta compilato occupa circa 7 megabyte (un fattore di compressione CON perdita di informazione di oltre 100 volte).
L'eseguibile che i fautori delle "AI generative" chiamano impropriamente "modello" subisce una compressione concettualmente analoga attraverso il processo di compilazione dei dataset sorgenti.
Non è dunque necessario modificare il diritto d'autore per riconoscere i "modelli AI" (le matrici eseguibili da quelle macchine virtuali) come opere derivate dai testi sorgenti.
Anche se poi le aziende forniscono accesso a quelle opere derivate "a pezzetti", le opere sono state integralmente incluse nel processo di programmazione statistica (il "training" della "AI"). In altri termini, il "modello" deriva dalla totalità di ciascun opera usata per la sua programmazione, nonché dalla totalità di TUTTE le opere utilizzate (pubblicamente note, o meno). Ciò rende inapplicabili ai modelli le eccezioni che permettono di citare piccoli frammenti di un opera in un'altra.
Dunque, indipendentemente dall'articolo e dalle ragioni di chi l'ha scritto, affermare che "AI Training is Copyright Infringement" significa semplicemente prendere atto di come funziona il processo in questione e ciò che produce (il "modello").
Microsoft stessa non nega la natura di opera derivata dei LLM (pur tentando disperatamente di giustificarla). Ad esempio in "Elephant never forget..." [2] i suoi ricercatori scrivono: "This investigation reveals that LLMs have memorized many popular tabular datasets verbatim".
Dunque nessun bisogno di estendere o rafforzare il diritto d'autore: basta applicare le norme vigenti anche a chi approfitta dell'ignoranza altrui per sottrarvisi attraverso software che pochi comprendono (anzitutto fra coloro che ne parlano)
Giacomo
[1] https://cdn.kernel.org/pub/linux/kernel/v5.x/linux-5.10.225.tar.x