Re: [nexa] AI Training is Copyright Infringement

Sept. 8, 2024

      Vedi Guido, 

Il 8 Settembre 2024 14:24:00 UTC, Guido Vetereha scritto:
...
Research has also shown that memorization occurs if
an LLM sees a text repeatedly during training (Carlini et al., 2022b;
Biderman et al., 2023).
Because of this, *memorization can be seen as an extreme case of training
data contamination*
where a dataset is not only seen during training but repeated within the
training set so often
that the LLM becomes able to consistently generate it.
La memorizzazione, insomma, è un caso degenere.
Sembra un caso degenere perché immagini un'intelligenza artificiale che impara.

Nonappena comprendi che si tratta semplicemente di un software
programmato statisticamente, ti appare del tutto ovvio e normale che i dati più frequenti
subiscano una perdita minore durante il processo di compressione.
...
Infatti, si applicano
usualmente tecniche di filtering per deduplicare i passaggi che occorrono
molte volte nei dataset di training
E nonostante ciò gli LLM continuano a sputarli fuori.

La differenza non sta nella loro "memorizzazione" da parte del LLM, ma nella nostra capacità
di riconoscerli nell'output nonostante gli errori di decompressione.

Un po' come avvenne per i sorgenti GPL di Quake III sparati in output da GitHub Copilot:
li abbiamo riconosciuti perché sono famosi, non perché Microsoft si è dimenticata
di deduplicare i fork di Quake su GitHub!

Giacomo

Re: [nexa] AI Training is Copyright Infringement

Giacomo Tesio