New subject: AI Training is Copyright Infringement

Sept. 9, 2024

...
Il 8 Settembre 2024 14:24:00 UTC, Guido Vetereha scritto:
...
Research has also shown that memorization occurs if
an LLM sees a text repeatedly during training (Carlini et al., 2022b;
Biderman et al., 2023).
Because of this, *memorization can be seen as an extreme case of training
data contamination*
where a dataset is not only seen during training but repeated within the
training set so often
that the LLM becomes able to consistently generate it.
La memorizzazione, insomma, è un caso degenere.
Sembra un caso degenere perché immagini un'intelligenza artificiale che impara.
Non appena comprendi che si tratta semplicemente di un software
programmato statisticamente
Che significa “software programmato statisticamente”? Una rete neurale è realizzata con programmi come altri utilizzando algoritmi di ottimizzazione, con un processo di fit dei parametri del modello rispetto ai dati per minimizzare una funzione di loss.

Un modello statistico sarebbe quello costruito a partire da un campione statistico rappresentativo, selezionato appunto su basi statistiche. Ciò non vale per i LLM che usano tutti i dati disponibili, considerandoli la realtà stessa e non la loro rappresentazione.

Quanto a “imparare”, è discutibile usare termini antropomorfi riguardo alle macchine, ma per intenderci si può dire che fanno qualcosa che si avvicina al nostro concetto di apprendere, ossia saper usare quanto visto in precedenza in situazioni nuove.

—

Re: [nexa] AI Training is Copyright Infringement

Giuseppe Attardi

Giacomo Tesio

tags

participants (2)