Caro Tesio, apprezzo il tono e dunque rispondo.

Sembra un caso degenere perché immagini un'intelligenza artificiale che impara.

Fin dai tempi del povero Rosenblatt (morì giovane in un incidente) e dal suo percettrone, l'umanità intera ha immaginato una 'intelligenza artificiale che impara' (machine learning). Su cosa cosa significhi 'imparare' per gli umani e per le macchine si sono versati fiumi di inchiostro, non credo sia il caso di dilungarsi qui. Comunque, chiarisco che sono tra quelli che negano decisamente qualsiasi analogia tra l'apprendistato linguistico umano e i SALAMI. Chomsky aveva ragione contro il distribuzionalismo negli anni '50, e continua ad avere ragione oggi sui LLM (su tante altre cose aveva torto, ma tralasciamo).

Nonappena comprendi che si tratta semplicemente di un software programmato statisticamente

Confesso che trovo la tua idea che un LLM sia un 'compilato' dei dataset di training molto interessante, però non mi convince per due motivi:

1) Come la mettiamo col lavoro umano di supervisione e rinforzo (cfr. l'articolo del Guardian riportato oggi qui) che ha un'importanza cruciale per il comportamento a run-time? Tra l'altro, è proprio qui che si trova il grande vantaggio competitivo dei monopolisti.

2) Come la mettiamo con la generazione aumentata dal retrieval (RAG)? Supponi che un grande produttore abbia generato un foundation model con dataset acquisiti legalmente (bastano le briciole di quello che hanno in tasca) e lo abbia poi istruito col lavoro di dipendenti regolari. Quel modello, anche di dimensioni ridotte (es. 70B) sarebbe in grado di fare cose molto utili, ad esempio question answering, interpolando dati che non sono nel training set, ma in database esterni sui quali viene a run-time operata una ricerca.

Suggerisco di stare molto attenti alle false analogie, perché ci danno l'illusione di riportare l'ignoto al noto (la produzione di software in questo caso) ma talvolta offuscano la comprensione delle cose.

Regards,

On Sun, 8 Sept 2024 at 16:45, Giacomo Tesio <giacomo@tesio.it> wrote:

Vedi Guido,

Il 8 Settembre 2024 14:24:00 UTC, Guido Vetereha scritto:
>
> Research has also shown that memorization occurs if
> an LLM sees a text repeatedly during training (Carlini et al., 2022b;
> Biderman et al., 2023).
> Because of this, *memorization can be seen as an extreme case of training
> data contamination*
> where a dataset is not only seen during training but repeated within the
> training set so often
> that the LLM becomes able to consistently generate it.
>
> La memorizzazione, insomma, è un caso degenere.

Sembra un caso degenere perché immagini un'intelligenza artificiale che impara.

Nonappena comprendi che si tratta semplicemente di un software
programmato statisticamente, ti appare del tutto ovvio e normale che i dati più frequenti
subiscano una perdita minore durante il processo di compressione.

> Infatti, si applicano
> usualmente tecniche di filtering per deduplicare i passaggi che occorrono
> molte volte nei dataset di training

E nonostante ciò gli LLM continuano a sputarli fuori.

La differenza non sta nella loro "memorizzazione" da parte del LLM, ma nella nostra capacità
di riconoscerli nell'output nonostante gli errori di decompressione.

Un po' come avvenne per i sorgenti GPL di Quake III sparati in output da GitHub Copilot:
li abbiamo riconosciuti perché sono famosi, non perché Microsoft si è dimenticata
di deduplicare i fork di Quake su GitHub!

Giacomo