Vedi Guido, Il 8 Settembre 2024 14:24:00 UTC, Guido Vetereha scritto:
Research has also shown that memorization occurs if an LLM sees a text repeatedly during training (Carlini et al., 2022b; Biderman et al., 2023). Because of this, *memorization can be seen as an extreme case of training data contamination* where a dataset is not only seen during training but repeated within the training set so often that the LLM becomes able to consistently generate it.
La memorizzazione, insomma, è un caso degenere.
Sembra un caso degenere perché immagini un'intelligenza artificiale che impara. Nonappena comprendi che si tratta semplicemente di un software programmato statisticamente, ti appare del tutto ovvio e normale che i dati più frequenti subiscano una perdita minore durante il processo di compressione.
Infatti, si applicano usualmente tecniche di filtering per deduplicare i passaggi che occorrono molte volte nei dataset di training
E nonostante ciò gli LLM continuano a sputarli fuori. La differenza non sta nella loro "memorizzazione" da parte del LLM, ma nella nostra capacità di riconoscerli nell'output nonostante gli errori di decompressione. Un po' come avvenne per i sorgenti GPL di Quake III sparati in output da GitHub Copilot: li abbiamo riconosciuti perché sono famosi, non perché Microsoft si è dimenticata di deduplicare i fork di Quake su GitHub! Giacomo