On Sun, Sep 08, 2024 at 04:24:00PM +0200, Guido Vetere wrote:
La memorizzazione, insomma, è un caso degenere. Infatti, si applicano usualmente tecniche di filtering per deduplicare i passaggi che occorrono molte volte nei dataset di training, magari proprio perché gli umani li hanno plagiarizzati molte volte :-)
Esatto, questo è un punto pratico molto importante che spesso si perde (anche su questa lista) nelle discussioni sul tema della "recitation" (restituzione di "lunghi" passaggi presenti nel training dataset da parte di un LLM). La recitation è assolutamente *possibile* come caso degenere, come sottolinea Guido. La frequenza dipende da proprietà statistiche del training dataset, che chi mette sul mercato un LLM può controllare (ma spesso fa, perché molto costoso). Quello che invece regolarmente fanno attori come GitHub con Copilot è di aggiungere a valle della generazione con gli LLM dei filtri basati su tecniche di code clone detection e anti-plagio, che sono molto efficaci e relativamente poco costose. Se una sequenza troppo lunga è presente sia nell'output che nel training dataset, l'output viene buttato via e rigenerato, fino a quando non si ottiene un output senza recitation. Tutto questo non ci aiuta nel dibattito sul decidere se un LLM sia o meno un opera derivata dei suoi training input. Ne tantomeno ci aiuta nei casi più complicati nei quali in cui l'output contiene parti del training dataset, ma non in sequenze verbatim. Ma in termini di impatto sulla società dei *prodotti* basati su LLM, le cose sono cambiate parecchio su questi punti dai primi studi empirici su quanto gli LLM (commercializzati) possano ripetere verbatim i loro input o meno. È il motivo per cui Microsoft si senza abbastanza sicura di tutto questo da offrire garanzie legali in termini di violazione del diritto d'autore quando si usa la suite Copilot. (Non a caso lo fa *solo* se l'utente non ha disabilitato il filtering a valle di cui parlavo sopra.) A presto -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'