Tutto questo parlare di SALAMI mi ha fatto venire in mente un motto di spirito che si ascolta talvolta ai tavoli di progettazione: "fare il maiale dalla salsiccia", cioè ricostruire il modello originale dai dati di cui si dispone. Si tratta ovviamente di un paradosso, perché certi processi di trasformazione sono irreversibili.
L'analogia tra i LLM e i dati (immagini, testi) compressi con o senza perdita è totalmente fuorviante, perché nei miliardi di parametri di una rete neurale non si può ricavare all'inverso il dataset di training, né se ne può leggere in chiaro alcun frammento. La costruzione di un LLM sembra appunto un processo di trasformazione irreversibile.
Quando un LLM 'rigurgita' un frammento (ma questo è un evento eccezionale) lo fa comunque in un processo generativo non deterministico in cui quel frammento diviene temporaneamente "attrattore" in forza delle "tracce mnestiche" che ha prodotto nei parametri, cioè qualche cifra decimale nelle gigantesche matrici del modello. Ecco in omaggio, a tal proposito,
un articoletto che scrissi a suo tempo per Il Manifesto.
La causa NYT vs OpenAI sta andando avanti, e credo che al momento vi siano grandi team di informatici e legali che stanno analizzando a fondo la questione. A riguardo, possiamo esprimere le nostre opinioni e le nostre fantasie, ma credo che sarebbe ragionevole attendere e nel frattempo studiare.
Una cosa però è certa: plagio o non plagio, i LLM estraggono (e rivendono) valore da ciò che ingeriscono, sia al momento del training, sia dinamicamente con tecniche di retrieval augmented generation. Tuttavia, la situazione non è del tutto nuova: Google è già dovuta venire a patti per il suo Google News Showcase. Il problema politico resta sempre quello della giusta remunerazione del lavoro creativo, che le leggi sul copyright, anche se rese più stringenti, non credo risolverebbero.
G.