On Sun, 8 Sept 2024 at 15:35, Giacomo Tesio <giacomo@tesio.it> wrote:

Salve Guido,

On Sun, 8 Sep 2024 12:31:14 +0200 Guido Vetere wrote:

> L'analogia tra i LLM e i dati (immagini, testi) compressi con o senza
> perdita è totalmente fuorviante, perché nei miliardi di parametri di
> una rete neurale non si può ricavare all'inverso il dataset di
> training, né se ne può leggere in chiaro alcun frammento.

credo che potresti trarre giovamento da un ripasso sugli algoritmi di
compressione lossy, perché sembra sfuggirti che anche da un jpeg
fortemente compresso non puoi ricavare l'immagine originale:

Qui trovi un esempio:

https://upload.wikimedia.org/wikipedia/commons/3/3c/TulipanoJPEG10.jpg

Non c'è alcun modo di ricostruire la sequenza di byte che costituiva
l'immagine originale.

E' vero, non si tratta di una semplice analogia: stiamo letteralmente
parlando di sistemi di compressione lossy (seppur eseguibili).

> Quando un LLM 'rigurgita' un frammento (ma questo è un evento
> eccezionale) lo fa comunque in un processo generativo non
> deterministico in cui quel frammento diviene temporaneamente
> "attrattore" in forza delle "tracce mnestiche" che ha prodotto nei
> parametri, cioè qualche cifra decimale nelle gigantesche matrici del
> modello.

Ma scappelate a destra o a sinistra? :-)

Suvvia, non servono supercazzole su Nexa: ci sono migliaia di esempi di
LLM che restituiscono frammenti più o meno vasti di opere riconoscibili
attribuendole a persone inesistenti e magari con licenze inesistenti.

La mia preferita è questa
https://peertube.opencloud.lu/w/eW497u3UYXmQwcQu9LYEDR

Ma Microsoft stessa non ne faceva mistero nel paper pubblicato
all'indomani del lancio di GitHub CopyALot, cercando disperatamente
di antropomorfizzare il software per giustificare le palesi violazioni
https://github.blog/ai-and-ml/github-copilot/github-copilot-research-recitation/

Quanto si tratti di "eventi eccezionali" è ben noto: esistono
diversi studi che dimostrano la facilità con cui è possibile tirar
fuori record presenti nei dataset di "training" (il primo che mi torna
in mente: https://arxiv.org/abs/2012.07805 ).

In qualsiasi caso, sarai d'accordo con me che, per essere tirati fuori,
quei record devono essere presenti dentro il LLM, seppur codificati in
forma non leggibile.

Quindi che piaccia o meno ad editori e a chi li sviluppa, gli LLM
rimangono rappresentazioni compresse dei dataset utilizzati durante il
"training", compressione lossy ed eseguibile, ma pur sempre di
compressione / compilazione dei dataset sorgenti si tratta.

Giacomo