Salve Guido, On Sun, 8 Sep 2024 12:31:14 +0200 Guido Vetere wrote:
L'analogia tra i LLM e i dati (immagini, testi) compressi con o senza perdita è totalmente fuorviante, perché nei miliardi di parametri di una rete neurale non si può ricavare all'inverso il dataset di training, né se ne può leggere in chiaro alcun frammento.
credo che potresti trarre giovamento da un ripasso sugli algoritmi di compressione lossy, perché sembra sfuggirti che anche da un jpeg fortemente compresso non puoi ricavare l'immagine originale: Qui trovi un esempio: https://upload.wikimedia.org/wikipedia/commons/3/3c/TulipanoJPEG10.jpg Non c'è alcun modo di ricostruire la sequenza di byte che costituiva l'immagine originale. E' vero, non si tratta di una semplice analogia: stiamo letteralmente parlando di sistemi di compressione lossy (seppur eseguibili).
Quando un LLM 'rigurgita' un frammento (ma questo è un evento eccezionale) lo fa comunque in un processo generativo non deterministico in cui quel frammento diviene temporaneamente "attrattore" in forza delle "tracce mnestiche" che ha prodotto nei parametri, cioè qualche cifra decimale nelle gigantesche matrici del modello.
Ma scappelate a destra o a sinistra? :-) Suvvia, non servono supercazzole su Nexa: ci sono migliaia di esempi di LLM che restituiscono frammenti più o meno vasti di opere riconoscibili attribuendole a persone inesistenti e magari con licenze inesistenti. La mia preferita è questa https://peertube.opencloud.lu/w/eW497u3UYXmQwcQu9LYEDR Ma Microsoft stessa non ne faceva mistero nel paper pubblicato all'indomani del lancio di GitHub CopyALot, cercando disperatamente di antropomorfizzare il software per giustificare le palesi violazioni https://github.blog/ai-and-ml/github-copilot/github-copilot-research-recitat... Quanto si tratti di "eventi eccezionali" è ben noto: esistono diversi studi che dimostrano la facilità con cui è possibile tirar fuori record presenti nei dataset di "training" (il primo che mi torna in mente: https://arxiv.org/abs/2012.07805 ). In qualsiasi caso, sarai d'accordo con me che, per essere tirati fuori, quei record devono essere presenti dentro il LLM, seppur codificati in forma non leggibile. Quindi che piaccia o meno ad editori e a chi li sviluppa, gli LLM rimangono rappresentazioni compresse dei dataset utilizzati durante il "training", compressione lossy ed eseguibile, ma pur sempre di compressione / compilazione dei dataset sorgenti si tratta. Giacomo