Re: [nexa] AI Training is Copyright Infringement

Sept. 8, 2024

      On Sun, 8 Sep 2024 17:12:23 +0200 Guido Vetere wrote:
...
Su cosa cosa significhi 'imparare' per gli umani e per le macchine si
sono versati fiumi di inchiostro, non credo sia il caso di dilungarsi
qui.
Direi piuttosto che fiumi di inchiostro sono stati versati per
giustificare la ridefinizione di termini come "imparare" e "apprendere"
affinché possano essere applicati alle macchine.

Più interessante sarebbe riflettere sugli obbiettivi di queste
ridefinizioni: se si sia trattato di nobilitare le macchine o di
alienare le persone.

Le "sperimentazioni" sulle "AI" a scuola avvalorano la seconda ipotesi.
...
...
Nonappena comprendi che si tratta semplicemente di un software
programmato statisticamente
Confesso che trovo la tua idea che un LLM sia un 'compilato' dei
dataset di training molto interessante
Non lo è, in realtà: è ovvia.

Con la sua semplicità, ridicolizza la favola delle "intelligenze artificiali" al rasoio di Occam.

Per chi ha creduto in quella favola però può essere una interessante doccia fredda.
...
però non mi convince per due motivi: 
1) Come la mettiamo col lavoro umano di supervisione e
rinforzo (cfr. l'articolo del Guardian riportato oggi qui) che ha
un'importanza cruciale per il comportamento a run-time? Tra l'altro,
è proprio qui che si trova il grande vantaggio competitivo dei
monopolisti.
Quel lavoro è parte del processo di programmazione statistica che non
coincide con la sola compilazione del dataset iniziale, ma include la scelta
degli hyper parameter, la scelta del dataset iniziale, la scelta della
dimensione del vocabolario, la scelta del processo di programmazione,
la scelta dei valori iniziali, la supervisione etc...

La taggatura, i testi utilizzati per eventuali fine-tuning etc... aumentano il dataset 
sorgente, come file aggiunti a uno zip dopo la sua creazione.

Rimane il fatto che alla fine del processo di compilazione ottieni
matrici che costituiscono una compressione lossy eseguibile del dataset.
...
2) Come la mettiamo con la generazione aumentata dal
retrieval (RAG)? Supponi che un grande produttore abbia generato un
foundation model con dataset acquisiti legalmente (bastano le
briciole di quello che hanno in tasca) e lo abbia poi istruito col
lavoro di dipendenti regolari. Quel modello, anche di dimensioni
ridotte (es. 70B) sarebbe in grado di fare cose molto utili, ad
esempio question answering, interpolando dati che non sono nel
training set, ma in database esterni sui quali viene a run-time
operata una ricerca.
Non vi vedo alcuna differenza con un altro software proprietario che si colleghi
ad un database esterno.

L'output di questo ipotetico LLM conterrebbe frammenti dei testi usati per programmarlo
combinati con pezzi dei dati presenti sul db.

Se chi ha realizzato LLM aveva comprato dagli autori il diritto di progrannare l'LLM a
partire dalle loro opere e chi usa l'LLM dispone dei diritti necessari ad accedere 
al database, dal punto di vista del copyright non ci sono problemi.

Se poi parliamo di sicurezza informatica o della qualità degli output è tutta un'altra questione.
...
Suggerisco di stare molto attenti alle false analogie, perché ci danno
l'illusione di riportare l'ignoto al noto ma talvolta offuscano la comprensione delle cose.
Bravo!

Sono anni che lo dico!

False analogie con le reti neurali, l'intelligenza o l'apprendimento servono solo a buttare
fumo negli occhi a chi non comprende il funzionamento questi software.

Se non fosse tragico, sarebbe ridicolo.

È decisamente ora di ritornare con i piedi per terra.

Perché Guido, qui stiamo parlando di software.
Niente di più e niente di meno.

E il software si programma, non si "allena".

Giacomo

Re: [nexa] AI Training is Copyright Infringement

Giacomo Tesio