On Sun, 8 Sep 2024 17:12:23 +0200 Guido Vetere wrote:
Su cosa cosa significhi 'imparare' per gli umani e per le macchine si sono versati fiumi di inchiostro, non credo sia il caso di dilungarsi qui.
Direi piuttosto che fiumi di inchiostro sono stati versati per giustificare la ridefinizione di termini come "imparare" e "apprendere" affinché possano essere applicati alle macchine. Più interessante sarebbe riflettere sugli obbiettivi di queste ridefinizioni: se si sia trattato di nobilitare le macchine o di alienare le persone. Le "sperimentazioni" sulle "AI" a scuola avvalorano la seconda ipotesi.
Nonappena comprendi che si tratta semplicemente di un software programmato statisticamente
Confesso che trovo la tua idea che un LLM sia un 'compilato' dei dataset di training molto interessante
Non lo è, in realtà: è ovvia. Con la sua semplicità, ridicolizza la favola delle "intelligenze artificiali" al rasoio di Occam. Per chi ha creduto in quella favola però può essere una interessante doccia fredda.
però non mi convince per due motivi: 1) Come la mettiamo col lavoro umano di supervisione e rinforzo (cfr. l'articolo del Guardian riportato oggi qui) che ha un'importanza cruciale per il comportamento a run-time? Tra l'altro, è proprio qui che si trova il grande vantaggio competitivo dei monopolisti.
Quel lavoro è parte del processo di programmazione statistica che non coincide con la sola compilazione del dataset iniziale, ma include la scelta degli hyper parameter, la scelta del dataset iniziale, la scelta della dimensione del vocabolario, la scelta del processo di programmazione, la scelta dei valori iniziali, la supervisione etc... La taggatura, i testi utilizzati per eventuali fine-tuning etc... aumentano il dataset sorgente, come file aggiunti a uno zip dopo la sua creazione. Rimane il fatto che alla fine del processo di compilazione ottieni matrici che costituiscono una compressione lossy eseguibile del dataset.
2) Come la mettiamo con la generazione aumentata dal retrieval (RAG)? Supponi che un grande produttore abbia generato un foundation model con dataset acquisiti legalmente (bastano le briciole di quello che hanno in tasca) e lo abbia poi istruito col lavoro di dipendenti regolari. Quel modello, anche di dimensioni ridotte (es. 70B) sarebbe in grado di fare cose molto utili, ad esempio question answering, interpolando dati che non sono nel training set, ma in database esterni sui quali viene a run-time operata una ricerca.
Non vi vedo alcuna differenza con un altro software proprietario che si colleghi ad un database esterno. L'output di questo ipotetico LLM conterrebbe frammenti dei testi usati per programmarlo combinati con pezzi dei dati presenti sul db. Se chi ha realizzato LLM aveva comprato dagli autori il diritto di progrannare l'LLM a partire dalle loro opere e chi usa l'LLM dispone dei diritti necessari ad accedere al database, dal punto di vista del copyright non ci sono problemi. Se poi parliamo di sicurezza informatica o della qualità degli output è tutta un'altra questione.
Suggerisco di stare molto attenti alle false analogie, perché ci danno l'illusione di riportare l'ignoto al noto ma talvolta offuscano la comprensione delle cose.
Bravo! Sono anni che lo dico! False analogie con le reti neurali, l'intelligenza o l'apprendimento servono solo a buttare fumo negli occhi a chi non comprende il funzionamento questi software. Se non fosse tragico, sarebbe ridicolo. È decisamente ora di ritornare con i piedi per terra. Perché Guido, qui stiamo parlando di software. Niente di più e niente di meno. E il software si programma, non si "allena". Giacomo