Caro Tesio, apprezzo il tono e dunque rispondo.
Sembra un caso degenere perché immagini un'intelligenza artificiale che impara.
Fin dai tempi del povero Rosenblatt (morì giovane in un incidente) e dal suo percettrone, l'umanità intera ha immaginato una 'intelligenza artificiale che impara' (machine learning). Su cosa cosa significhi 'imparare' per gli umani e per le macchine si sono versati fiumi di inchiostro, non credo sia il caso di dilungarsi qui. Comunque, chiarisco che sono tra quelli che negano decisamente qualsiasi analogia tra l'apprendistato linguistico umano e i SALAMI. Chomsky aveva ragione contro il distribuzionalismo negli anni '50, e continua ad avere ragione oggi sui LLM (su tante altre cose aveva torto, ma tralasciamo).
Nonappena comprendi che si tratta semplicemente di un software
programmato statisticamente
Confesso che trovo la tua idea che un LLM sia un 'compilato' dei dataset di training molto interessante, però non mi convince per due motivi:
1) Come la mettiamo col lavoro umano di supervisione e rinforzo (cfr. l'articolo del Guardian riportato oggi qui) che ha un'importanza cruciale per il comportamento a run-time? Tra l'altro, è proprio qui che si trova il grande vantaggio competitivo dei monopolisti.
2) Come la mettiamo con la generazione aumentata dal retrieval (RAG)? Supponi che un grande produttore abbia generato un foundation model con dataset acquisiti legalmente (bastano le briciole di quello che hanno in tasca) e lo abbia poi istruito col lavoro di dipendenti regolari. Quel modello, anche di dimensioni ridotte (es. 70B) sarebbe in grado di fare cose molto utili, ad esempio question answering, interpolando dati che non sono nel training set, ma in database esterni sui quali viene a run-time operata una ricerca.
Suggerisco di stare molto attenti alle false analogie, perché ci danno l'illusione di riportare l'ignoto al noto (la produzione di software in questo caso) ma talvolta offuscano la comprensione delle cose.
Regards,
G.