Perdonami Giuseppe, ma l'evoluzione esatta di un sistema complesso non è computabile. Invece l'output esatto di un LLM viene calcolato da chiunque lo esegua sul "motore inferenziale" preposto. Dunque sventolare il concetto di "sistema complesso" per descrivere un software di cui è possibile conoscere (al netto dei segreti industriali) e riprodurre ogni singola operazione è scientificamente discutibile. Siamo lontanissimi dal problema di conoscere e modellare lo stato di moto e la posizione di ogni singolo atomo di un gas e semplicemente perché, contrariamente ai gas, gli LLM sono software eseguibili. Inoltre la questione qui non è la modellabilità del comportamento del sistema, che come detto è perfettamente calcolabile (e calcolata milioni di volte al giorno) per i LLM, bensì di descrivere il _significato_ di tale evoluzione. L'irrilevanza dei sistemi complessi è tutta qui. Un comportamento emergente non è un significato. Gli atomi di un gas non compiono una danza nella speranza di comunicarci un messaggio. Dunque la temperatura di un gas, pur essendo un comportamento emergente del loro movimento, non costituisce il significato del movimento dei suoi atomi, ma solo una misurazione utile delle sue proprietà attuali. Nello stesso modo anche se i LLM fossero sistemi complessi (e non lo sono) ed esibissero comportamenti emergenti (cosa impossibile da verificare scientificamente senza conoscere precisamente tutti i testi sorgente usati per programmarli), tali comportamenti non rivelerebbero il significato del loro output. Analizzando l'attivazione dei vari nodi del processo di "inferenza" non potremo mai rispondere alla domanda "perché a fronte dell'input X è stato prodotto l'output Y?", ma solo alla domanda "come è stato calcolato l'output Y a fonte dell'input X?". Dunque sistemi complessi o meno, non imparano, non conoscono e non capiscono alcunché. Non sono intelligenti. E non nel senso che non lo sono come un essere umano, non imparano, non conoscono e non capiscono come un essere umano. Non fanno queste cose in alcun modo. Quando Antropic arriva a scrivere:
These numbers in the middle are called activations—and like neural activity in the human brain, they encode Claude’s thoughts.
sta facendo banale disinformazione. Definire "pensiero" moltiplicazioni fra matrici e trasformazioni non lineari reversibili è ridicolo. Paragonarle alle attività del cervello umano è privo di qualsiasi fondamento scientifico. Anche perché esiste una spiegazione molto più semplice dell'output di questi software: l'estrazione da un archivio compresso con perdita. Il processo di estrazione da questo archivio non è banale ed è certamente notevole dal punto di vista ingegneristico. E sebbene l'output di questi software costituisca semplici lorem ipsum a tema, ne apprezzo moltissimo l'ingenuità (sebbene ciò non giustifichi rischi geopolitici e costi sociali ed ecologici del loro utilizzo). Ma lorem ipsum [1] rimangono! Quanto al resto:
siccome il risultato dipende da milioni di interazioni tra i neuroni della rete, non abbiamo un modo semplice di spiegare il risultato.
Parlare di "neuroni" è errato e fuorviante. Così come è errato e fuorviante parlare di "interazioni", visto che si tratta di operazioni fra matrici. Come è errato e fuorviante parlare di "senso" catturato dagli embeddings (su questo concordo con Guido). Parlare di
“rappresentazione multisfaccettata dell’uso, delle similitudini e di altri aspetti del significato delle parole”
è già molto meglio, anche se sarebbe più preciso parlare di proiezione _approssimata_ della relazione di sequenzialità fra le parole presenti nei testi sorgente su un sistema di assi _arbitrario_ determinato statisticamente. Giacomo [1] https://it.wikipedia.org/wiki/Lorem_ipsum