Credo che si possa immaginare il tutto come la formazione di un grosso fiume la cui acqua è portata da degli affluenti che a loro volta hanno affluenti etc la cui configurazione dipende dalle vallate scavate dai ghiacciai (il training), superfici di minimi energetici. Questo modello si capisce bene, mentre magari non si capisce subito l’orografia di uno specifico bacino idrografico. Infatti storicamente sono stati fatti molti errori disastrosi per incapacità a capire (più o meno colpevole): dalle alluvioni provocate dalla cementificazione degli alvei alla diga del Vajont, che hanno turbato equilibri consolidati con transizioni improvvise. E’ solo un’analogia senza particolare valore, utile solo a dare un’idea e a distinguere tra macro e microfenomeni. Chi mai si sognerebbe dopo Boltzmann a giustificare il congelamento dell’acqua sulla base dell’analisi puntuale del moto di ogni singola molecola? Si procede per vie statistiche, e da qui nasce la difficoltà di conoscere lo specifico. Almeno, così mi sembra. Penso anche che se imparassimo questa lezione dove le reti neurali sono un esempio formidabile e fossimo un pochino più umili pensando che forse la configurazione più probabile dell’universo è quella dei sistemi complessi e non quella della fisica di Lagrange, correremmo in futuro molti meno rischi, a partire da quelli climatici

Il giorno sab 9 mag 2026 alle 17:40 Massimo Maria Ghisalberti via nexa <nexa@server-nexa.polito.it> ha scritto:

Il giorno sab, 09/05/2026 alle 12.24 +0000, Giuseppe Attardi via nexa ha
scritto:
> È difficile capire davvero come si svolge il processo di generazione delle
> risposte tramite un LLM, ma non bisogna limitarsi a guardare alla superficie,
> ossia all’uso della distribuzione di probabilità delle parole per dire che i
> modelli sono solo generatori statistici del prossimo token.
> In realtà il processo è ben più complesso, perché consiste prima di tutto
> nella costruzione di una rappresentazione a molti livelli di astrazione, del
> contesto di partenza, che include la rappresentazione del senso delle parole
> nel primo strato di embedding e poi di relazioni sintattiche tra le parole
> nelle matrici di attention a livelli superiori, poi riferimenti anaforici e
> altre relazioni che non sappiamo interpretare in altri livelli. Alcune di
> queste relazioni sono state esaminate con dei probe sui modelli, come i syntax
> probe.

Mi scusi, ma mi faccia capire. Con "È difficile capire davvero come si svolge il
processo di generazione delle risposte tramite un LLM" vuol dire che non siamo
in grado di farlo? Cioè che noi, che abbiamo progettato tale macchina, non siamo
in grado di capirla? Se fosse così non crede che ci sarebbe un motivo in più per
preoccuparsi? Insomma vorrebbe dire che hanno una identità propria e una
capacità cognitivo-semantica a noi aliena e per dirla breve "abbiamo creato un
mostro". Poi vorrei anche capire cosa significhi: la rappresentazione del senso
delle parole nel primo strato di embedding e a quali livelli sono queste
relazioni anaforiche. Lascerei per ora le matrici di attention e i probe sui
modelli.

Non voglio essere irrispettoso ma essendo fuori dal gergo alcuni termini e loro
correlazioni nelle frasi mi risultano oscuri.

m.