Credo che si possa immaginare il tutto come la formazione di un grosso fiume la cui acqua è portata da degli affluenti che a loro volta hanno affluenti etc la cui configurazione dipende dalle vallate scavate dai ghiacciai (il training), superfici di minimi energetici. Questo modello si capisce bene, mentre magari non si capisce subito l’orografia di uno specifico bacino idrografico. Infatti storicamente sono stati fatti molti errori disastrosi per incapacità a capire (più o meno colpevole): dalle alluvioni provocate dalla cementificazione degli alvei alla diga del Vajont, che hanno turbato equilibri consolidati con transizioni improvvise. E’ solo un’analogia senza particolare valore, utile solo a dare un’idea e a distinguere tra macro e microfenomeni. Chi mai si sognerebbe dopo Boltzmann a giustificare il congelamento dell’acqua sulla base dell’analisi puntuale del moto di ogni singola molecola? Si procede per vie statistiche, e da qui nasce la difficoltà di conoscere lo specifico. Almeno, così mi sembra. Penso anche che se imparassimo questa lezione dove le reti neurali sono un esempio formidabile e fossimo un pochino più umili pensando che forse la configurazione più probabile dell’universo è quella dei sistemi complessi e non quella della fisica di Lagrange, correremmo in futuro molti meno rischi, a partire da quelli climatici Il giorno sab 9 mag 2026 alle 17:40 Massimo Maria Ghisalberti via nexa < nexa@server-nexa.polito.it> ha scritto:
Il giorno sab, 09/05/2026 alle 12.24 +0000, Giuseppe Attardi via nexa ha scritto:
È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM, ma non bisogna limitarsi a guardare alla superficie, ossia all’uso della distribuzione di probabilità delle parole per dire che i modelli sono solo generatori statistici del prossimo token. In realtà il processo è ben più complesso, perché consiste prima di tutto nella costruzione di una rappresentazione a molti livelli di astrazione, del contesto di partenza, che include la rappresentazione del senso delle parole nel primo strato di embedding e poi di relazioni sintattiche tra le parole nelle matrici di attention a livelli superiori, poi riferimenti anaforici e altre relazioni che non sappiamo interpretare in altri livelli. Alcune di queste relazioni sono state esaminate con dei probe sui modelli, come i syntax probe.
Mi scusi, ma mi faccia capire. Con "È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM" vuol dire che non siamo in grado di farlo? Cioè che noi, che abbiamo progettato tale macchina, non siamo in grado di capirla? Se fosse così non crede che ci sarebbe un motivo in più per preoccuparsi? Insomma vorrebbe dire che hanno una identità propria e una capacità cognitivo-semantica a noi aliena e per dirla breve "abbiamo creato un mostro". Poi vorrei anche capire cosa significhi: la rappresentazione del senso delle parole nel primo strato di embedding e a quali livelli sono queste relazioni anaforiche. Lascerei per ora le matrici di attention e i probe sui modelli.
Non voglio essere irrispettoso ma essendo fuori dal gergo alcuni termini e loro correlazioni nelle frasi mi risultano oscuri.
m.