Se dobbiamo considerare tali macchine attendibili perché non usarle come giudice terzo e oltre le parti? Bisognerà pur dargli della dignità non crede? Non la smentisce nello spirito, il che è già per qualcuno sufficiente. Non capisco come mai non si possano fare "distinguo sottili" via email ma questo è sicuramente un mio problema. Su metodo riduzionistico non le da proprio ragione mi pare, visto che lei afferma: "Non possiamo applicare il metodo riduzionista a questi modelli". Il Buon Claudio dice che: "Questa è un'affermazione troppo forte. Il campo della mechanistic interpretability (Anthropic, DeepMind, ecc.) è esattamente un approccio riduzionista applicato alle reti neurali ... Non è che non si può fare, è che è difficile e incompleto.". Difficile non vuol dire impossibile e nemmeno che nessuno sia riuscito ad attuarlo (che poi ci sia o non ci sia è ininfluente a oggi, in futuro con l'aumentare della potenza di calcolo e sofisticazione dei sistemi si vedrà). Che Parisi si sia espresso con: "è un'idea bellissima"; buon per lui e lei, sa quante idee bellissime possono venirmi in mente ma inattuabili? Sarebbe interessante tutto il discorso, detta in questo modo lascia il tempo che trova. Parla di "linearità"? Dove lo scrive in merito a sofmax(?), ReLU, sigmoide e tanh? Dice che più semplici di così non si può. Semplice non vuol dire lineare. Magari l'ha estrapolata dal fatto che ReLU è una funzione sia lineare ("a tratti", ma facciamo a capirci che nelle email non si può essere troppo sottili) che non? Il Buon Claudio dice che la "non-linearità" è corretta e le da ragione come doveva, ma si focalizza (giustamente) sulla complessità che non deriva dalle funzioni in sé quando dalla catena di applicazione delle funzioni. Sull'AI simbolica poteva dirlo subito, vede che succede alle volte a non essere "sottili"? Comunque Claudio mi dice che gli LLM sono codice tradizionale, quindi in qualche modo comprensibile? Spiegabile? Divulgabile senza, mi scusi, "pippe filosofiche"? Tornando a noi, a chi dovrei credere per avere imformazioni precise? Se anche lei che, mi pare di capire abbia una buona opinione della potenza intellettuale di queste macchine, mi dice che sta prendendo abbagli? Si metta nei miei panni di "utente comune" affamato di conoscenza. -- massimo Il giorno lun, 11/05/2026 alle 08.48 +0000, Giuseppe Attardi via nexa ha scritto:
Molto carino: usiamo un chatbot come giudice terzo.
Devo dire che mi pare che il chatbot non mi smentisca. Le principali critiche sono sul fatto che certe affermazioni siano troppo assolute, che è abbastanza normale in un dibattito via mail dove non si possono fare distinguo troppo sottili.
Ma alcune di quelle critiche in realtà sono a loro volta imprecise: - se dico che sono coinvolti milioni di parametri e non miliardi è perché durante le inferenze nei modelli MoE, solo una parte dei parametri viene attivato. Comunque se fossero di più rafforza la mia affermazione. - le funzioni di attivazione come softmax e tanh che cita non sono lineari - ammette che il riduzionismo sia “difficile e incompleto” quindi nessuno è riuscito ad attuarlo - il riferimento a Giorgio Parisi non è casuale, ne ho parlato con lui ed ha ammesso che considerare i LLM come dei sistemi complessi sia una “idea bellissima”. Certamente è un’idea da approfondire.
Nella seconda parte invece prende un abbaglio:
2. **"50 anni senza riuscirci" è una semplificazione.** Il deep learning esiste dagli anni '80 (backpropagation di Rumelhart, 1986). I LLM non sono una rottura
Io mi riferivo all’AI simbolica, non al DL!
— Beppe
On 9 May 2026, at 17:37, Massimo Maria Ghisalberti <zairik@zohomail.eu> wrote:
Il giorno sab, 09/05/2026 alle 12.24 +0000, Giuseppe Attardi via nexa ha scritto:
È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM, ma non bisogna limitarsi a guardare alla superficie, ossia all’uso della distribuzione di probabilità delle parole per dire che i modelli sono solo generatori statistici del prossimo token. In realtà il processo è ben più complesso, perché consiste prima di tutto nella costruzione di una rappresentazione a molti livelli di astrazione, del contesto di partenza, che include la rappresentazione del senso delle parole nel primo strato di embedding e poi di relazioni sintattiche tra le parole nelle matrici di attention a livelli superiori, poi riferimenti anaforici e altre relazioni che non sappiamo interpretare in altri livelli. Alcune di queste relazioni sono state esaminate con dei probe sui modelli, come i syntax probe.
Mi scusi, ma mi faccia capire. Con "È difficile capire davvero come si svolge il processo di generazione delle risposte tramite un LLM" vuol dire che non siamo in grado di farlo? Cioè che noi, che abbiamo progettato tale macchina, non siamo in grado di capirla? Se fosse così non crede che ci sarebbe un motivo in più per preoccuparsi? Insomma vorrebbe dire che hanno una identità propria e una capacità cognitivo-semantica a noi aliena e per dirla breve "abbiamo creato un mostro". Poi vorrei anche capire cosa significhi: la rappresentazione del senso delle parole nel primo strato di embedding e a quali livelli sono queste relazioni anaforiche. Lascerei per ora le matrici di attention e i probe sui modelli.
Non voglio essere irrispettoso ma essendo fuori dal gergo alcuni termini e loro correlazioni nelle frasi mi risultano oscuri.
m.