Re: nexa Digest, Vol 205, Issue 38
Non esattamente: ti sfugge che il calciatore (la rete neurale) ha una sua capacità di apprendere legata alla struttura del suo modello: la backpropagation stimola l’apprendimento ma non basta se il modello è inadeguato. Sostituisci al calciatore una rete fatta di un singolo perceptron e il meccanismo non funziona. Proprio sul ruolo cruciale dell’architettura dei modelli sta la differenza con l’interpretazione di macchina-statistica. I successi del Deep Learning sono dovuti proprio ai progressi nelle architetture dei modelli. — Beppe On 11 May 2026, at 13:09, nexa-request@server-nexa.polito.it wrote: From: antonio <antonio@piumarossa.it<mailto:antonio@piumarossa.it>> Subject: [nexa] Re: Una visione realistica dell’Intelligenza Artificiale - Lettera aperta alla società To: nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it> Message-ID: <20260511122219.a36e31cefab1826de25daa7e@piumarossa.it<mailto:20260511122219.a36e31cefab1826de25daa7e@piumarossa.it>> Content-Type: text/plain; charset=ISO-8859-1 I LLM hanno risolto il problema in modo radicalmente diverso: invece di codificare regole, apprendono pattern statistici da enormi quantità di testo. Se venisse da me un ragazzino a chiedermi il funzionamento base di una rete neurale gli farei questo esempio. Vuoi tirare il rigore perfetto all'incrocio dei pali? Vieni con me. Ti porto nei pressi del dischetto e ti bendo. "Tira il pallone in una direzione a caso, poi io ti dirò come aggiustare il tiro". Un po' più a destra, un po' più alto, ancora più in alto, no, troppo, ora abbassa, e così per tutto il giorno. Io prenderò nota solo dei movimenti corretti. Dopo 10.000 rigori, non avrai più bisogno che io ti guidi. Avrai memorizzato esattamente la tensione muscolare e la potenza necessaria per colpire l'incrocio. A quel punto, toglieremo la benda e farai gol al primo colpo. Quindi abbiamo: 1) Il calciatore (la rete neurale): È lui che agisce, ma all'inizio non sa nulla. 2) Il tiro a caso (forward propagation): La rete neurale fa una previsione basandosi su pesi casuali. 3) Tu che correggi ("più a destra/alto") (Funzione di perdita/loss function): misuri l'errore tra dove è andata la palla e l'incrocio dei pali. 4) Aggiustare il tiro (backpropagation): Il calciatore capisce l'errore e modifica la posizione del corpo per il prossimo tiro. 5) Tirare tutto il giorno (addestramento/training): La rete impara iterando migliaia di volte finché non azzecca il tiro 6) Prendere nota (aggiornamento dei parametri della rete): I "pesi" sinaptici" vengono consolidati quando portano ad un risultato migliore. Bene, ora sostituisci quel "migliaia di volte" con questo numero: 38.000.000.000.000.000.000.000.000 e "tutto il giorno" con 54 giorni. (Il training di Llama 3.1 405B ha richiesto circa 3,8 * 10^25 FLOP utilizzando 16.384 GPU H100 per 54 giorni) p.s. forse è meglio citare De Gregori: Ma Nino non aver paura Di sbagliare un calcio di rigore Non è mica da questi particolari Che si giudica un giocatore Un giocatore lo vedi dal coraggio Dall'altruismo e dalla fantasia A.
Concordo Giuseppe, il paragone suggerito da Antonio è profondamente inadeguato, ma per una ragione più macroscopica di quella che rilevi. Il ragazzino è intelligente, la "rete neurale artificiale" no. Lungi dal chiarire "funzionamento base di una rete neurale", l'esperienza che proponi spingerebbe il ragazzino ad antropomorfizzarla. Infatti il ragazzino impara, mentre le matrici di una "rete neurale artificiale" si limita ad assorbire pattern iterativamente, adattando microscopicamente i propri valori ad ogni ciclo di back propagation in modo da ridurre l'errore del proprio calcolo rispetto al output desiderato. Anzi, per la precisione, non è la rete neurale ad assorbire i pattern adattando i propri valori: è il programmatore statistico che applica la back propagation tramite un software preposto, correggendo i numeri della matrice stessa. Dopo milioni di ripetizioni, le matrici hanno _assorbito_ alcuni pattern statisticamente rilevanti che sono poi in grado di riprodurre. Ma non c'è nessuno ad "imparare" e persino il termine "perceptron", con il suo riferimento evocativo alla esperienza della percezione, è assolutamente inadeguato a descrivere ciò di cui stiamo parlando. Sopratutto per chi purtroppo non comprende appieno il funzionamento di queste macchine (virtuali) programmabili statisticamente. Concordo anche sul fatto (ovvio se ci pensi bene) che l'architettura di una vector mapping machine sia fondamentale per minimizzare la produzione di artefatti durante la decompressione di questi archivi compressi con perdita. Così come trovo ovvio che tipologie di dati sorgente diversi (poesie, immagini, codice, associazioni immagine/descrizione...) potranno essere compressi più efficientemente da architetture diverse, esattamente come algoritmi di compressione diversi producono archivi più o meno adatti a determinati utilizzi. Giacomo On Tue, 12 May 2026 06:32:11 +0000 Giuseppe Attardi wrote:
Non esattamente: ti sfugge che il calciatore (la rete neurale) ha una sua capacità di apprendere legata alla struttura del suo modello: la backpropagation stimola l’apprendimento ma non basta se il modello è inadeguato. Sostituisci al calciatore una rete fatta di un singolo perceptron e il meccanismo non funziona.
Proprio sul ruolo cruciale dell’architettura dei modelli sta la differenza con l’interpretazione di macchina-statistica. I successi del Deep Learning sono dovuti proprio ai progressi nelle architetture dei modelli.
— Beppe
On 11 May 2026, at 13:09, nexa-request@server-nexa.polito.it wrote:
From: antonio <antonio@piumarossa.it<mailto:antonio@piumarossa.it>> Subject: [nexa] Re: Una visione realistica dell’Intelligenza Artificiale - Lettera aperta alla società To: nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it> Message-ID: <20260511122219.a36e31cefab1826de25daa7e@piumarossa.it<mailto:20260511122219.a36e31cefab1826de25daa7e@piumarossa.it>> Content-Type: text/plain; charset=ISO-8859-1
I LLM hanno risolto il problema in modo radicalmente diverso: invece di codificare regole, apprendono pattern statistici da enormi quantità di testo.
Se venisse da me un ragazzino a chiedermi il funzionamento base di una rete neurale gli farei questo esempio.
Vuoi tirare il rigore perfetto all'incrocio dei pali? Vieni con me. Ti porto nei pressi del dischetto e ti bendo. "Tira il pallone in una direzione a caso, poi io ti dirò come aggiustare il tiro". Un po' più a destra, un po' più alto, ancora più in alto, no, troppo, ora abbassa, e così per tutto il giorno. Io prenderò nota solo dei movimenti corretti. Dopo 10.000 rigori, non avrai più bisogno che io ti guidi. Avrai memorizzato esattamente la tensione muscolare e la potenza necessaria per colpire l'incrocio. A quel punto, toglieremo la benda e farai gol al primo colpo.
Quindi abbiamo:
1) Il calciatore (la rete neurale): È lui che agisce, ma all'inizio non sa nulla. 2) Il tiro a caso (forward propagation): La rete neurale fa una previsione basandosi su pesi casuali. 3) Tu che correggi ("più a destra/alto") (Funzione di perdita/loss function): misuri l'errore tra dove è andata la palla e l'incrocio dei pali. 4) Aggiustare il tiro (backpropagation): Il calciatore capisce l'errore e modifica la posizione del corpo per il prossimo tiro. 5) Tirare tutto il giorno (addestramento/training): La rete impara iterando migliaia di volte finché non azzecca il tiro 6) Prendere nota (aggiornamento dei parametri della rete): I "pesi" sinaptici" vengono consolidati quando portano ad un risultato migliore.
Bene, ora sostituisci quel "migliaia di volte" con questo numero: 38.000.000.000.000.000.000.000.000 e "tutto il giorno" con 54 giorni.
(Il training di Llama 3.1 405B ha richiesto circa 3,8 * 10^25 FLOP utilizzando 16.384 GPU H100 per 54 giorni)
p.s. forse è meglio citare De Gregori:
Ma Nino non aver paura Di sbagliare un calcio di rigore Non è mica da questi particolari Che si giudica un giocatore Un giocatore lo vedi dal coraggio Dall'altruismo e dalla fantasia
A.
se cerchi di fare backprop con un flip flop hai dei problemi... On 12/05/26 08:32, Giuseppe Attardi via nexa wrote:
Non esattamente: ti sfugge che il calciatore (la rete neurale) ha una sua capacità di apprendere legata alla struttura del suo modello: la backpropagation stimola l’apprendimento ma non basta se il modello è inadeguato. Sostituisci al calciatore una rete fatta di un singolo perceptron e il meccanismo non funziona.
Proprio sul ruolo cruciale dell’architettura dei modelli sta la differenza con l’interpretazione di macchina-statistica. I successi del Deep Learning sono dovuti proprio ai progressi nelle architetture dei modelli.
— Beppe
On 11 May 2026, at 13:09, nexa-request@server-nexa.polito.it wrote:
From: antonio <antonio@piumarossa.it <mailto:antonio@piumarossa.it>> Subject: [nexa] Re: Una visione realistica dell’Intelligenza Artificiale - Lettera aperta alla società To:nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> Message-ID: <20260511122219.a36e31cefab1826de25daa7e@piumarossa.it <mailto:20260511122219.a36e31cefab1826de25daa7e@piumarossa.it>> Content-Type: text/plain; charset=ISO-8859-1
I LLM hanno risolto il problema in modo radicalmente diverso: invece di codificare regole, apprendono pattern statistici da enormi quantità di testo.
Se venisse da me un ragazzino a chiedermi il funzionamento base di una rete neurale gli farei questo esempio.
Vuoi tirare il rigore perfetto all'incrocio dei pali? Vieni con me. Ti porto nei pressi del dischetto e ti bendo. "Tira il pallone in una direzione a caso, poi io ti dirò come aggiustare il tiro". Un po' più a destra, un po' più alto, ancora più in alto, no, troppo, ora abbassa, e così per tutto il giorno. Io prenderò nota solo dei movimenti corretti. Dopo 10.000 rigori, non avrai più bisogno che io ti guidi. Avrai memorizzato esattamente la tensione muscolare e la potenza necessaria per colpire l'incrocio. A quel punto, toglieremo la benda e farai gol al primo colpo.
Quindi abbiamo:
1) Il calciatore (la rete neurale): È lui che agisce, ma all'inizio non sa nulla. 2) Il tiro a caso (forward propagation): La rete neurale fa una previsione basandosi su pesi casuali. 3) Tu che correggi ("più a destra/alto") (Funzione di perdita/loss function): misuri l'errore tra dove è andata la palla e l'incrocio dei pali. 4) Aggiustare il tiro (backpropagation): Il calciatore capisce l'errore e modifica la posizione del corpo per il prossimo tiro. 5) Tirare tutto il giorno (addestramento/training): La rete impara iterando migliaia di volte finché non azzecca il tiro 6) Prendere nota (aggiornamento dei parametri della rete): I "pesi" sinaptici" vengono consolidati quando portano ad un risultato migliore.
Bene, ora sostituisci quel "migliaia di volte" con questo numero: 38.000.000.000.000.000.000.000.000 e "tutto il giorno" con 54 giorni.
(Il training di Llama 3.1 405B ha richiesto circa 3,8 * 10^25 FLOP utilizzando 16.384 GPU H100 per 54 giorni)
p.s. forse è meglio citare De Gregori:
Ma Nino non aver paura Di sbagliare un calcio di rigore Non è mica da questi particolari Che si giudica un giocatore Un giocatore lo vedi dal coraggio Dall'altruismo e dalla fantasia
A.
-- You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
participants (3)
-
Giacomo Tesio -
Giuseppe Attardi -
Stefano Quintarelli