Re: [nexa] nexa Digest, Vol 171, Issue 53
On 19 Jul 2023, at 06:51, nexa-request@server-nexa.polito.it wrote:
Date: Wed, 19 Jul 2023 12:05:12 +0200 From: Fabio Alemagna <falemagn@gmail.com> To: Guido Vetere <vetere.guido@gmail.com> Cc: Daniela Tafani <daniela.tafani@unipi.it>, "nexa@server-nexa.polito.it" <nexa@server-nexa.polito.it> Subject: Re: [nexa] AI and antitrust in 10 minutes Message-ID: <CACGmXuPNy4Y9uFBdL7O=QsCYtNYE3hP5gLbg-QzUZW=fPr8qKA@mail.gmail.com> Content-Type: text/plain; charset="UTF-8"
Il giorno mer 19 lug 2023 alle ore 10:44 Guido Vetere <vetere.guido@gmail.com> ha scritto:
un piccolo commento a caldo dopo aver dato una scorsa a questo illuminante intervento noi diamo per scontato che i LLM non possano che essere ciò che oggi ci viene proposto dal dupolio Microsoft \ Google
Non mi pare esista al momento un duopolio riguardo gli LLM: ne esistono decine di completamente open source, prodotti un po' in tutto il mondo. Dipende da cosa consideri Large. I veri LLM, quelli la cui dimensione consente l’apparire di emergent abilities, solo pochi si possono permettersi di costruirli. E le dimensiini dei LLM sono finora cresciute esponenzialmente. D’altra parte, non avrebbe senso che migliaia di ricercatori chiedessero di fermare lo sviluppo di LLM più potenti di GPT-4, se questa non fosse il percorso di sviluppo più promettente. I LM cosiddetti Open Source (ma non è di source che si parla, ma dei parametri del modello), sono circa un ordine di grandezza più piccoli di quelli più grandi. Questo si ripercuote sulle loro capacità. Non bisogna farsi illudere dalle dichiarazioni degli sviluppatori nel confronto con altri LLM. I confronti vengono fatti su task specifici, su cui quei modelli sono ottimizzati. Ma i LLM contengono una mole superiore di conoscenze, tali che possono essere utilizzati per altri task, solo col prompting, senza fare fine-tuning. E il fine-tuning di un modello da 60-80 miliardi di parametri richiede comunque un server con almeno 4 GPU (altrimenti non sta in memoria) e diversi giorni di calcolo. Il risultato è spesso inferiore a quello di un LLM. Lo so per esperienza diretta personale e di altri.
Infine, non vorrei lasciare a quei pochi che se possono permettere, le scelte su come fare un LLM e dovermi limitare a quello che loro graziosamente, o pelosamente per conquistare quote di mercato, mettono a disposizione. Vorrei poter avere la libertà di esplorare anche nuove strade. Anche solo per fare, come dice Vetere, modelli per la mia lingua, o per un settore specifico (salute, energia), o per determinati punti di vista (politici, economici, sociali, personali).
Anche il Technology Innovation Institute dell'Arabia Saudita ha rilasciato un LLM come Open Source: https://falconllm.tii.ae/
The model uses only 75 percent of GPT-3’s training compute, 40 percent of Chinchilla’s, and 80 percent of PaLM-62B’s Ossia, forse gli arabi hanno i soldi per pagarsi le risorse computazionali per costruirsi un loro LLM, ma difficile che ce li abbiano i ricercatori europei, quando i progetti europei su AI dispongono di un centinaio di milioni in tutto per dozzine di progetti triennali con dozzine di partner. Le risorse di calcolo per costruire GPT-3.5 sono stimate in 10^23 FLOPS per un costo di centinaia di milioni di $. Meta, per rilasciare i suoi modelli, ha costruito un Research Supercluster con 10.000 GPU Nvidia, che secondo Yann LeCun è già in overbooking. Musk, mentre chiede di fermare lo sviluppo di LLM, ha ordinato anche lui 10.000 GPU per X.AI. Le startup come Converse.AI e Anthropic AI, hanno raccolto finanziamenti da 1-3 miliardi$, principalmente per comprarsi le risorse di calcolo. Il massimo che abbiamo in Europa è Mistral, con 100 milioni di VC. — Beppe
Il 19/07/23 13:30, Giuseppe Attardi ha scritto:
[...] Le risorse di calcolo per costruire GPT-3.5 sono stimate in 10^23 FLOPS per un costo di centinaia di milioni di $ Meta, per rilasciare i suoi modelli, ha costruito un Research Supercluster con 10.000 GPU Nvidia, che secondo Yann LeCun è già in overbooking.
Leggo da una fonte terza (Wikipedia) che "Leonardo" [1] ormai ha quasi un anno, è costato 240M€ e di picco fa 250 petaFLOPS (aka: ~10^17), anche grazie ai suoi 13.824 GPU-core. Leggo da altra fonte terza (Top500 [2]) che attualmente (06/2023) risulta 4° al mondo, come potenza di calcolo. Leggo dal sito ufficiale [3] che: "Leonardo's main goals are [...] The computational power of Leonardo will boost scientific exellences and industrial strenght across Europe...." Non si parla di IA/ML, né si accenna agli LLM. Ma faccio comunque fatica ad immaginare che queste tonnellate di ferro *NON* possano essere utilizzate dalla comunita' della ricerca Italiana (...magari, in modo coordinato con gli altri paesi EU, dove "giocattoli" simili sono comunque presenti) a questo scopo. Ovviamente non mi aspetto che parcheggiati davanti al Tecnolopolo ci siano una fila di TAXI, pronti a scattare all'ordine di Cineca, per "prelevare" i ricercatori in giro per l'Italia al fine di portarli al Tecnopolo... per conoscere il giocattolo e iniziare ad usarlo. Certo: se il dottorando X, o l'assegnista Y (o anche il Ricercatore Z o il docente K) sentono il bisogno di avere del ferro sul pianerottolo di fianco al loro studio, in UNIV [come accade in UniPI, ad esempio, con i sistemi NVIDIA qui discussi, qualche giorno fa]... allora il discorso cambia... Un'ultima nota a chiusura: sono cosciente che fra 10^17 e 10^23 c'e' *MOLTA* differenza (a proposito: qual'e' la fonte di 10^23?). Prima di preoccuparmi di questo, pero', attenderei di vedere che quei 10^17 stiano lavorando almeno come 10^16 per un buon periodo di ore/mese. Dopodiché sarei pronto ad alzare la mano e chiedere qualcosa... di piu' performante. Un saluto, DV [1] https://en.wikipedia.org/wiki/Leonardo_(supercomputer) [2] https://www.top500.org/lists/top500/2023/06/ [3] https://leonardo-supercomputer.cineca.eu/ -- Damiano Verzulli e-mail: damiano@verzulli.it --- possible?ok:while(!possible){open_mindedness++} --- "...I realized that free software would not generate the kind of income that was needed. Maybe in USA or Europe, you may be able to get a well paying job as a free software developer, but not here [in Africa]..." -- Guido Sohne - 1973-2008 http://ole.kenic.or.ke/pipermail/skunkworks/2008-April/005989.html
Un'ultima nota a chiusura: sono cosciente che fra 10^17 e 10^23 c'e' *MOLTA* differenza (a proposito: qual'e' la fonte di 10^23?).
Più per capire io ... Prendiamo per buono 10^23 (come fonte "secondaria" ho trovato questa [1]) 10^23 FLOPS, convertiti, sono 100.000 exaFLOPS. Frontier, il primo supercomputer della lista dei top100, supera di poco 1 exaFLOPS e richiede 22 MW di potenza. 22 MW * 100000 = 2200000 MW = 22000 GW ovvero 15000 centrali elettriche (1520 MW è la potenza della più grande centrale elettrica italiana [2]) messe assieme. Se non ho cannato i calcoli, mi sembra un poco eccessivo. A. [1] https://www.lesswrong.com/posts/bfsyLY3Xnq442eKL8/gpt-2005-a-conversation-wi... [2] https://it.wikipedia.org/wiki/Centrali_elettriche_in_Italia
On mer, 2023-07-19 at 18:26 +0200, Antonio wrote:
Un'ultima nota a chiusura: sono cosciente che fra 10^17 e 10^23 c'e' *MOLTA* differenza (a proposito: qual'e' la fonte di 10^23?).
Più per capire io ... Prendiamo per buono 10^23 (come fonte "secondaria" ho trovato questa [1]) 10^23 FLOPS, convertiti, sono 100.000 exaFLOPS. Frontier, il primo supercomputer della lista dei top100, supera di poco 1 exaFLOPS e richiede 22 MW di potenza. 22 MW * 100000 = 2200000 MW = 22000 GW ovvero 15000 centrali elettriche (1520 MW è la potenza della più grande centrale elettrica italiana [2]) messe assieme. Se non ho cannato i calcoli, mi sembra un poco eccessivo.
Li hai cannati di brutto. 22 MW è la potenza di una molto piccola centrale elettrica. Tipo la vecchia diga sul fiume Lima qui in toscana. O la potenza installata in 8000 appartamenti
A.
[1] https://www.lesswrong.com/posts/bfsyLY3Xnq442eKL8/gpt-2005-a-conversation-wi... [2] https://it.wikipedia.org/wiki/Centrali_elettriche_in_Italia _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Il 20/07/23 00:39, Marco A. Calamari ha scritto:
On mer, 2023-07-19 at 18:26 +0200, Antonio wrote:
Più per capire io ... Prendiamo per buono 10^23 (come fonte "secondaria" ho trovato questa [1]) 10^23 FLOPS, convertiti, sono 100.000 exaFLOPS. Frontier, il primo supercomputer della lista dei top100, supera di poco 1 exaFLOPS e richiede 22 MW di potenza. 22 MW * 100000 = 2200000 MW = 22000 GW ovvero 15000 centrali elettriche (1520 MW è la potenza della più grande centrale elettrica italiana [2]) messe assieme. Se non ho cannato i calcoli, mi sembra un poco eccessivo. Li hai cannati di brutto. 22 MW è la potenza di una molto piccola centrale elettrica. Tipo la vecchia diga sul fiume Lima qui in toscana. O la potenza installata in 8000 appartamenti
Negativo. Ho impiegato un po' a fare il reverse-engineering della tesi di Antonio... ma è corretta ( i calcoli, sono corretti). Il ragionamento fatto da lui e': a - la potenza di calcolo di riferimento indicata da Attardi è 10^23 FLOPS, che è circa 100.000 volte superiore a quella indicata dal supercomputer al numero 1 della top500, che dichiara consumi per 22MW; b - spannometricamente, quindi, si assume che se serve un sistema HPC 100.000 volte piu' potente di uno che consuma 22MW, si puo' supporre che questo consumera' 100.000 volte i consumi di quello da 22MW; c - 100.000 volte 22MW fanno 22.000 GW d - si puo' supporre, quindi, che il sistema HPC da cui siamo partiti (quello da 10^23) consuma 22.000 GW, ossia l'equivalente di energia prodotta da 15.000 centrali elettriche. Personalmente, trovo il ragionamento "condivisibile", posto che esisteranno N "margini per economie [energetiche] di scal". Ma se anche riduciamo di un fattore 100 i consuni... otteniamo sempre 150 centrali.... Temo ci sia qualcosa che sfugge ai nostri ragionamenti (Antonio/mio), oppure ci sono "errori" in 10^23... Bye, DV -- Damiano Verzulli e-mail: damiano@verzulli.it --- possible?ok:while(!possible){open_mindedness++} --- "...I realized that free software would not generate the kind of income that was needed. Maybe in USA or Europe, you may be able to get a well paying job as a free software developer, but not here [in Africa]..." -- Guido Sohne - 1973-2008 http://ole.kenic.or.ke/pipermail/skunkworks/2008-April/005989.html
Temo ci sia qualcosa che sfugge ai nostri ragionamenti (Antonio/mio), oppure ci sono "errori" in 10^23...
Credo di aver capito dove sbaglio / sbagliamo. 10^23 sono FLOPS *totali*, per l'intero periodo di calcolo. Ad esempio, se la "macchina" ha girato per 2 mesi: 60 (secondi) * 60 (minuti) * 24 (ore) * 60 (giorni) = 5184000 secondi 10^23 / 5184000 = 1,9 * 10^16, sempre un numero enorme, ma non 15000 centrali elettriche ;) Antonio
On gio, 2023-07-20 at 10:19 +0200, Damiano Verzulli wrote:
Il 20/07/23 00:39, Marco A. Calamari ha scritto:
On mer, 2023-07-19 at 18:26 +0200, Antonio wrote:
Più per capire io ... Prendiamo per buono 10^23 (come fonte "secondaria" ho trovato questa [1]) 10^23 FLOPS, convertiti, sono 100.000 exaFLOPS. Frontier, il primo supercomputer della lista dei top100, supera di poco 1 exaFLOPS e richiede 22 MW di potenza. 22 MW * 100000 = 2200000 MW = 22000 GW ovvero 15000 centrali elettriche (1520 MW è la potenza della più grande centrale elettrica italiana [2]) messe assieme. Se non ho cannato i calcoli, mi sembra un poco eccessivo. Li hai cannati di brutto. 22 MW è la potenza di una molto piccola centrale elettrica. Tipo la vecchia diga sul fiume Lima qui in toscana. O la potenza installata in 8000 appartamenti
Negativo. Ho impiegato un po' a fare il reverse-engineering della tesi di Antonio... ma è corretta ( i calcoli, sono corretti).
Il ragionamento fatto da lui e':
a - la potenza di calcolo di riferimento indicata da Attardi è 10^23 FLOPS, che è circa 100.000 volte superiore a quella indicata dal supercomputer al numero 1 della top500, che dichiara consumi per 22MW;
b - spannometricamente, quindi, si assume che se serve un sistema HPC 100.000 volte piu' potente di uno che consuma 22MW, si puo' supporre che questo consumera' 100.000 volte i consumi di quello da 22MW;
c - 100.000 volte 22MW fanno 22.000 GW
d - si puo' supporre, quindi, che il sistema HPC da cui siamo partiti (quello da 10^23) consuma 22.000 GW, ossia l'equivalente di energia prodotta da 15.000 centrali elettriche.
Personalmente, trovo il ragionamento "condivisibile", posto che esisteranno N "margini per economie [energetiche] di scal". Ma se anche riduciamo di un fattore 100 i consuni... otteniamo sempre 150 centrali....
Temo ci sia qualcosa che sfugge ai nostri ragionamenti (Antonio/mio), oppure ci sono "errori" in 10^23...
Mah, spiegato così ha un senso, ma contiene l'errore tipico delle estrapolazioni arbitrarie, quello di considerarle lineari, salvo poi ridurre di un numero a piacere ed arbitrario di ordini di grandezza il risultato, e concludere che è sempre tanto. Ne ho viste molte con questa "logica" ... IMHO, of course.
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Mah, spiegato così ha un senso, ma contiene l'errore tipico delle estrapolazioni arbitrarie, quello di considerarle lineari, salvo poi ridurre di un numero a piacere ed arbitrario di ordini di grandezza il risultato, e concludere che è sempre tanto.
No, non è tanto, per niente tanto. E' questo quello che viene fuori. Il 10^23 indicato dal prof. Attardi è di picco o totale? Nel primo caso, ho dimostrato che ci vorrebbero 15000 centrali elettriche per farlo girare, quindi non credo. Se è totale, allora bisogna conoscere il tempo impiegato nel calcolo. 1 giorno, 1 settimana, 1 mese? Il numero, sì questo, "arbitrario", che ho considerato è di due mesi. In questo caso il 10^23 si riduce ad un "misero" 19 petaFLOPS di picco. (i due NVIDIA DGX H100 acquistati da UniPI) hanno ciascuno performance di 32 petaFLOPS. C'è qualcosa di sbagliato in questa analisi? Se sì, dove? Grazie, Antonio
Il 21/07/23 10:07, Antonio ha scritto:
[...] No, non è tanto, per niente tanto. E' questo quello che viene fuori. [...] C'è qualcosa di sbagliato in questa analisi? Se sì, dove?
....stai a vedere che, piano piano... viene fuori che *anche* in ambito ricerca/LLM lo scenario è lo stesso di quello che sostengo essere per l'ambito "cloud". Ossia: per il "cloud".... tutti sostengono che gli hyperscaler sono inarrivabili e che --in Italia/Europa-- *NON* siamo in grado di allestire alternative.... mentre io sostengo che NON è esattamente cosi' [1]. Va a finire che.... con un DGX H100 di UniPI si possono gia' fare danni "enormi". Figuriamoci con una settimana di tempo/calcolo di Leonardo.... Chissa' che i problemi non siano tecnologici, economici o "metallici" (la quantita' di ferro necessaria....), ma siano altri. Felice di essere smentito... Bye, DV [1] https://server-nexa.polito.it/pipermail/nexa/2021-May/046942.html -- Damiano Verzulli e-mail: damiano@verzulli.it --- possible?ok:while(!possible){open_mindedness++} --- "...I realized that free software would not generate the kind of income that was needed. Maybe in USA or Europe, you may be able to get a well paying job as a free software developer, but not here [in Africa]..." -- Guido Sohne - 1973-2008 http://ole.kenic.or.ke/pipermail/skunkworks/2008-April/005989.html
participants (4)
-
Antonio -
Damiano Verzulli -
Giuseppe Attardi -
Marco A. Calamari