Re: [nexa] nexa Digest, Vol 171, Issue 53

July 19, 2023

...
On 19 Jul 2023, at 06:51, nexa-request@server-nexa.polito.it wrote:
Date: Wed, 19 Jul 2023 12:05:12 +0200
From: Fabio Alemagna <falemagn@gmail.com>
To: Guido Vetere <vetere.guido@gmail.com>
Cc: Daniela Tafani <daniela.tafani@unipi.it>,
   "nexa@server-nexa.polito.it" <nexa@server-nexa.polito.it>
Subject: Re: [nexa] AI and antitrust in 10 minutes
Message-ID:
   <CACGmXuPNy4Y9uFBdL7O=QsCYtNYE3hP5gLbg-QzUZW=fPr8qKA@mail.gmail.com>
Content-Type: text/plain; charset="UTF-8"
...
Il giorno mer 19 lug 2023 alle ore 10:44 Guido Vetere
<vetere.guido@gmail.com> ha scritto:
un piccolo commento a caldo dopo aver dato una scorsa a questo illuminante intervento
noi diamo per scontato che i LLM non possano che essere ciò che oggi ci viene proposto dal dupolio Microsoft \ Google
Non mi pare esista al momento un duopolio riguardo gli LLM: ne
esistono decine di completamente open source, prodotti un po' in tutto
il mondo.
Dipende da cosa consideri Large.
I veri LLM, quelli la cui dimensione consente l’apparire di emergent abilities, solo pochi si possono permettersi di costruirli.
E le dimensiini dei LLM sono finora cresciute esponenzialmente.
D’altra parte, non avrebbe senso che migliaia di ricercatori chiedessero di fermare lo sviluppo di LLM più potenti di GPT-4, se questa non fosse il percorso di sviluppo più promettente.
I LM cosiddetti Open Source (ma non è di source che si parla, ma dei parametri del modello), sono circa un ordine di grandezza più piccoli di quelli più grandi.
Questo si ripercuote sulle loro capacità. Non bisogna farsi illudere dalle dichiarazioni degli sviluppatori nel confronto con altri LLM.
I confronti vengono fatti su task specifici, su cui quei modelli sono ottimizzati.
Ma i LLM contengono una mole superiore di conoscenze, tali che possono essere utilizzati per altri task, solo col prompting, senza fare fine-tuning.
E il fine-tuning di un modello da 60-80 miliardi di parametri richiede comunque un server con almeno 4 GPU (altrimenti non sta in memoria) e diversi giorni di calcolo.
Il risultato è spesso inferiore a quello di un LLM.
Lo so per esperienza diretta personale e di altri.
Infine, non vorrei lasciare a quei pochi che se possono permettere, le scelte su come fare un LLM e dovermi limitare a quello che loro graziosamente, o pelosamente per conquistare quote di mercato, mettono a disposizione.

Vorrei poter avere la libertà di esplorare anche nuove strade.
Anche solo per fare, come dice Vetere, modelli per la mia lingua, o per un settore specifico (salute, energia), o per determinati punti di vista (politici, economici, sociali, personali).
...
Anche il Technology Innovation Institute dell'Arabia Saudita
ha rilasciato un LLM come Open Source: https://falconllm.tii.ae/
The model uses only 75 percent of GPT-3’s training compute, 40 percent of Chinchilla’s, and 80 percent of PaLM-62B’s

Ossia, forse gli arabi hanno i soldi per pagarsi le risorse computazionali per costruirsi un loro LLM, ma difficile che ce li abbiano i ricercatori europei, quando i progetti europei su AI dispongono di un centinaio di milioni in tutto per dozzine di progetti triennali con dozzine di partner.

Le risorse di calcolo per costruire GPT-3.5 sono stimate in 10^23 FLOPS per un costo di centinaia di milioni di $.
Meta, per rilasciare i suoi modelli, ha costruito un Research Supercluster con 10.000 GPU Nvidia, che secondo Yann LeCun è già in overbooking.
Musk, mentre chiede di fermare lo sviluppo di LLM, ha ordinato anche lui 10.000 GPU per X.AI.
Le startup come Converse.AI e Anthropic AI, hanno raccolto finanziamenti da 1-3 miliardi$, principalmente per comprarsi le risorse di calcolo.

Il massimo che abbiamo in Europa è Mistral, con 100 milioni di VC.

— Beppe

Re: [nexa] nexa Digest, Vol 171, Issue 53

Giuseppe Attardi