Re: [nexa] Perché Richard Stallman sbaglia in tema di intelligenza artificiale

Feb. 14, 2025

      Beppe, immagino tu lo sappia visto che parli sia di DeepSeek che di
modelli piccoli, ma nel caso (e per gli altri): DeepSeek R1 è
disponibile anche in molte altre versioni, tra cui 1.5B, 7B e 8B
parametri, tutte con pesi distribuiti sotto licenza MIT. Le dimensioni
di questi 3 modelli sono tutte sotto i 5 GiB; la prima, 1.1 GiB, gira
anche su una GPU "dei poveri" come quella parecchio vecchia che ho sul
mio laptop. Vedi qua per il dettaglio di parametri vs dimensione dei
vari modelli: https://ollama.com/library/deepseek-r1/tags .

Per quanto riguarda la democratizzazione dell'*uso* *locale* (e quindi
indipendente) di questi modelli, le barriere stanno cadendo, non c'è
dibattito. Sugli altri fronti (addestramento, dataset, etc.) è un'altra
storia, ma il gradiente è comunque quello giusto.

Ciao

On Fri, Feb 14, 2025 at 08:59:31AM +0100, Giuseppe Attardi wrote:
...
...
On 13 Feb 2025, at 13:01, Fabio Alemagna <falemagn@gmail.com> wrote:
...
[...]
Questo purtroppo in Italia ci è vietato dalla decisione del Garante della Privacy che ci ha impedito l’accesso a DeepSeek.
Lo si può comunque scaricare sul proprio computer e farlo girare in locale. Qui un tutorial: https://www.datacamp.com/tutorial/deepseek-r1-ollama
Sto sperimentando coi modelli DeepSeek da parecchio tempo, prima che diventassero famosi e non è così semplice.
Il modello DeepSeek V3 ha 617B parameters, ossia occupa 1.2TB di memoria: solo per caricarlo ci vogliono 8 GPU da 80GB.
Lo dicono loro stessi, nel technical report, che il modello è pesante to deploy e richiederà ulteriori studi.
Si possono usare modelli più piccoli, ma le prestazioni calano e comunque non sono velocissimi.
Il modello DeepSeek-Coder-33-instruct impiega circa 1 minuto a risposta.
DeepSeek lascia a terze parti di offrire accesso online, perché non ce la fanno.
Shameless push.
Non avendo grandi risorse, siamo partiti dal più piccolo dei modelli e abbiamo fatto SFT e RL con Preference Optimization sulla challenge Semeval 2025 Tabular Question Answering. Ci siamo classificati secondi nella categoria modelli piccoli.
...
Fabio
-- 
Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack  _. ^ ._
Full professor of Computer Science              o     o   o     \/|V|\/
Télécom Paris, Polytechnic Institute of Paris     o     o o    </>   <\>
Co-founder & CSO Software Heritage            o o o     o       /\|^|/\
Mastodon: https://mastodon.xyz/@zacchiro                        '" V "'