Beppe, immagino tu lo sappia visto che parli sia di DeepSeek che di modelli piccoli, ma nel caso (e per gli altri): DeepSeek R1 è disponibile anche in molte altre versioni, tra cui 1.5B, 7B e 8B parametri, tutte con pesi distribuiti sotto licenza MIT. Le dimensioni di questi 3 modelli sono tutte sotto i 5 GiB; la prima, 1.1 GiB, gira anche su una GPU "dei poveri" come quella parecchio vecchia che ho sul mio laptop. Vedi qua per il dettaglio di parametri vs dimensione dei vari modelli: https://ollama.com/library/deepseek-r1/tags . Per quanto riguarda la democratizzazione dell'*uso* *locale* (e quindi indipendente) di questi modelli, le barriere stanno cadendo, non c'è dibattito. Sugli altri fronti (addestramento, dataset, etc.) è un'altra storia, ma il gradiente è comunque quello giusto. Ciao On Fri, Feb 14, 2025 at 08:59:31AM +0100, Giuseppe Attardi wrote:
On 13 Feb 2025, at 13:01, Fabio Alemagna <falemagn@gmail.com> wrote:
[...] Questo purtroppo in Italia ci è vietato dalla decisione del Garante della Privacy che ci ha impedito l’accesso a DeepSeek.
Lo si può comunque scaricare sul proprio computer e farlo girare in locale. Qui un tutorial: https://www.datacamp.com/tutorial/deepseek-r1-ollama
Sto sperimentando coi modelli DeepSeek da parecchio tempo, prima che diventassero famosi e non è così semplice. Il modello DeepSeek V3 ha 617B parameters, ossia occupa 1.2TB di memoria: solo per caricarlo ci vogliono 8 GPU da 80GB. Lo dicono loro stessi, nel technical report, che il modello è pesante to deploy e richiederà ulteriori studi.
Si possono usare modelli più piccoli, ma le prestazioni calano e comunque non sono velocissimi. Il modello DeepSeek-Coder-33-instruct impiega circa 1 minuto a risposta. DeepSeek lascia a terze parti di offrire accesso online, perché non ce la fanno.
Shameless push. Non avendo grandi risorse, siamo partiti dal più piccolo dei modelli e abbiamo fatto SFT e RL con Preference Optimization sulla challenge Semeval 2025 Tabular Question Answering. Ci siamo classificati secondi nella categoria modelli piccoli.
Fabio
-- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CSO Software Heritage o o o o /\|^|/\ Mastodon: https://mastodon.xyz/@zacchiro '" V "'