On 13 Feb 2025, at 13:01, Fabio Alemagna <falemagn@gmail.com> wrote:

[...]
Questo purtroppo in Italia ci è vietato dalla decisione del Garante della Privacy che ci ha impedito l’accesso a DeepSeek.

Lo si può comunque scaricare sul proprio computer e farlo girare in locale. Qui un tutorial: https://www.datacamp.com/tutorial/deepseek-r1-ollama

Sto sperimentando coi modelli DeepSeek da parecchio tempo, prima che diventassero famosi e non è così semplice.

Il modello DeepSeek V3 ha 617B parameters, ossia occupa 1.2TB di memoria: solo per caricarlo ci vogliono 8 GPU da 80GB.

Lo dicono loro stessi, nel technical report, che il modello è pesante to deploy e richiederà ulteriori studi.

Si possono usare modelli più piccoli, ma le prestazioni calano e comunque non sono velocissimi.

Il modello DeepSeek-Coder-33-instruct impiega circa 1 minuto a risposta.

DeepSeek lascia a terze parti di offrire accesso online, perché non ce la fanno.

Shameless push.

Non avendo grandi risorse, siamo partiti dal più piccolo dei modelli e abbiamo fatto SFT e RL con Preference Optimization sulla challenge Semeval 2025 Tabular Question Answering. Ci siamo classificati secondi nella categoria modelli piccoli.

Fabio