On 13 Feb 2025, at 13:01, Fabio Alemagna <falemagn@gmail.com> wrote:
[...]
Questo purtroppo in Italia ci è vietato dalla decisione del Garante della Privacy che ci ha impedito l’accesso a DeepSeek.
Sto sperimentando coi modelli DeepSeek da parecchio tempo, prima che diventassero famosi e non è così semplice.Il modello DeepSeek V3 ha 617B parameters, ossia occupa 1.2TB di memoria: solo per caricarlo ci vogliono 8 GPU da 80GB.
Lo dicono loro stessi, nel technical report, che il modello è pesante to deploy e richiederà ulteriori studi.
Si possono usare modelli più piccoli, ma le prestazioni calano e comunque non sono velocissimi.
Il modello DeepSeek-Coder-33-instruct impiega circa 1 minuto a risposta.
DeepSeek lascia a terze parti di offrire accesso online, perché non ce la fanno.
Shameless push.
Non avendo grandi risorse, siamo partiti dal più piccolo dei modelli e abbiamo fatto SFT e RL con Preference Optimization sulla challenge Semeval 2025 Tabular Question Answering. Ci siamo classificati secondi nella categoria modelli piccoli.