Il giorno gio 13 feb 2025 alle ore 12:36 Giuseppe Attardi <attardi@di.unipi.it> ha scritto:

[...]
2. Si sono raffinate le tecniche di post-processing: SFT e RL basato su DPO (Direct Preference Optimizazion) o GRPO (quella usata da DeepSeek R1 ecc.) Quest’ultima tecnica accelera l’apprendimento con RL e viene usata per insegnare direttamente a effettuare ragionamenti matematici e logici ai modelli, senza bisogno di un secondo modello di critica delle risposte come in ChatGPT.

Qualche giorno fa ho postato nella lista l'abstract e link a uno studio che mostra come gli LLM "capiscono" la matematica: usando la trigonometria, che comunque nessuno gli ha insegnato.
https://server-nexa.polito.it/pipermail/nexa/2025-February/054015.html

[...]
Questo purtroppo in Italia ci è vietato dalla decisione del Garante della Privacy che ci ha impedito l’accesso a DeepSeek.

Lo si può comunque scaricare sul proprio computer e farlo girare in locale. Qui un tutorial: https://www.datacamp.com/tutorial/deepseek-r1-ollama

Fabio