[...]
2. Si sono raffinate le tecniche di post-processing: SFT e RL basato su DPO (Direct Preference Optimizazion) o GRPO (quella usata da DeepSeek R1 ecc.) Quest’ultima tecnica accelera l’apprendimento con RL e viene usata per insegnare direttamente a effettuare ragionamenti matematici e logici ai modelli, senza bisogno di un secondo modello di critica delle risposte come in ChatGPT.
[...]
Questo purtroppo in Italia ci è vietato dalla decisione del Garante della Privacy che ci ha impedito l’accesso a DeepSeek.
Fabio