Certo, confrontiamo le cose comparabili.
Tra i modelli c.d. 'aperti' di dimensioni <= 70B spiccano oggi Llama 3.1 70B (82.7) e gemma-2 27B (80.7), che hanno ormai prestazioni comparabili con i modelli 'chiusi' come GPT e Claude (non parlo solo del task INVALSI naturalmente, la situazione 'sul campo' sta diventando molto interessante).
I modelli italianissimi sono saldamente in fondo, anche quelli instructed. Un po' certamente si deve alle dimensioni (d'altra parte su come costruire un 70B solo con testi italiani 'kosher' nessuno ha uno straccio di idea), un po' si deve alle instruction, diciamo che ci si dovrà lavorare, però mi sembra che l'autarchia linguistica non stia producendo grandi risultati fino ad oggi.
Infine certo: un benchmark è solo un benchmark (anche quelli 'standard' come le risposte multiple), la vera misura l'avremo quando potremo ragionare sull'adozione.
Cheers,
G.