Certo, confrontiamo le cose comparabili.

Tra i modelli c.d. 'aperti' di dimensioni <= 70B spiccano oggi Llama 3.1 70B (82.7) e gemma-2 27B (80.7), che hanno ormai prestazioni comparabili con i modelli 'chiusi' come GPT e Claude (non parlo solo del task INVALSI naturalmente, la situazione 'sul campo' sta diventando molto interessante).

I modelli italianissimi sono saldamente in fondo, anche quelli instructed. Un po' certamente si deve alle dimensioni (d'altra parte su come costruire un 70B solo con testi italiani 'kosher' nessuno ha uno straccio di idea), un po' si deve alle instruction, diciamo che ci si dovrà lavorare, però mi sembra che l'autarchia linguistica non stia producendo grandi risultati fino ad oggi.

Infine certo: un benchmark è solo un benchmark (anche quelli 'standard' come le risposte multiple), la vera misura l'avremo quando potremo ragionare sull'adozione.

Cheers,

On Wed, 31 Jul 2024 at 19:37, Antonio <antonio@piumarossa.it> wrote:

> ci sono le bugie, le maledette bugie, e i benchmark .. :-)
> comunque quando i modelli multilingua di Meta, DeepMind e Mistral sui
> benchmark italiani vanno al doppio di quelli 'autarchici', qualcosa dovrà
> pur dire

Se per questo vanno anche venti volte meglio [1], ma è un numero che non vale nulla.
Stiamo confrontando mele con pere.
Alcuni sono Base model, altri SFT (Supervised Finetuning), RM (Reward Modeling), RL (Reinforcement Learning) model.
I Base model (come Minerva-3B-base) non sono assolutamente adatti per questo tipo di confronti.
Oltre, ovviamente, al fatto che 3B è un tantino meno di 405B.
Lungi da me parteggiare per i modelli autarchici per amor patriae, sul Modello Italia non credo di esserci andato leggero [2], ma da qui a dire che i modelli multilingua sono migliori a prescindere non mi trova d'accordo.
I modelli multilingua sono solo un enorme spreco per l'ambiente.
Prendiamo un Minerva-3B-base, gli diamo in pasto qualche centinaio di migliaia di prompt di buona qualità (sono sufficienti un centinaio di GPU/days per il reinforcement learning) e poi rifacciamo girare lo script di benchmark. Scommettiamo che il divario diminuisce?

A.

[1]
claude-3.5-sonnet: 92.2
Meta-Llama-3.1-405B-Instruct: 86.1
gpt-4-turbo: 86
gemini-pro-1.5: 81.2
...
Minerva-3B-base-v1.0: 4.9

[2] https://www.saela.eu/modelloitalia/