Re: [nexa] i language model alle prove INVALSI

Aug. 1, 2024

      Certo, confrontiamo le cose comparabili.

Tra i modelli c.d. 'aperti' di dimensioni <= 70B spiccano oggi Llama 3.1
70B (82.7) e gemma-2 27B (80.7), che hanno ormai prestazioni comparabili
con i modelli 'chiusi' come GPT e Claude (non parlo solo del task INVALSI
naturalmente, la situazione 'sul campo' sta diventando molto interessante).

I modelli italianissimi sono saldamente in fondo, anche quelli instructed.
Un po' certamente si deve alle dimensioni (d'altra parte su come costruire
un 70B solo con testi italiani 'kosher' nessuno ha uno straccio di idea),
un po' si deve alle instruction, diciamo che ci si dovrà lavorare, però mi
sembra che l'autarchia linguistica non stia producendo grandi risultati
fino ad oggi.

Infine certo: un benchmark è solo un benchmark (anche quelli 'standard'
come le risposte multiple), la vera misura l'avremo quando potremo
ragionare sull'adozione.

Cheers,
G.

On Wed, 31 Jul 2024 at 19:37, Antonio <antonio@piumarossa.it> wrote:
...
...
ci sono le bugie, le maledette bugie, e i benchmark .. :-)
comunque quando i modelli multilingua di Meta, DeepMind e Mistral sui
benchmark italiani vanno al doppio di quelli 'autarchici', qualcosa dovrà
pur dire
Se per questo vanno anche venti volte meglio [1], ma è un numero che non
vale nulla.
Stiamo confrontando mele con pere.
Alcuni sono Base model, altri SFT (Supervised Finetuning), RM (Reward
Modeling), RL (Reinforcement Learning) model.
I Base model (come Minerva-3B-base) non sono assolutamente adatti per
questo tipo di confronti.
Oltre, ovviamente, al fatto che 3B è un tantino meno di 405B.
Lungi da me parteggiare per i modelli autarchici per amor patriae, sul
Modello Italia non credo di esserci andato leggero [2], ma da qui a dire
che i modelli multilingua sono migliori a prescindere non mi trova
d'accordo.
I modelli multilingua sono solo un enorme spreco per l'ambiente.
Prendiamo un Minerva-3B-base, gli diamo in pasto qualche centinaio di
migliaia di prompt di buona qualità (sono sufficienti un centinaio di
GPU/days per il reinforcement learning) e poi rifacciamo girare lo script
di benchmark. Scommettiamo che il divario diminuisce?
A.
[1]
claude-3.5-sonnet: 92.2
Meta-Llama-3.1-405B-Instruct: 86.1
gpt-4-turbo: 86
gemini-pro-1.5: 81.2
...
Minerva-3B-base-v1.0: 4.9
[2] https://www.saela.eu/modelloitalia/

Re: [nexa] i language model alle prove INVALSI

Guido Vetere