i language model alle prove INVALSI

July 15, 2024

      Nexiane e nexiani,

l'Università di Milano-Bicocca ha avuto l'idea di ricavare un benchmark
dalle prove INVALSI per valutare come se la cavano i language model con
italiano.
Ne hanno poi fatto una leaderboard Huggingface che è consultabile qui
<https://huggingface.co/spaces/Crisp-Unimib/INVALSIbenchmark>.
Tra i modelli XXL vince claude-sonnet per distacco, ma la cosa interessante
è filtrare i modelli per dimensione e 'apertura' (nel senso del LLM, per
cortesia non ricominciamo)
Tra i modelli aperti di taglia small gemma2 (DeepMind) svetta sulla
concorrenza.
I modelli 'italianissimi' annunciati e propagandati nei mesi scorsi cadono
in fondo alla classifica.
Se la cavano abbastanza bene i fine-tune di LLama3
Modello Italia, su cui tanti e tante aveva messo la faccia, era anch'esso
in fondo alla leaderboard e ora pare sia stato ritirato.
Naturalmente, su questo non c'è da aspettarsi alcuna intervista su Wired :-)

Buona giornata,
G.

Guido Vetere

Giacomo Tesio

Andrea Bolioli

Antonio

Stefano Quintarelli

Giacomo Tesio

Guido Vetere

Giacomo Tesio

Antonio

Guido Vetere

Antonio

Guido Vetere

Antonio

tags

participants (5)