i language model alle prove INVALSI
Nexiane e nexiani, l'Università di Milano-Bicocca ha avuto l'idea di ricavare un benchmark dalle prove INVALSI per valutare come se la cavano i language model con italiano. Ne hanno poi fatto una leaderboard Huggingface che è consultabile qui <https://huggingface.co/spaces/Crisp-Unimib/INVALSIbenchmark>. Tra i modelli XXL vince claude-sonnet per distacco, ma la cosa interessante è filtrare i modelli per dimensione e 'apertura' (nel senso del LLM, per cortesia non ricominciamo) Tra i modelli aperti di taglia small gemma2 (DeepMind) svetta sulla concorrenza. I modelli 'italianissimi' annunciati e propagandati nei mesi scorsi cadono in fondo alla classifica. Se la cavano abbastanza bene i fine-tune di LLama3 Modello Italia, su cui tanti e tante aveva messo la faccia, era anch'esso in fondo alla leaderboard e ora pare sia stato ritirato. Naturalmente, su questo non c'è da aspettarsi alcuna intervista su Wired :-) Buona giornata, G.
Grazie mille per la segnalazione AB Il giorno lun 15 lug 2024 alle ore 12:15 Guido Vetere < vetere.guido@gmail.com> ha scritto:
Nexiane e nexiani,
l'Università di Milano-Bicocca ha avuto l'idea di ricavare un benchmark dalle prove INVALSI per valutare come se la cavano i language model con italiano. Ne hanno poi fatto una leaderboard Huggingface che è consultabile qui <https://huggingface.co/spaces/Crisp-Unimib/INVALSIbenchmark>. Tra i modelli XXL vince claude-sonnet per distacco, ma la cosa interessante è filtrare i modelli per dimensione e 'apertura' (nel senso del LLM, per cortesia non ricominciamo) Tra i modelli aperti di taglia small gemma2 (DeepMind) svetta sulla concorrenza. I modelli 'italianissimi' annunciati e propagandati nei mesi scorsi cadono in fondo alla classifica. Se la cavano abbastanza bene i fine-tune di LLama3 Modello Italia, su cui tanti e tante aveva messo la faccia, era anch'esso in fondo alla leaderboard e ora pare sia stato ritirato. Naturalmente, su questo non c'è da aspettarsi alcuna intervista su Wired :-)
Buona giornata, G.
l'Università di Milano-Bicocca ha avuto l'idea di ricavare un benchmark dalle prove INVALSI per valutare come se la cavano i language model con italiano.
Quando sento parlare di benchmark mi vengono in mente le parole di Erich Fromm: "Per intelligenza intendo la capacità di servirsi dei concetti, ma senza penetrare oltre la superficie dei fenomeni fino all'essenza della cose. L'intelligenza preferisce manipolare la realtà anziché comprenderla. La capacità di comprendere è l'opposto dell'intelligenza manipolatrice. La prima presuppone sempre un rapporto con l'oggetto delle nostre riflessioni. Se non c'è rapporto, possiamo soltanto manipolare la realtà. Possiamo *pesarla, misurarla e calcolarla", e confrontare i diversi fattori tra di loro ma un pensiero meramente intellettuale, superficiale, non andando mai dentro le cose, non potrà capirle e modificarle." Lo diceva settanta anni fa e si riferiva ovviamente all'intelligenza umana, ma il ragionamento è valido perfettamente anche oggi. C'è tanta (presunta) intelligenza ma è solo manipolazione, pesi, misure, calcoli. Nei pochissimi casi in cui si fa a fondo ed entra, quindi, in gioco, la "reason", non c'è nulla. C'entra poco con l'oggetto ma un paio di giorni fa Trump ha tenuto un discorso ad una conferenza sui Bitcoin. Pare che qualcuno l'abbiamo convinto che per il bene dell'America (guidata da lui ovviamente), gli USA devono diventare la "capitale mondiale" del Bitcoin. Davanti alla platea, tra le tante "...esserie" che ha detto, una mi ha colpito. "Sono qui davanti a gente dal QI altissimo, i moderni Edison, i fratelli Wright, i Carnegie e gli Henry Ford, io sto correndo contro un individuo con un QI basso, lei, non sto nemmeno parlando di lui, lei" A.
tanto alto, che molti gli manderanno soldi. On 29/07/24 11:35, Antonio wrote:
l'Università di Milano-Bicocca ha avuto l'idea di ricavare un benchmark dalle prove INVALSI per valutare come se la cavano i language model con italiano.
Quando sento parlare di benchmark mi vengono in mente le parole di Erich Fromm: "Per intelligenza intendo la capacità di servirsi dei concetti, ma senza penetrare oltre la superficie dei fenomeni fino all'essenza della cose. L'intelligenza preferisce manipolare la realtà anziché comprenderla. La capacità di comprendere è l'opposto dell'intelligenza manipolatrice. La prima presuppone sempre un rapporto con l'oggetto delle nostre riflessioni. Se non c'è rapporto, possiamo soltanto manipolare la realtà. Possiamo *pesarla, misurarla e calcolarla", e confrontare i diversi fattori tra di loro ma un pensiero meramente intellettuale, superficiale, non andando mai dentro le cose, non potrà capirle e modificarle."
Lo diceva settanta anni fa e si riferiva ovviamente all'intelligenza umana, ma il ragionamento è valido perfettamente anche oggi. C'è tanta (presunta) intelligenza ma è solo manipolazione, pesi, misure, calcoli. Nei pochissimi casi in cui si fa a fondo ed entra, quindi, in gioco, la "reason", non c'è nulla.
C'entra poco con l'oggetto ma un paio di giorni fa Trump ha tenuto un discorso ad una conferenza sui Bitcoin. Pare che qualcuno l'abbiamo convinto che per il bene dell'America (guidata da lui ovviamente), gli USA devono diventare la "capitale mondiale" del Bitcoin. Davanti alla platea, tra le tante "...esserie" che ha detto, una mi ha colpito. "Sono qui davanti a gente dal QI altissimo, i moderni Edison, i fratelli Wright, i Carnegie e gli Henry Ford, io sto correndo contro un individuo con un QI basso, lei, non sto nemmeno parlando di lui, lei"
A.
-- You can reach me on Signal: @quinta.01 (no Whatsapp)
On Mon, 29 Jul 2024 15:27:34 Stefano Quintarelli wrote:
On 29/07/24 11:35, Antonio wrote:
C'entra poco con l'oggetto ma un paio di giorni fa Trump ha tenuto un discorso ad una conferenza sui Bitcoin. [...] "Sono qui davanti a gente dal QI altissimo, i moderni Edison, i fratelli Wright, i Carnegie e gli Henry Ford [...]"
tanto alto, che molti gli manderanno soldi.
Ma soldi... o token? :-D Giacomo
ci sono le bugie, le maledette bugie, e i benchmark .. :-) comunque quando i modelli multilingua di Meta, DeepMind e Mistral sui benchmark italiani vanno al doppio di quelli 'autarchici', qualcosa dovrà pur dire G. On Tue, 30 Jul 2024 at 11:44, Giacomo Tesio <giacomo@tesio.it> wrote:
On Mon, 29 Jul 2024 15:27:34 Stefano Quintarelli wrote:
On 29/07/24 11:35, Antonio wrote:
C'entra poco con l'oggetto ma un paio di giorni fa Trump ha tenuto un discorso ad una conferenza sui Bitcoin. [...] "Sono qui davanti a gente dal QI altissimo, i moderni Edison, i fratelli Wright, i Carnegie e gli Henry Ford [...]"
tanto alto, che molti gli manderanno soldi.
Ma soldi... o token? :-D
Giacomo
Certo Guido, On Tue, 30 Jul 2024 12:00:05 Guido Vetere wrote:
quando i modelli multilingua di Meta, DeepMind e Mistral sui benchmark italiani vanno al doppio di quelli 'autarchici', qualcosa dovrà pur dire
vuol semplicemente dire che Meta, DeepMind e Mistral hanno incluso migliaia di quiz e test a risposta multipla nella base dati utilizzata per programmare statisticamente i propri software. La cosa ti sorprende? E' da un po' che va avanti: https://www.businessinsider.com/list-here-are-the-exams-chatgpt-has-passed-s... https://www.ama-assn.org/practice-management/digital/chatgpt-passed-usmle-wh... https://edition.cnn.com/2023/01/26/tech/chatgpt-passes-exams/index.html Ora, per quanto restii a smettere di parlare di "intelligenza artificiale" e stronzate simili, i ricercatori che hanno programmato i "modelli" che tu chiami "autarchici" non hanno come obbiettivo primario buttare fumo negli occhi agli sprovveduti che non sanno come funziona un LLM ed è dunque prevedibile che non avranno ottimizzato particolarmente simili "imitation games". Giacomo
ci sono le bugie, le maledette bugie, e i benchmark .. :-) comunque quando i modelli multilingua di Meta, DeepMind e Mistral sui benchmark italiani vanno al doppio di quelli 'autarchici', qualcosa dovrà pur dire
Se per questo vanno anche venti volte meglio [1], ma è un numero che non vale nulla. Stiamo confrontando mele con pere. Alcuni sono Base model, altri SFT (Supervised Finetuning), RM (Reward Modeling), RL (Reinforcement Learning) model. I Base model (come Minerva-3B-base) non sono assolutamente adatti per questo tipo di confronti. Oltre, ovviamente, al fatto che 3B è un tantino meno di 405B. Lungi da me parteggiare per i modelli autarchici per amor patriae, sul Modello Italia non credo di esserci andato leggero [2], ma da qui a dire che i modelli multilingua sono migliori a prescindere non mi trova d'accordo. I modelli multilingua sono solo un enorme spreco per l'ambiente. Prendiamo un Minerva-3B-base, gli diamo in pasto qualche centinaio di migliaia di prompt di buona qualità (sono sufficienti un centinaio di GPU/days per il reinforcement learning) e poi rifacciamo girare lo script di benchmark. Scommettiamo che il divario diminuisce? A. [1] claude-3.5-sonnet: 92.2 Meta-Llama-3.1-405B-Instruct: 86.1 gpt-4-turbo: 86 gemini-pro-1.5: 81.2 ... Minerva-3B-base-v1.0: 4.9 [2] https://www.saela.eu/modelloitalia/
Certo, confrontiamo le cose comparabili. Tra i modelli c.d. 'aperti' di dimensioni <= 70B spiccano oggi Llama 3.1 70B (82.7) e gemma-2 27B (80.7), che hanno ormai prestazioni comparabili con i modelli 'chiusi' come GPT e Claude (non parlo solo del task INVALSI naturalmente, la situazione 'sul campo' sta diventando molto interessante). I modelli italianissimi sono saldamente in fondo, anche quelli instructed. Un po' certamente si deve alle dimensioni (d'altra parte su come costruire un 70B solo con testi italiani 'kosher' nessuno ha uno straccio di idea), un po' si deve alle instruction, diciamo che ci si dovrà lavorare, però mi sembra che l'autarchia linguistica non stia producendo grandi risultati fino ad oggi. Infine certo: un benchmark è solo un benchmark (anche quelli 'standard' come le risposte multiple), la vera misura l'avremo quando potremo ragionare sull'adozione. Cheers, G. On Wed, 31 Jul 2024 at 19:37, Antonio <antonio@piumarossa.it> wrote:
ci sono le bugie, le maledette bugie, e i benchmark .. :-) comunque quando i modelli multilingua di Meta, DeepMind e Mistral sui benchmark italiani vanno al doppio di quelli 'autarchici', qualcosa dovrà pur dire
Se per questo vanno anche venti volte meglio [1], ma è un numero che non vale nulla. Stiamo confrontando mele con pere. Alcuni sono Base model, altri SFT (Supervised Finetuning), RM (Reward Modeling), RL (Reinforcement Learning) model. I Base model (come Minerva-3B-base) non sono assolutamente adatti per questo tipo di confronti. Oltre, ovviamente, al fatto che 3B è un tantino meno di 405B. Lungi da me parteggiare per i modelli autarchici per amor patriae, sul Modello Italia non credo di esserci andato leggero [2], ma da qui a dire che i modelli multilingua sono migliori a prescindere non mi trova d'accordo. I modelli multilingua sono solo un enorme spreco per l'ambiente. Prendiamo un Minerva-3B-base, gli diamo in pasto qualche centinaio di migliaia di prompt di buona qualità (sono sufficienti un centinaio di GPU/days per il reinforcement learning) e poi rifacciamo girare lo script di benchmark. Scommettiamo che il divario diminuisce?
A.
[1] claude-3.5-sonnet: 92.2 Meta-Llama-3.1-405B-Instruct: 86.1 gpt-4-turbo: 86 gemini-pro-1.5: 81.2 ... Minerva-3B-base-v1.0: 4.9
(d'altra parte su come costruire un 70B solo con testi italiani 'kosher' nessuno ha uno straccio di idea),
Non siamo proprio all'anno zero, qualcosa, su Internet e in italiano, di "lecito" c'è ;) L'italiano è la 23esima lingua più parlata al mondo [1], ma nelle statistiche di Common Crawl [2], è all'ottavo posto. Segno che c'è molto materiale lessicale italiano in rete. Wikipedia, ovviamente, ma ancora di più Wikisource (si può partire dall'analizzare questi file [3]) C'è il corpus Paisà [4], c'è OSCAR [5] e chissà quanti altri in progetti più o meno pubblici. A. [1] https://it.wikipedia.org/wiki/Lingue_per_numero_di_parlanti_madrelingua [2] https://commoncrawl.github.io/cc-crawl-statistics/plots/languages.html [3] https://dumps.wikimedia.org/itwikisource/ [4] https://www.corpusitaliano.it/en/contents/description.html [5] https://oscar-project.github.io/documentation/versions/oscar-2301/
OSCAR è un dump di CommonCrawl, contiene circa 230 GB di italiano non filtrato, e se non lo filtri prima (e non lo educhi poi), sul fondo della tazza del tuo LLM compare la figura di Vannacci, come è stato per Minerva <https://ilmanifesto.it/minerva-lia-italiana-al-bivio-tra-vannacci-e-manzoni> . Paisà lo lascerei perdere, varca appena il giga e il formato CoNLL mostra chiaramente che fu fatto ai suoi tempi per altri scopi. Wikisource ok: ma sono pochi giga di roba un po' datata. Insomma, con quello che c'è adesso dobbiamo accontentarci di modelli piccoli, 3-5 GB, il che non è detto che sia un male (si sposta il carico verso il fine-tuning, cioè verso 'il basso'). Tuttavia, non mi è ancora chiaro il vantaggio tecnico dell'approccio monolinguistico, a meno di non voler fare un discorso di 'purezza dei contenuti' che però potrebbe somigliare a una Gleichschaltung hitleriana velleitaria e cialtronesca. Eppure, la PA i 300 giga di testo che servono ce li avrebbe, basterebbe solo che si avesse la capacità di promuovere una politica di cooperazione e integrazione ... (e qui mi fermo per evitare sarcasmi). Saluti, G. On Fri, 2 Aug 2024 at 09:41, Antonio <antonio@piumarossa.it> wrote:
(d'altra parte su come costruire un 70B solo con testi italiani 'kosher' nessuno ha uno straccio di idea),
Non siamo proprio all'anno zero, qualcosa, su Internet e in italiano, di "lecito" c'è ;) L'italiano è la 23esima lingua più parlata al mondo [1], ma nelle statistiche di Common Crawl [2], è all'ottavo posto. Segno che c'è molto materiale lessicale italiano in rete. Wikipedia, ovviamente, ma ancora di più Wikisource (si può partire dall'analizzare questi file [3]) C'è il corpus Paisà [4], c'è OSCAR [5] e chissà quanti altri in progetti più o meno pubblici.
A.
[1] https://it.wikipedia.org/wiki/Lingue_per_numero_di_parlanti_madrelingua [2] https://commoncrawl.github.io/cc-crawl-statistics/plots/languages.html [3] https://dumps.wikimedia.org/itwikisource/ [4] https://www.corpusitaliano.it/en/contents/description.html [5] https://oscar-project.github.io/documentation/versions/oscar-2301/
Tuttavia, non mi è ancora chiaro il vantaggio tecnico dell'approccio monolinguistico, a meno di non voler fare un discorso di 'purezza dei contenuti' che però potrebbe somigliare a una Gleichschaltung hitleriana velleitaria e cialtronesca.
No, no, nessuna purezza, è solo ... calcolo combinatorio. Poniamo un dizionario di 1000 token. Ipotizziamo in questi mille token, 900, tra caratteri (e/o ideogrammi) cirillici, cinesi, coreani, giapponesi. Con i 100 rimanenti, possiamo comunque addestrare un LM. La cui efficienza sarà infinitesimale. I token devono quindi essere pezzi di parola frequenti e con un particolare alfabeto (mettiamo il latino). Per come sono costruiti gli LLM, sia in fase di training che di inference, verranno comunque visitate e calcolate tutte le combinazione, quindi, nel primo caso, in una semplice matrice, andranno bene SOLO 10000 calcoli su 1000000. Con un LM monolinguistico hai bisogno: 1) in un dataset molto più piccolo 2) di un dizionario limitato all'alfabeto di quella lingua e dei token più diffusi di quella lingua e con caratteri facenti parte di quell'alfabeto 3) l'inferenza è molto più veloce perché non deve calcolare su caratteri e/o token che in quella lingua non hanno proprio senso ... A.
participants (5)
-
Andrea Bolioli -
Antonio -
Giacomo Tesio -
Guido Vetere -
Stefano Quintarelli