OSCAR è un dump di CommonCrawl, contiene circa 230 GB di italiano non filtrato, e se non lo filtri prima (e non lo educhi poi), sul fondo della tazza del tuo LLM compare la figura di Vannacci, come è stato per Minerva.
Paisà lo lascerei perdere, varca appena il giga e il formato CoNLL mostra chiaramente che fu fatto ai suoi tempi per altri scopi.
Wikisource ok: ma sono pochi giga di roba un po' datata.
Insomma, con quello che c'è adesso dobbiamo accontentarci di modelli piccoli, 3-5 GB, il che non è detto che sia un male (si sposta il carico verso il fine-tuning, cioè verso 'il basso').
Tuttavia, non mi è ancora chiaro il vantaggio tecnico dell'approccio monolinguistico, a meno di non voler fare un discorso di 'purezza dei contenuti' che però potrebbe somigliare a una Gleichschaltung hitleriana velleitaria e cialtronesca.
Eppure, la PA i 300 giga di testo che servono ce li avrebbe, basterebbe solo che si avesse la capacità di promuovere una politica di cooperazione e integrazione ... (e qui mi fermo per evitare sarcasmi).

Saluti,
G.





On Fri, 2 Aug 2024 at 09:41, Antonio <antonio@piumarossa.it> wrote:
> (d'altra parte su come costruire
> un 70B solo con testi italiani 'kosher' nessuno ha uno straccio di idea),

Non siamo proprio all'anno zero, qualcosa, su Internet e in italiano, di "lecito" c'è ;)
L'italiano è la 23esima lingua più parlata al mondo [1], ma nelle statistiche di Common Crawl [2], è all'ottavo posto. Segno che c'è molto materiale lessicale italiano in rete.
Wikipedia, ovviamente, ma ancora di più Wikisource (si può partire dall'analizzare questi file [3])
C'è il corpus Paisà [4], c'è OSCAR [5] e chissà quanti altri in progetti più o meno pubblici.

A.

[1] https://it.wikipedia.org/wiki/Lingue_per_numero_di_parlanti_madrelingua
[2] https://commoncrawl.github.io/cc-crawl-statistics/plots/languages.html
[3] https://dumps.wikimedia.org/itwikisource/
[4] https://www.corpusitaliano.it/en/contents/description.html
[5] https://oscar-project.github.io/documentation/versions/oscar-2301/