OSCAR è un dump di CommonCrawl, contiene circa 230 GB di italiano non filtrato, e se non lo filtri prima (e non lo educhi poi), sul fondo della tazza del tuo LLM compare la figura di Vannacci,
come è stato per Minerva.
Paisà lo lascerei perdere, varca appena il giga e il formato CoNLL mostra chiaramente che fu fatto ai suoi tempi per altri scopi.
Wikisource ok: ma sono pochi giga di roba un po' datata.
Insomma, con quello che c'è adesso dobbiamo accontentarci di modelli piccoli, 3-5 GB, il che non è detto che sia un male (si sposta il carico verso il fine-tuning, cioè verso 'il basso').
Tuttavia, non mi è ancora chiaro il vantaggio tecnico dell'approccio monolinguistico, a meno di non voler fare un discorso di 'purezza dei contenuti' che però potrebbe somigliare a una
Gleichschaltung hitleriana velleitaria e cialtronesca.
Eppure, la PA i 300 giga di testo che servono ce li avrebbe, basterebbe solo che si avesse la capacità di promuovere una politica di cooperazione e integrazione ... (e qui mi fermo per evitare sarcasmi).
Saluti,
G.