(d'altra parte su come costruire un 70B solo con testi italiani 'kosher' nessuno ha uno straccio di idea),
Non siamo proprio all'anno zero, qualcosa, su Internet e in italiano, di "lecito" c'è ;) L'italiano è la 23esima lingua più parlata al mondo [1], ma nelle statistiche di Common Crawl [2], è all'ottavo posto. Segno che c'è molto materiale lessicale italiano in rete. Wikipedia, ovviamente, ma ancora di più Wikisource (si può partire dall'analizzare questi file [3]) C'è il corpus Paisà [4], c'è OSCAR [5] e chissà quanti altri in progetti più o meno pubblici. A. [1] https://it.wikipedia.org/wiki/Lingue_per_numero_di_parlanti_madrelingua [2] https://commoncrawl.github.io/cc-crawl-statistics/plots/languages.html [3] https://dumps.wikimedia.org/itwikisource/ [4] https://www.corpusitaliano.it/en/contents/description.html [5] https://oscar-project.github.io/documentation/versions/oscar-2301/