quello che 'scarichi' sono i parametri della rete, ed è ovviamente un 'blob' molto molto oscuro
quanto ai dataset: alcuni modelli li prendono da quello che si trova in giro, ad es: CommonCrawl:
https://commoncrawl.org/soggetti come Meta e Google ovviamente usano quello che hanno in casa, non lo esportano, è vero, ma è anche vero che glielo diamo noi spontaneamente (ci finirà dentro anche questa mail)
quello che è veramente 'proprietario' sono le procedure di filtering e di alignment.
ma si vede a occhio nudo che quelli di DeepMind hanno di (molto) meglio: non so se si tratti del lavoro di schiavi sottopagati o di cose ottenute con garbo e prodigalità, in ogni caso è ben difficile che questa roba sia resa disponibile
hope that helps :-)
G.