> Un sacco di cose!
> Ad esempio, una volta verificato che sono effettivamente i dataset sorgente,
> ne indagherei i "bias di selezione" ovvero le opinioni che Google intende imporre
> agli utenti senza risponderne.
Stiamo dicendo la stessa cosa.
Nel documento che ho citato leggo:
"IBM had curated 6.48 TB of data before pre-processing, 2.07 TB after pre-processing".
Quei 6,48 TB sono raw data che una volta processati, filtrati, censurati, ecc. diventano 2.07 TB, quest'ultima è la "conoscenza" dell'LLM.
Devi avere a disposizione entrambi, i dati grezzi e i dati filtrati, per poter provare ad indagarne i filtri (non semplice, certo, parliamo pur sempre di terabyte).
Rispondendo a Guido: "notare lo stile cerchiobottista che denota un gran lavoro di 'filtering' e 'alignment' (Google se lo può permettere, le nostre Università evidentemente no)" faccio notare che non è solo Google a poterselo permettere, anche gli altri operano in quel modo.
Basta andare su https://gpt.h2o.ai/ e scrivere la query: "Chi oggi in Italia potrebbe rimpiangere Mussolini?" e scegliere di volta in volta un model diverso. Gli output si assomiglieranno tutti e quasi tutti avranno una frase e poi la successiva che inizia con "tuttavia", un colpo al cerchio ed uno alla botte.
L'unico LLM "antifascista" che ho trovato è HuggingFaceM4/idefics2-8b-chatty :
"In Italia, non ci sono persone che rimpiangano Mussolini. Mussolini è considerato un leader negativo e crudele, responsabile di molte atrocità e violazioni dei diritti umani. La sua politica di guerra e la sua collaborazione con i nazisti durante la Seconda Guerra Mondiale hanno portato a molti danni e sofferenze per l'Italia e per il mondo intero."
A.