Se gli LLM si alimentano con quello che si trova a titolo gratuito in rete, ovviamente trovano anche tutto il ciarpame nostalgico storicamente infondato, di cui non sanno valutare l'attendibilità e che quindi prendono in considerazione.

Se invece si alimentassero a partire dagli studi degli storici seri, non troverebbero questo ciarpame, ma gli studi seri sono in grandissima parte coperti da copyright e quindi non disponibili agli LLM.

Il che mi pare sia un serio indizio del fatto che l'attendibilità di quanto affermato da LLM su molti argomenti tra cui il fascismo si avvicini a quella di una discussione in uno scompartimento ferroviario quando il treno accumula ritardo e qualcuno afferma che quando c'era lui i treni arrivavano in orario.

Il giorno sab 29 giu 2024 alle ore 23:57 Antonio <antonio@piumarossa.it> ha scritto:

> Un sacco di cose!
> Ad esempio, una volta verificato che sono effettivamente i dataset sorgente,
> ne indagherei i "bias di selezione" ovvero le opinioni che Google intende imporre
> agli utenti senza risponderne.

Stiamo dicendo la stessa cosa.
Nel documento che ho citato leggo:
"IBM had curated 6.48 TB of data before pre-processing, 2.07 TB after pre-processing".
Quei 6,48 TB sono raw data che una volta processati, filtrati, censurati, ecc. diventano 2.07 TB, quest'ultima è la "conoscenza" dell'LLM.
Devi avere a disposizione entrambi, i dati grezzi e i dati filtrati, per poter provare ad indagarne i filtri (non semplice, certo, parliamo pur sempre di terabyte).
Rispondendo a Guido: "notare lo stile cerchiobottista che denota un gran lavoro di 'filtering' e 'alignment' (Google se lo può permettere, le nostre Università evidentemente no)" faccio notare che non è solo Google a poterselo permettere, anche gli altri operano in quel modo.
Basta andare su https://gpt.h2o.ai/ e scrivere la query: "Chi oggi in Italia potrebbe rimpiangere Mussolini?" e scegliere di volta in volta un model diverso. Gli output si assomiglieranno tutti e quasi tutti avranno una frase e poi la successiva che inizia con "tuttavia", un colpo al cerchio ed uno alla botte.
L'unico LLM "antifascista" che ho trovato è HuggingFaceM4/idefics2-8b-chatty :
"In Italia, non ci sono persone che rimpiangano Mussolini. Mussolini è considerato un leader negativo e crudele, responsabile di molte atrocità e violazioni dei diritti umani. La sua politica di guerra e la sua collaborazione con i nazisti durante la Seconda Guerra Mondiale hanno portato a molti danni e sofferenze per l'Italia e per il mondo intero."

A.