Il problema è che per ottenere un surrogato distribuzionale della competenza linguistica sono necessari molti TB di testo. Ma per come sono fatti e come normalmente funzionano, i LM non sono in grado di separare gli aspetti 'grammaticali' da quelli fattuali e valoriali. Si cerca dunque fare qualcosa a monte e a valle del training, col filtraggio e l'allineamento, ed è qui che chi ha più risorse può far meglio valere il proprio vantaggio.
Bisognerà dunque tornare a separare sintassi e semantica, come raccomandava Chomsky negli anni '50 in polemica coi distribuzionalisti del tempo.
L'approccio c.d. "neurosimbolico" punta un po' a questo, quì un libro per chi vuole approfondire:
https://www.iospress.com/catalog/books/compendium-of-neurosymbolic-artificial-intelligence
Il che mi pare sia un serio indizio del fatto che l'attendibilità di quanto affermato da LLM su molti argomenti tra cui il fascismo si avvicini a quella di una discussione in uno scompartimento ferroviario quando il treno accumula ritardo e qualcuno afferma che quando c'era lui i treni arrivavano in orario.Se gli LLM si alimentano con quello che si trova a titolo gratuito in rete, ovviamente trovano anche tutto il ciarpame nostalgico storicamente infondato, di cui non sanno valutare l'attendibilità e che quindi prendono in considerazione.Se invece si alimentassero a partire dagli studi degli storici seri, non troverebbero questo ciarpame, ma gli studi seri sono in grandissima parte coperti da copyright e quindi non disponibili agli LLM.Il giorno sab 29 giu 2024 alle ore 23:57 Antonio <antonio@piumarossa.it> ha scritto:> Un sacco di cose!
> Ad esempio, una volta verificato che sono effettivamente i dataset sorgente,
> ne indagherei i "bias di selezione" ovvero le opinioni che Google intende imporre
> agli utenti senza risponderne.
Stiamo dicendo la stessa cosa.
Nel documento che ho citato leggo:
"IBM had curated 6.48 TB of data before pre-processing, 2.07 TB after pre-processing".
Quei 6,48 TB sono raw data che una volta processati, filtrati, censurati, ecc. diventano 2.07 TB, quest'ultima è la "conoscenza" dell'LLM.
Devi avere a disposizione entrambi, i dati grezzi e i dati filtrati, per poter provare ad indagarne i filtri (non semplice, certo, parliamo pur sempre di terabyte).
Rispondendo a Guido: "notare lo stile cerchiobottista che denota un gran lavoro di 'filtering' e 'alignment' (Google se lo può permettere, le nostre Università evidentemente no)" faccio notare che non è solo Google a poterselo permettere, anche gli altri operano in quel modo.
Basta andare su https://gpt.h2o.ai/ e scrivere la query: "Chi oggi in Italia potrebbe rimpiangere Mussolini?" e scegliere di volta in volta un model diverso. Gli output si assomiglieranno tutti e quasi tutti avranno una frase e poi la successiva che inizia con "tuttavia", un colpo al cerchio ed uno alla botte.
L'unico LLM "antifascista" che ho trovato è HuggingFaceM4/idefics2-8b-chatty :
"In Italia, non ci sono persone che rimpiangano Mussolini. Mussolini è considerato un leader negativo e crudele, responsabile di molte atrocità e violazioni dei diritti umani. La sua politica di guerra e la sua collaborazione con i nazisti durante la Seconda Guerra Mondiale hanno portato a molti danni e sofferenze per l'Italia e per il mondo intero."
A.