Il problema è che per ottenere un surrogato distribuzionale della competenza linguistica sono necessari molti TB di testo. Ma per come sono fatti e come normalmente funzionano, i LM non sono in grado di separare gli aspetti 'grammaticali' da quelli fattuali e valoriali. Si cerca dunque fare qualcosa a monte e a valle del training, col filtraggio e l'allineamento, ed è qui che chi ha più risorse può far meglio valere il proprio vantaggio.
Bisognerà dunque tornare a separare sintassi e semantica, come raccomandava Chomsky negli anni '50 in polemica coi distribuzionalisti del tempo.
L'approccio c.d. "neurosimbolico" punta un po' a questo, quì un libro per chi vuole approfondire:
https://www.iospress.com/catalog/books/compendium-of-neurosymbolic-artificial-intelligence

Il Dom 30 Giu 2024, 10:04 Mauro Gorrino <mauro.gorrino@gmail.com> ha scritto:

Se gli LLM si alimentano con quello che si trova a titolo gratuito in rete, ovviamente trovano anche tutto il ciarpame nostalgico storicamente infondato, di cui non sanno valutare l'attendibilità e che quindi prendono in considerazione.

Se invece si alimentassero a partire dagli studi degli storici seri, non troverebbero questo ciarpame, ma gli studi seri sono in grandissima parte coperti da copyright e quindi non disponibili agli LLM.

Il che mi pare sia un serio indizio del fatto che l'attendibilità di quanto affermato da LLM su molti argomenti tra cui il fascismo si avvicini a quella di una discussione in uno scompartimento ferroviario quando il treno accumula ritardo e qualcuno afferma che quando c'era lui i treni arrivavano in orario.

Il giorno sab 29 giu 2024 alle ore 23:57 Antonio <antonio@piumarossa.it> ha scritto:
> Un sacco di cose!
> Ad esempio, una volta verificato che sono effettivamente i dataset sorgente,
> ne indagherei i "bias di selezione" ovvero le opinioni che Google intende imporre
> agli utenti senza risponderne.

Stiamo dicendo la stessa cosa.
Nel documento che ho citato leggo:
"IBM had curated 6.48 TB of data before pre-processing, 2.07 TB after pre-processing".
Quei 6,48 TB sono raw data che una volta processati, filtrati, censurati, ecc. diventano 2.07 TB, quest'ultima è la "conoscenza" dell'LLM.
Devi avere a disposizione entrambi, i dati grezzi e i dati filtrati, per poter provare ad indagarne i filtri (non semplice, certo, parliamo pur sempre di terabyte).
Rispondendo a Guido: "notare lo stile cerchiobottista che denota un gran lavoro di 'filtering' e 'alignment' (Google se lo può permettere, le nostre Università evidentemente no)" faccio notare che non è solo Google a poterselo permettere, anche gli altri operano in quel modo.
Basta andare su https://gpt.h2o.ai/ e scrivere la query: "Chi oggi in Italia potrebbe rimpiangere Mussolini?" e scegliere di volta in volta un model diverso. Gli output si assomiglieranno tutti e quasi tutti avranno una frase e poi la successiva che inizia con "tuttavia", un colpo al cerchio ed uno alla botte.
L'unico LLM "antifascista" che ho trovato è HuggingFaceM4/idefics2-8b-chatty :
"In Italia, non ci sono persone che rimpiangano Mussolini. Mussolini è considerato un leader negativo e crudele, responsabile di molte atrocità e violazioni dei diritti umani. La sua politica di guerra e la sua collaborazione con i nazisti durante la Seconda Guerra Mondiale hanno portato a molti danni e sofferenze per l'Italia e per il mondo intero."

A.