From:
antonio <antonio@piumarossa.it>
No: sono archivi compressi con perdita di sequenze testuali di cui è
possibile decomprimere approssimazioni di alcune zone fornendo in input
una sequenza testuale prossima a quelle presenti nei testi sorgente.
E' una spiegazione semplice, comprensibile ed esaustiva.
Più che semplice, semplicistica.
Aggiungo
(tratto da [1]) ...
Ahi!
Sono numeri che il modello ha imparato durante l'addestramento. Non hanno "significato" umano e non rappresentano concetti o regole linguistiche in modo leggibile.
4.096 è grande abbastanza da codificare significati sfumati.
Già: significati sfumati.
Peccato poi che gli esperimenti, ad esempio con i syntax probe (Hewitt and Manning), dimostrino invece che rappresentano relazioni di dipendenze sintattiche tra le parole, e altre relazioni linguistiche semantiche quali la coreference. Altri concetti linguistici
come i POS si ottengono ancor più facilmente col clustering.
La pretesa che abbiano un’intelligibilità umana è del tutto pretestuosa.
Ciò che conta è che abbiano un significato per il modello, che se li è costruiti appositamente per poter funzionare.
È solo che per poterli “leggere” occorrono strumenti appositi, non c’è una leggenda, come per i file GGUF.
BTW, quali “concetti o regole linguistiche" ha un bambino di 3 anni, che parla bene una lingua, senza che nessuno gli abbia insegnato alcunché di analisi sintattica o grammaticale?
Non avrà imparato anche lui qualcosa che a noi risulta non intelligibile?
—