sono d'accordo: alla PA non serve un sistema "general purpose" multilingua e con generazione di codice inclusa, ma soprattutto qualcosa che permetta di implementare funzioni di estrazione intelligente, di RAG, etc grazie soprattutto a buoni embedding.

Un LM monolingua adatto a questi scopi potrebbe benissimo avere dimensioni contenute e ciascuna amministrazione potrebbe metterlo in esercizio perfino sulle workstation. peraltro, questo in qualche modo è già fattibile con modelli aperti < 70B.

il tema però è quello della costruzione (nb: non fine-tuning) di un LM su testi italiani 'kosher'. OpenAI e Mistral hanno entrambi detto che sarebbe ben difficile stimare un modello efficace senza usare anche materiale copyrighted. chi ha ragione? lo vedremo. se dovessi farlo io, punterei molto sul recupero di 'prior knowledge' sulla lingua italiana, a partire dalla morfologia. ma parlo da linguista :-)

On Thu, 21 Mar 2024 at 20:00, Antonio <antonio@piumarossa.it> wrote:

> per questo, tornando al tema dell'autarchia italiana, mi chiedo se, avendo
> pochi dati ma una lingua nota, non valga la pena tokenizzare come ci hanno
> insegnato a scuola

Beh, parafrasando e rivoltando il senso della famosa battuta di Frederick Jelinek, mi verrebbe da dire: "Ogni volta che licenzio un matematico (per assumere un linguista) la performance del nostro sistema migliora".
A parità di risultato finale, un set dati in una lingua nota, produce un "model" molto più piccolo, un "tokenizer" più piccolo e adattato ai lemmi di quella lingua, con la sua sillabazione, le sue forme clitiche, i suoi affissi, ecc.
Un risultato finale *identico* ma con molti cicli macchina in meno (non ditelo a NVIDA) e con molta energia elettrica in meno.
Un "modello" del genere potrebbe andare bene in tutti quei casi in cui non serve un approccio multilingue. Penso alla pubblica amministrazione, alla giustizia ... Poi, certo, vi si potrebbe abbinare un sistema "generico", magari derivato da uno di quelli "open source" che ci sono adesso, tipo LLaMA, ecc. che entrerebbe in azione solo su richiesta dell'utente.

A.
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa