sono d'accordo: alla PA non serve un sistema "general purpose" multilingua e con generazione di codice inclusa, ma soprattutto qualcosa che permetta di implementare funzioni di estrazione intelligente, di RAG, etc grazie soprattutto a buoni embedding.
Un LM monolingua adatto a questi scopi potrebbe benissimo avere dimensioni contenute e ciascuna amministrazione potrebbe metterlo in esercizio perfino sulle workstation. peraltro, questo in qualche modo è già fattibile con modelli aperti < 70B.
il tema però è quello della costruzione (nb: non fine-tuning) di un LM su testi italiani 'kosher'. OpenAI e Mistral hanno entrambi detto che sarebbe ben difficile stimare un modello efficace senza usare anche materiale copyrighted. chi ha ragione? lo vedremo. se dovessi farlo io, punterei molto sul recupero di 'prior knowledge' sulla lingua italiana, a partire dalla morfologia. ma parlo da linguista :-)
G.