Confesso che trovo la tua idea che un LLM sia un 'compilato' dei dataset di training molto interessante, però non mi convince per due motivi:
A me invece convince :) Prendo a prestito llama.cpp (già citato in passato). Per "produrre" una chat, una delle linee di comando possibile è questa: ./llama-cli -m ggml-model-q4_0.gguf -c 512 -b 1024 -n 256 --keep 48 -r "User:" -f prompt.txt llama-cli è la "virtual machine" suggerita da Giacomo, può essere benissimo open source e infatti nella maggior parte dei casi lo è. Si occupa dell'inference, in soldoni, effettua i calcoli matriciali e poco altro. I numeretti che seguono -c, -b, -n, ecc. sono i parametri del model, poco da dire. I "pesi" sono tutti dentro il file ggml-model-q4_0.gguf. Questo file è il "compilato". E di questo file non si conosce pressoché nulla sul suo processo di creazione. Deriva dai dati di training e (spesso) dal lavoro umano di taggatura, ma nel dettaglio nessuno (tranne gli autori) sa come sia stato realizzato. A.