Re: [nexa] AI Training is Copyright Infringement

Sept. 8, 2024

      ...
Confesso che trovo la tua idea che un LLM sia un 'compilato' dei dataset di
training molto interessante, però non mi convince per due motivi:
A me invece convince :)
Prendo a prestito llama.cpp (già citato in passato).
Per "produrre" una chat, una delle linee di comando possibile è questa:
./llama-cli -m ggml-model-q4_0.gguf -c 512 -b 1024 -n 256 --keep 48 -r "User:" -f prompt.txt

llama-cli è la "virtual machine" suggerita da Giacomo, può essere benissimo open source e infatti nella maggior parte dei casi lo è. Si occupa dell'inference, in soldoni, effettua i calcoli matriciali e poco altro.

I numeretti che seguono -c, -b, -n, ecc. sono i parametri del model, poco da dire.

I "pesi" sono tutti dentro il file ggml-model-q4_0.gguf.
Questo file è il "compilato". E di questo file non si conosce pressoché nulla sul suo processo di creazione.
Deriva dai dati di training e (spesso) dal lavoro umano di taggatura, ma nel dettaglio nessuno (tranne gli autori) sa come sia stato realizzato.

A.

Re: [nexa] AI Training is Copyright Infringement

Antonio