Ciao Antonio, Il 29 Giugno 2024 18:51:12 UTC, Antonio <antonio@piumarossa.it> ha scritto:
Su huggingface trovi il dataset sorgente? Mi passi il link diretto?
Anche se ci fosse, che ci faresti?
Un sacco di cose! Ad esempio, una volta verificato che sono effettivamente i dataset sorgente, ne indagherei i "bias di selezione" ovvero le opinioni che Google intende imporre agli utenti senza risponderne.
I dataset che usano ormai si sanno quali sono
Ne dubito. Con la scusa del motore di ricerca, Google ha accesso a molto più materiale dei concorrenti. Perché non usarlo se nessuno pretende trasparenza dai suoi software?
quella che non si conosce è, ad esempio, la Pre-Processing Pipeline.
Se ti mancano le definizioni delle macro necessarie, non puoi compilare un sorgente C. Per poter definire "aperto" quel sorgente, devi disporre di quelle macro (aka "direttive per il preprocessore". Altrimenti, di fatto, non puoi sapere cosa fa. Per un software programmato statisticamente è lo stesso: se non puoi ricompilarlo perché ti mancano delle parti, allora non è "aperto" più di quanto non sia "marmoreo". Perché sia software "aperto" (seppur non libero) è come minimo necessario dispore di tutti i dati ed i processi utilizzati durante la sua realizzazione, con precisione e completezza sufficiente a poterne replicare precisamente il proceso di compilazione. Giacomo