C'è poi un piccolo particolare che rende la nozione di 'Open Source' difficilmente applicabile ai LLM: se pure uno avesse tutti i dataset eccetera, gli mancherebbe ancora quel mesetto di GPU che serve per fare training anche di pochi miliardi di parametri. Cioè: servirebbe ancora Leonardo, o in alternativa un grosso conto in banca.

Dunque: di che stiamo parlando?

PS: continuo a osservare un certo verbalismo in questo accanimento terminologico, ma per carità non voglio sollevare polemiche :-)

On Tue, 2 Jul 2024 at 16:05, Giacomo Tesio <giacomo@tesio.it> wrote:

Ciao Federico,

Il giorno Tue, 2 Jul 2024 14:15:30 "Federico Leva (Nemo)" ha scritto:

> Per questo OSI sta lavorando a una Open Source AI Definition:
> https://opensource.org/deepdive/drafts/the-open-source-ai-definition-draft-v-0-0-8

una definizione scritta da qualcuno che non sa (o sa fin troppo bene)
cosa serve per realizzare un LLM.

Infatti la definizione prescrive che:

```
The preferred form of making modifications for a machine-learning Open
Source AI must include:

Data information: Sufficiently detailed information about the data
used to train the system, so that a skilled person can recreate a
substantially equivalent system using the same or similar data.

```

Accettare informazioni "sufficiently detailed" per ricreare un sistema
"substantially" equivalente, significa aprire all'impossibilità tecnica
di ricreare un sistema esattamente equivalente.

Cosa che sarebbe tecnicamente possibile disponendo di TUTTE le
informazioni necessarie a creare il software in questione.

Infatti, entro minuscole variazioni numeriche distribuite fra miliardi
di variabili (pesi), è perfettamente possibile nascondere qualsiasi
bias. Solo la possibilità di riprodurre ESATTAMENTE il software in
questione può permettere davvero di esercitare il diritto allo studio e
alla modifica del sistema.

Ora, l'OSI dovrebbe essere in condizione di comprendere che un software
distribuito con sorgenti simili, persino "sostanzialmente equivalenti" a
quelli usati per creare il binario (ma non esattamente quelli usati),
NON è software Open Source.

Perché allora non scrivere, più semplicemente:

Data information: All information and data used to create the
system, so that a skilled person can exactly recreate the system
using the data.

Sarebbe più semplice, permetterebbe di verificare che i dati dichiarati
corrispondano esattamente a quelli utilizzati, permetterebbe di
studiarne i bias e di decidere come modificare o arricchire i dati
per ottenere LLM diversi.

Peraltro, sostituendo "train" con "create", la definizione
continuerebbe ad essere applicabile a nuovi metodi che non si
basino sulle techine statistiche antropomorfizzate che vanno per la
maggiore oggi.

Perché dunque una definizione che contraddice quella di Open Source?

L'ignoranza informatica in questo caso è poco credibile...

Ma se proviamo a chiederci "cui prodest?" tutto diventa ovvio:

https://opensource.org/sponsors

Giacomo