Re: [nexa] ChatGPT disabled for users in Italy

April 14, 2023

      Ha scritto, su questa distinzione, un paio di giorni fa, Margaret Mitchell:

"When AI companies release "open training data" for a model, they're generally sharing *fine-tuning* data.

The big issues w data and consent are NOT of this type. The issues are with the MAIN DATA used in training"

<https://nitter.snopyta.org/mmitchell_ai/status/1646242689862729728>

[cid:98ff1663-62f2-4593-9e2b-a4c0486c3fa0]

________________________________
Da: nexa <nexa-bounces@server-nexa.polito.it> per conto di Giacomo Tesio <giacomo@tesio.it>
Inviato: venerdì 14 aprile 2023 10:52
A: D. Davide Lamanna
Cc: nexa@server-nexa.polito.it
Oggetto: Re: [nexa] ChatGPT disabled for users in Italy

Purtroppo no, Davide.

Per rendere riproducibile ed ispezionabile il processo di
programmazione statistica che costruisce un software LLM sono
necessarie moltissime informazioni che lì mancano.

Non foss'altro che per il semplice fatto che Dolly 2.0 si basa su GPT-3
e quindi, per poterne ispezionare la programmazione e poterne escludere
(ad esempio) discriminazioni intenzionali, sarebbe necessario avere
tutti i dati ed il processo esatto di programmazione di GPT-3 stesso.

La relazione fra la verticalizzazione ("fine-tuning", lo definiscono gli
autori dell'articolo associato al dataset che hai condiviso) e
programmazione di un LLM è molto più... "intima" di quella che esiste
fra un applicazione ed una libreria usata durante il suo sviluppo.

E' più simile, se vuoi, a quella che intercorre fra un CMS e le pagine
web che ne vengono pubblicate, la cui forma sarà sempre sostanzialmente
la stessa perché i limiti (ciò che può o non può essere fatto con quel
CMS) non vengono intaccati dal layout grafico del sito web, che si deve
adattare inevitabilmente a quei vincoli (a meno di smettere di usare
quel CMS, ovviamente).

Inoltre, il dataset sorgente come viene solitamente condiviso in questi
progetti fintamente "open source", non è sufficiente a riprodurre
esattamente lo stato di un LLM.

Sono necessari parametri iniziali delle "reti neurali" utilizzate,
registrazioni dettagliate dell'ordine in cui i vari record sono stati
usati durante la programmazione statistica (ad esempio, nel caso di
quella tecnica che viene impropriamente chiamata "Reinforcement
Learning") e così via.

In sostanza, per poter ambire a dimostrare di NON aver iniettato una
particolare discriminazione all'interno di GPT-4, Open AI dovrebbe
fornire un bello scriptino, ben documentato, in grado di riprodurre
ESATTAMENTE GPT-4 nello stato attualmente in produzione a partire dai
testi di partenza (anch'essi inclusi nel pacchetto) e da tutte le altre
sorgenti di input.

Dovrebbe essere ovviamente uno script ben leggibile e debuggabile passo
passo.

A quel punto si potrebbe effettuare un confronto binario fra gli output
prodotti dallo script e GPT-4 in produzione, e dopo averne verificato la
corrispondenza esatta, analizzare i dataset sorgente e il processo di
compilazione di tale software alla ricerca di discriminazioni o
problemi.

Nulla di lontanamente paragonabile a quello che ha fatto Databricks,
insomma.

Purtuttavia qualcosa di perfettamente fattibile da un punto di vista
tecnico, sebbene estremamente costoso.

Giacomo

On Fri, 14 Apr 2023 09:36:30 +0200 D. Davide Lamanna wrote:
...
On 4/13/23 12:49, Giacomo Tesio wrote:
...
Basta imporre che tutti i dataset utilizzati durante la
programmazione statistica ("training" nella vulgata), inclusi
quelli usati per la cross validation e il test, nonché tutti gli
altri dati necessari a riprodurre esattamente il processo ed
ottenere esattamente il modello in produzione (e le sue alternative
scartate), siano preservati per tutta la durata della sua
permanenza in produzione e diciamo 20 anni dopo (in caso di
aggiornamento). [1]
Rendendo verficabilmente e completamente riproducibile il processo
di programmazione statistica, Open AI (come chiunque altro) potrà
facilmente dimostrare di non aver utilizzato dati ottenuti in
violazione di qualsisi Legge.
Ciao Giacomo,
una cosa così?
<https://es.sonicurlprotection-fra.com/click?PV=2&MSGID=202304140852190176174...>.
<https://es.sonicurlprotection-fra.com/click?PV=2&MSGID=202304140852190176174...>.
D.
(null)
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://es.sonicurlprotection-fra.com/click?PV=2&MSGID=202304140852190176174...
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://es.sonicurlprotection-fra.com/click?PV=2&MSGID=202304140852190176174...

Re: [nexa] ChatGPT disabled for users in Italy

Daniela Tafani