On Sat, 15 Apr 2023 at 10:35, de petra giulio <giulio.depetra@gmail.com> wrote:

Sinceramente grato a tutte/i voi per avermi consentito di capire, o almeno di intuire, la complessità delle questioni in gioco vi chiedo e mi scuso da subito se la mia domanda è ingenua: ma non ci sono campi di utilizzo dei software LLM (e quindi di ricerca e anche di legittimo guadagno) che non prevedono affatto per il loro addestramento l’utilizzo di dati personali di viventi? Ad esempio nella letteratura, nella ricerca, nella stessa produzione di software? Se la risposta è positiva, perché considerare in contrasto l’azione del garante, che si occupa solo dei dati personali dei viventi, con lo sviluppo della ricerca e della produzione di AI?
Giulio

Il giorno ven 14 apr 2023 alle 11:02 Daniela Tafani <daniela.tafani@unipi.it> ha scritto:

Ha scritto, su questa distinzione, un paio di giorni fa, Margaret Mitchell:

"When AI companies release "open training data" for a model, they're generally sharing *fine-tuning* data.

The big issues w data and consent are NOT of this type. The issues are with the MAIN DATA used in training"

<https://nitter.snopyta.org/mmitchell_ai/status/1646242689862729728>

Da: nexa <nexa-bounces@server-nexa.polito.it> per conto di Giacomo Tesio <giacomo@tesio.it>
Inviato: venerdì 14 aprile 2023 10:52
A: D. Davide Lamanna
Cc: nexa@server-nexa.polito.it
Oggetto: Re: [nexa] ChatGPT disabled for users in Italy

Purtroppo no, Davide.

Per rendere riproducibile ed ispezionabile il processo di
programmazione statistica che costruisce un software LLM sono
necessarie moltissime informazioni che lì mancano.

Non foss'altro che per il semplice fatto che Dolly 2.0 si basa su GPT-3
e quindi, per poterne ispezionare la programmazione e poterne escludere
(ad esempio) discriminazioni intenzionali, sarebbe necessario avere
tutti i dati ed il processo esatto di programmazione di GPT-3 stesso.

La relazione fra la verticalizzazione ("fine-tuning", lo definiscono gli
autori dell'articolo associato al dataset che hai condiviso) e
programmazione di un LLM è molto più... "intima" di quella che esiste
fra un applicazione ed una libreria usata durante il suo sviluppo.

E' più simile, se vuoi, a quella che intercorre fra un CMS e le pagine
web che ne vengono pubblicate, la cui forma sarà sempre sostanzialmente
la stessa perché i limiti (ciò che può o non può essere fatto con quel
CMS) non vengono intaccati dal layout grafico del sito web, che si deve
adattare inevitabilmente a quei vincoli (a meno di smettere di usare
quel CMS, ovviamente).

Inoltre, il dataset sorgente come viene solitamente condiviso in questi
progetti fintamente "open source", non è sufficiente a riprodurre
esattamente lo stato di un LLM.

Sono necessari parametri iniziali delle "reti neurali" utilizzate,
registrazioni dettagliate dell'ordine in cui i vari record sono stati
usati durante la programmazione statistica (ad esempio, nel caso di
quella tecnica che viene impropriamente chiamata "Reinforcement
Learning") e così via.

In sostanza, per poter ambire a dimostrare di NON aver iniettato una
particolare discriminazione all'interno di GPT-4, Open AI dovrebbe
fornire un bello scriptino, ben documentato, in grado di riprodurre
ESATTAMENTE GPT-4 nello stato attualmente in produzione a partire dai
testi di partenza (anch'essi inclusi nel pacchetto) e da tutte le altre
sorgenti di input.

Dovrebbe essere ovviamente uno script ben leggibile e debuggabile passo
passo.

A quel punto si potrebbe effettuare un confronto binario fra gli output
prodotti dallo script e GPT-4 in produzione, e dopo averne verificato la
corrispondenza esatta, analizzare i dataset sorgente e il processo di
compilazione di tale software alla ricerca di discriminazioni o
problemi.

Nulla di lontanamente paragonabile a quello che ha fatto Databricks,
insomma.

Purtuttavia qualcosa di perfettamente fattibile da un punto di vista
tecnico, sebbene estremamente costoso.

Giacomo

On Fri, 14 Apr 2023 09:36:30 +0200 D. Davide Lamanna wrote:

> On 4/13/23 12:49, Giacomo Tesio wrote:
> >
> > Basta imporre che tutti i dataset utilizzati durante la
> > programmazione statistica ("training" nella vulgata), inclusi
> > quelli usati per la cross validation e il test, nonché tutti gli
> > altri dati necessari a riprodurre esattamente il processo ed
> > ottenere esattamente il modello in produzione (e le sue alternative
> > scartate), siano preservati per tutta la durata della sua
> > permanenza in produzione e diciamo 20 anni dopo (in caso di
> > aggiornamento). [1]
> >
> > Rendendo verficabilmente e completamente riproducibile il processo
> > di programmazione statistica, Open AI (come chiunque altro) potrà
> > facilmente dimostrare di non aver utilizzato dati ottenuti in
> > violazione di qualsisi Legge.
> Ciao Giacomo,
>
> una cosa così?
>
> <https://es.sonicurlprotection-fra.com/click?PV=2&MSGID=202304140852190176174&URLID=4&ESV=10.0.19.7431&IV=789D084FF980408748ED2391B12A308C&TT=1681462340404&ESN=4%2BaHqnDPvNRnwa%2B8Jr4FqYK4F1QGTIlawbu8FW6S0ik%3D&KV=1536961729280&B64_ENCODED_URL=aHR0cHM6Ly92ZW50dXJlYmVhdC5jb20vYWkvZGF0YWJyaWNrcy1yZWxlYXNlcy1kb2xseS0yLTAtdGhlLWZpcnN0LW9wZW4taW5zdHJ1Y3Rpb24tZm9sbG93aW5nLWxsbS1mb3ItY29tbWVyY2lhbC11c2Uv&HK=BCC0F772D3C92048182BBD05D8FECA7F64E5781C63410742B9D3A4A5C4B8B334>.
>
> <https://es.sonicurlprotection-fra.com/click?PV=2&MSGID=202304140852190176174&URLID=3&ESV=10.0.19.7431&IV=15C08E302A9E7AE463B519230E8AD241&TT=1681462340404&ESN=mrTUq8sYZ3qCfuSWWBG68hG%2FslhwC%2BSk3mndpzP79DU%3D&KV=1536961729280&B64_ENCODED_URL=aHR0cHM6Ly9naXRodWIuY29tL2RhdGFicmlja3NsYWJzL2RvbGx5L3RyZWUvbWFzdGVyL2RhdGE&HK=ACA0D5FC273A2EF7BB4FE140F9AC1376F77A8BEFE5F5AF55781BF489C42EE1F3>.
>
> D.
>
> (null)
> _______________________________________________
> nexa mailing list
> nexa@server-nexa.polito.it
> https://es.sonicurlprotection-fra.com/click?PV=2&MSGID=202304140852190176174&URLID=2&ESV=10.0.19.7431&IV=131F014AADC403AE0759C3240B532051&TT=1681462340404&ESN=77lvLsxtaETnHquqCSnx1kNsYPU6UqFQ2vuvfANoYvU%3D&KV=1536961729280&B64_ENCODED_URL=aHR0cHM6Ly9zZXJ2ZXItbmV4YS5wb2xpdG8uaXQvY2dpLWJpbi9tYWlsbWFuL2xpc3RpbmZvL25leGE&HK=4BE285B445877689812503FC8D95B3911FAD2AB1CC6304068DDB061F138E1FB8

_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://es.sonicurlprotection-fra.com/click?PV=2&MSGID=202304140852190176174&URLID=1&ESV=10.0.19.7431&IV=346D54E73565B6583704F1E6D37C1B47&TT=1681462340404&ESN=kQ%2B73F5zo6sggyHsx0iZlnR98BKMHULBM6fGYaMJD2g%3D&KV=1536961729280&B64_ENCODED_URL=aHR0cHM6Ly9zZXJ2ZXItbmV4YS5wb2xpdG8uaXQvY2dpLWJpbi9tYWlsbWFuL2xpc3RpbmZvL25leGE&HK=D917C294B6911BD412257D56C013DF52E141B3F64CBE0B0C5F368A6726B30A3B

_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa