Copyright law makes a case for requiring data information rather than open datasets for Open Source AI - Felix Reda - nexa

newer
Re: [nexa] La regolamentazione UE...

Copyright law makes a case for requiring data information rather than open datasets for Open Source AI - Felix Reda

Stefano Zacchiroli

Sept. 15, 2024

8:31 a.m.

https://opensource.org/blog/copyright-law-makes-a-case-for-requiring-data-in... (Personalmente ne traggo una conclusione diversa da Felix, ovvero che bisognerebbe quindi agire per *cambiare* il copyright in modo che permetta di incorporare lavori protetti in dataset aperti, anziché limitarsi alla data mining exception. È quella eccezione che ha creato il disequilibrio di potere che avvantaggia le aziende come Open AI in questo momento. Ma resta una delle letture più interessanti che mi è capitato di leggere a supporto della posizione di compromesso adottata in OSAID.) -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'

Show replies by date

Giacomo Tesio

September 2024

12:17 a.m.

Ciao Stefano, On Sun, 15 Sep 2024 10:31:56 +0200 Stefano Zacchiroli wrote:

...

https://opensource.org/blog/copyright-law-makes-a-case-for-requiring-data-in...

dopo aver letto attentamente le considerazioni di Felix Reda e di Stefano Maffulli ed approfondito varie questioni correlate, ho deciso di proporre questa modifica: https://discuss.opensource.org/t/rfc-separating-concerns-between-source-data... In sintesi, si tratta di distinguere fra "source data" e "processing information". I dati sorgente devono essere completamente disponibili al pubblico o sotto una licenza opensource o sotto gli stessi termini che ne hanno permesso l'utilizzo durante il training da parte degli sviluppatori del sistema. Le informazioni di processo devono essere esaustive e disponibili sotto una licenza opensource. Che ne pensi? Giacomo PS: aveva ragione Claudio a preoccuparsi della questione già a Giugno. https://server-nexa.polito.it/pipermail/nexa/2024-June/052852.html

Giacomo Tesio

9:02 p.m.

New subject: Open Washing AI definition by OSI?

Ciao a tutti, un piccolo aggiornamento dal fronte^W forum dell'OSI dedicato alla definizione della "Open Source AI". 10 minuti prima di scrivere una risposta alla mia proposta, Nick Vidal (Community Manager di OSI) mi ha silenziato su discuss.opensource.org senza alcun contatto precedente (di seguito la comunicazione). La cosa è particolarmente interessante perché subito dopo ha scritto una risposta in cui mi pone alcune domande e ha chiuso il thread senza darmi modo di rispondere, ironicamente accusandomi di non lasciare spazio agli altri per commentare. Il tutto dopo quasi 24 ore di silenzio sul forum. ¯\_(ツ)_/¯ https://discuss.opensource.org/t/rfc-separating-concerns-between-source-data... Poco dopo ha chiesto endorsements pubblici [1] per una definizione che, di fatto, non garantisce né la libertà di studio né quella di modifica, ma solo quella di fine tuning, permettendo ovvie forme di open washing nonché di nascondere nei modelli "open source" sia backdoor [2] che bias contro minoranze specifiche, senza che nessuno possa esaminare i dataset sorgente per individuarle e rendendo di fatto meno sicuro l'intero ecosistema open source. Sarebbe stato interessante discutere invece del merito della proposta che, non richiedendo la redistribuzione di dataset già disponibili online, non richiede che gli sviluppatori che li utilizzano per il training li debbano redistribuire. Quanto al fatto che sia tecnicamente impossibile ricalcolare esattamente i pesi di un LLM dalle informazioni e dai dati sorgente, è ovviamente una sciocchezza a meno di bug hardware di cui comunque è sempre possibile evitare il verificarsi. Vidal lo sa. Allora perché questo nervosismo? Perché questa fretta di raccogliere endorsements su una bozza ancora evidentemente prematura? In qualunque caso, una definizione di Open Source AI che non garantisca né la studiabilità dei dati utilizzati per il calcolo dei pesi né la riproducibilità del processo, favorirà ogni sorta di open washing, aprendo un enorme loophole anche nella normativa dell'AI Act. [3] Con l'account sospeso non posso fare molto né per rispondere alle domande di Vidal, né per migliorare la proposta, ma vi invito a partecipare attivamente al dibattito (nella speranza che abbiate maggior fortuna e non veniate anche voi silenziati). Giacomo [1] https://discuss.opensource.org/t/endorse-the-open-source-ai-definition/570 [2] https://arxiv.org/abs/2204.06974 [3] come in effetti aveva già ipotizzato Claudio a Giugno. _____ Data: Mon, 16 Sep 2024 19:28:00 +0000 Da: OSI Discuss <notifications@opensource2.discoursemail.com> A: giacomo@tesio.it Oggetto: [OSI Discuss] Your account has been silenced You have been silenced from the forum until September 23, 2024, 7:27pm. Reason - Would not listen to staff feedback Please present new arguments, don’t open new topics repeating the same arguments over and over, and leave space for others to comment. Don’t flood the conversation and be respectful of the guidelines.

380°

12:01 p.m.

New subject: Open Washing AI definition by OSI?

Ciao Giacomo, Giacomo Tesio <giacomo@tesio.it> writes: [...]

...

10 minuti prima di scrivere una risposta alla mia proposta, Nick Vidal (Community Manager di OSI) mi ha silenziato su discuss.opensource.org senza alcun contatto precedente (di seguito la comunicazione).

visto, la motivazione della sospensione del tuo account (da parte del "Community Manager at the OSI") è ripresa pari pari da quanto scritto nella risposta al tuo post --8<---------------cut here---------------start------------->8--- Please present new arguments, don’t open new topics repeating the same arguments over and over, and leave space for others to comment. Don’t flood the conversation and be respectful of the guidelines [1]. [1] https://discuss.opensource.org/t/faq-guidelines/4 --8<---------------cut here---------------end--------------->8--- (https://discuss.opensource.org/t/rfc-separating-concerns-between-source-data...) siccome io non seguo quel forum, non ho la minima idea di quali argomenti vecchi tu abbia ripetuto ad nauseam... ma tu lo sai perché ti sei meritato la _censura_, vero?!? :-O la cosa divertente è che aprendo il link sopra "guidelines" esce un bel: --8<---------------cut here---------------start------------->8--- Ops! La pagina richiesta non esiste oppure è privata. --8<---------------cut here---------------end--------------->8--- vuol dire davvero che le guidelines sono private? comunque nulla di nuovo, non è certo la prima volta che le "community guidelines" vengono usate per censurare argomenti che nulla hanno a che vedere con la loro violazione (stendiamo un velo _pietosissimo_ poi sulla solidità logico-fattuale di molte "community guidelines" o "code of conduct") [...]

...

In qualunque caso, una definizione di Open Source AI

ma è davvero così importante la deinizione di "Open Source AI" data da OSI?

...

che non garantisca né la studiabilità dei dati utilizzati per il calcolo dei pesi né la riproducibilità del processo, favorirà ogni sorta di open washing, aprendo un enorme loophole anche nella normativa dell'AI Act. [3]

ma è davvero _quello_ il vero problema dell'AI Act? non è che se a struttura mangiata dalla _ruggine_ gli dai una mano di bianco, anche /di marca/, allora hai risolto il problema, eh!

...

Con l'account sospeso non posso fare molto né per rispondere alle domande di Vidal, né per migliorare la proposta, ma vi invito a partecipare attivamente al dibattito (nella speranza che abbiate maggior fortuna e non veniate anche voi silenziati).

non so se essere ammirato o sconfortato dalla tua pervicacia nel voler (tentare di) dialogare con chi è solo alla ricerca di persone che si prestano in buona fede a una operazione che possiamo tranquillamente definire come "community washing", che ha il solo scopo di far credere che una "norma" sia il frutto di un processo partecipativo mentre è ovvio che si tratta solo di una operazione di facciata. [...] un caro saluto, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.

Giacomo Tesio

6:24 a.m.

New subject: Open Washing AI definition by OSI?

Ciao 380° On Fri, 20 Sep 2024 14:01:01 +0200 380° <g380@biscuolo.net> wrote:

...

...
In qualunque caso, una definizione di Open Source AI

ma è davvero così importante la deinizione di "Open Source AI" data da OSI?

Evidentemente, sì, se ci si scomoda a impedire il confronto su una soluzione semplice come "richiediamo che i dati sorgente siano disponibili, se non possiamo richiedere che vengano distribuiti". Non è indicativo che nessuno abbia osato _obiettare_ nel merito? Abbiamo anche membri di OSI qui su Nexa eppure, anche qui, silenzio. Perché? Forse che questo piccolo uovo di colombo smonta tutte le scuse opposte alla trasparenza dei dati da OSI & friends? D'altro canto, se leggi il blog dell'OSI in proposito, trovi una lunga serie di voli pindarici per giustificare questa assenza di trasparenza che di fatto vanifica la libertà di studio e la libertà di modifica.

...

...
che non garantisca né la studiabilità dei dati utilizzati per il calcolo dei pesi né la riproducibilità del processo, favorirà ogni sorta di open washing, aprendo un enorme loophole anche nella normativa dell'AI Act. [3]

ma è davvero _quello_ il vero problema dell'AI Act?

Sono certo che ci siano problemi e scappatoie peggiori, ma quello è UN problema anche al di là dell'AI Act. Immagina un Chat Control basato su una "Open Source AI", con fior di accademici a spergiurare che il dataset sorgente ("di training") non contiene alcun bias... dopo per aver analizzato un dataset diverso da quello effettivamente utilizzato. Al di là dell'AI Act: molte persone si fiderebbero.

...

Please present new arguments

La proposta che ho presentato in quel post non era stata discussa da nessun'altra parte per quanto io abbia potuto verificare cercando sul forum. Alcuni degli argomenti in favore di quella proposta, riprendevano considerazioni fatte discutendo su thread correlati. Il "community manager" comunque ha dovuto fingere di non capire cosa ho proposto per giustificare la chiusura del thread. E prima mi ha silenziato, così che non potessi presentare nuovi argomenti. Purtroppo qualcuno li prende ancora sul serio... quindi tocca averci a che fare.

...

vuol dire davvero che le guidelines sono private?

Beh, certo: mica vuoi finiscano nella Wayback Machine! Poi si nota quando le cambi alla bisogna! :-D

...

è ovvio che si tratta solo di una operazione di facciata.

Ma vedi, a me non interessa se l'OSI salva la faccia o meno. A me interessa evitare che delle black box possano passare per "open source" solo perché chi le sviluppa pubblica una parte irrilevante del dataset sorgente. Il livello di opacità dei software programmati statisticamente è infinitamente maggiore rispetto a quello dei software proprietari. Giacomo PS:

...

sconfortato dalla tua pervicacia

Mi dispiace sempre per lo sconforto che causo, ma mi devo occupare del futuro, perché ho figli che ne faranno parte.

Maria Chiara Pievatolo

12:43 a.m.

On 15/09/24 10:31, Stefano Zacchiroli wrote:

...

https://opensource.org/blog/copyright-law-makes-a-case-for-requiring-data-in...

(Personalmente ne traggo una conclusione diversa da Felix, ovvero che bisognerebbe quindi agire per *cambiare* il copyright in modo che permetta di incorporare lavori protetti in dataset aperti, anziché limitarsi alla data mining exception. È quella eccezione che ha creato il disequilibrio di potere che avvantaggia le aziende come Open AI in questo momento. Ma resta una delle letture più interessanti che mi è capitato di leggere a supporto della posizione di compromesso adottata in OSAID.)

Questa diversa conclusione, messa in pratica, permetterebbe di fare qualcosa di più che resistere all'istituzione di un ulteriore diritto sui generis connesso al materiale sotto copyright usato come dato d'addestramento, che, temo, verrà proposta al parlamento europeo. L'Unione Europea abbraccia formalmente i principi della scienza aperta. Meriterebbe di essere presa in parola: non si vede perché i SALAMI debbano (e possano) essere offerti come scatole nere, e sottratti all'indagine scientifica pubblica, in nome di una concezione proprietaria del copyright. Buonanotte, MCP

Giacomo Tesio

5:23 a.m.

Salve Maria Chiara, Il 17 Settembre 2024 00:43:38 UTC, Maria Chiara Pievatolo ha scritto:

...

L'Unione Europea abbraccia formalmente i principi della scienza aperta.

Beh anche l'OSI abbraccia "formalmente" i "principi dell'Open Source". Ma propone una definizione di Open Source AI che ammette le black box. Pensaci... Open Source Black Box! Sarebbe ridicolo, l'ennesima prova della mala fede dell'organizzazione che ha rifiutato la SSPL su indicazione di Amazon. Ma purtroppo la definizione avrà un ruolo legale, aprendo un loophole enorme nella normativa.

...

non si vede perché i SALAMI debbano (e possano) essere offerti come scatole nere, e sottratti all'indagine scientifica pubblica, in nome di una concezione proprietaria del copyright.

Perché lo dice l'OSI? Già, perché OSI lo dice? Non certo nell'interesse della ricerca scientifica, della sicurezza informatica o della tutela delle minoranze che subiranno le consuete discriminazioni, ma in modo automatizzato e su una nuova scala. Cui prodest? Fortuna vuole che basterà guardare gli sponsor dell'OSI e delle organizzazioni che faranno endorsement per questa definizione così smaccatamente contraria ai principi che dichiara in premessa, per scoprirlo. D'altro canto l'OSI ha un Board of Directors: <https://opensource.org/about/board-of-directors> Persone che si stanno assumendo pubblicamente la responsabilità morale dei danni che queste black box open washed faranno. Segnamoci i loro nomi e teniamo traccia di dove li porteranno le sliding doors alla fine del loro mandato. Sono certo che spiegherà molte cose. Giacomo

551

Age (days ago)

559

Last active (days ago)

List overview

Download

6 comments

4 participants

participants (4)

380°
Giacomo Tesio
Maria Chiara Pievatolo
Stefano Zacchiroli