Re: [nexa] Microsoft, Mistral AI e l'AI Act
Secondo Creative Commons, l’utilizzo di pagine web per l’addestramento di modelli, costituisce “fair use”: https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/ —
On 27 Feb 2024, at 12:00, nexa-request@server-nexa.polito.it wrote:
From: Stefano Zacchiroli <zack@upsilon.cc> To: nexa <nexa@server-nexa.polito.it> Subject: Re: [nexa] Microsoft, Mistral AI e l'AI Act Message-ID: <20240227093929.hnchfamvlyh2lo75@upsilon.cc> Content-Type: text/plain; charset=utf-8
On Tue, Feb 27, 2024 at 09:17:10AM +0100, Giuseppe Attardi wrote: Facciamolo con fondi pubblici un modello davvero completamente Open, dai dati di apprendimento, al codice, ai pesi del modello, ai test di valutazione.
Concordo con l'obiettivo e sul fatto che una AI che possa dirsi "open" (o meglio: "libera") dovrebbe esserlo in tutto: dataset di training, codice di training, codice di inferenza, pesi del modello.
Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei loro dataset di training grandi parti del Web (solitamente ottenute via crawling fatto in casa), che nessuna parte terza può legittimamente redistribuire, dato che solo una piccolissima parte del Web è disponibile sotto licenze libere.
Una AI "libera", secondo i criteri accennati sopra, ha quindi oggi uno svantaggio competitivo enorme rispetto a quelle chiuse --- il che è molto deprimente. L'evoluzione tecnologica e scientifica sta andando nel verso giusto, con modelli sempre più aperti che riescono sempre meglio a rivalizzare con quelli chiusi (o ibridi) ma la strada è ancora lunga e non è detto che il gap sia completamente colmabile.
Nel mentre dovremmo guardare criticamente alle regolamentazioni che hanno permesso tutto questo "yolo training", che dà un vantaggio competitivo enorme a chi libero non vuole essere.
Ciao -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'
Secondo Creative Commons, l’utilizzo di pagine web per l’addestramento di modelli, costituisce “fair use”: https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/
Dalla causa intentata dal NYT versus OpenAI in poi, molti commentatori si sono lanciati nel dire la propria. Ne prendo un articolo a caso [1] da cui leggo: "ChatGPT è più simile a uno studente che legga per ore e ore autori famosi e impari da essi come scrivere o esporre un’idea, che non a un copista che trattenga copie di testi famosi". Va bene fare similitudini con la vita reale ma almeno diamo un ordine di grandezza, in modo che il lettore si possa fare un'idea di che "numeri" stiamo parlando. Io scriverei: ChatGPT è come uno studente che legga per 400.000 ANNI [2], autori famosi ... e che una volta terminato di leggerli, dopo averci "riflettuto" un paio di mesi, sia in grado di fare un riassunto di una parte qualsiasi di quanto letto, non solo una volta ma per tutto il resto della sua vita (augurandogliene altrettanti anni). A. [1] https://www.linkiesta.it/2023/12/open-ai-chatgpt-new-york-times-copyright/ [2] Il "training data size" di ChatGPT è di 570 Gb, quindi 570000000000 di caratteri, letti (da un essere umano) a 1000 circa al minuto, fanno 9500000 ore, ovvero quasi 400000 anni.
Certo Giuseppe, Il 28 Febbraio 2024 15:29:49 CET, Giuseppe Attardi <attardi@di.unipi.it> ha scritto:
Secondo Creative Commons, l’utilizzo di pagine web per l’addestramento di modelli, costituisce “fair use”:
https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/
Sono avvocati, mica informatici. :-) D'altro canto, pagando bene non è difficile trovare persino "informatici" disposti a sostenere che un LLM non è un'opera derivata dai testi da cui matematicamente deriva. L'ignoranza informatica diffusa è talmente profonda che nemmeno rischiano di perdere la faccia! Altro che moratorie o obiezione di coscienza! E se questo vale per gli informatici, figurati gli altri, che parlano di informatica senza conoscerla. E poi, perché inimicarsi i supporters più danarosi? https://creativecommons.org/support-cc/supporters/ Giacomo
Potresti argomentare nel merito, per favore, piuttosto che argomentare ad hominem? — Beppe
On 28 Feb 2024, at 22:07, Giacomo Tesio <giacomo@tesio.it> wrote:
Certo Giuseppe,
Il 28 Febbraio 2024 15:29:49 CET, Giuseppe Attardi <attardi@di.unipi.it> ha scritto:
Secondo Creative Commons, l’utilizzo di pagine web per l’addestramento di modelli, costituisce “fair use”:
https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/
Sono avvocati, mica informatici. :-)
D'altro canto, pagando bene non è difficile trovare persino "informatici" disposti a sostenere che un LLM non è un'opera derivata dai testi da cui matematicamente deriva.
L'ignoranza informatica diffusa è talmente profonda che nemmeno rischiano di perdere la faccia!
Altro che moratorie o obiezione di coscienza!
E se questo vale per gli informatici, figurati gli altri, che parlano di informatica senza conoscerla.
E poi, perché inimicarsi i supporters più danarosi?
https://creativecommons.org/support-cc/supporters/
Giacomo
dei quattro principi del 'fair use', a me sembra che solo il quarto:
whether the secondary use undermines the market for or acts as a market substitute for the original work sia efficacemente impugnabile dai soggetti detentori dei diritti, specie per le questioni del giornalismo, della letteratura, della fiction su tutto il resto l'AI potrebbe avere facilmente buon gioco nelle corti US G.
On Thu, 29 Feb 2024 at 00:15, Giuseppe Attardi <attardi@di.unipi.it> wrote:
Potresti argomentare nel merito, per favore, piuttosto che argomentare ad hominem?
— Beppe
On 28 Feb 2024, at 22:07, Giacomo Tesio <giacomo@tesio.it> wrote:
Certo Giuseppe,
Il 28 Febbraio 2024 15:29:49 CET, Giuseppe Attardi <attardi@di.unipi.it> ha scritto:
Secondo Creative Commons, l’utilizzo di pagine web per l’addestramento di modelli, costituisce “fair use”:
https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/
Sono avvocati, mica informatici. :-)
D'altro canto, pagando bene non è difficile trovare persino "informatici" disposti a sostenere che un LLM non è un'opera derivata dai testi da cui matematicamente deriva.
L'ignoranza informatica diffusa è talmente profonda che nemmeno rischiano di perdere la faccia!
Altro che moratorie o obiezione di coscienza!
E se questo vale per gli informatici, figurati gli altri, che parlano di informatica senza conoscerla.
E poi, perché inimicarsi i supporters più danarosi?
https://creativecommons.org/support-cc/supporters/
Giacomo
nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Ciao Giuseppe, Il giorno Thu, 29 Feb 2024 00:05:59 Giuseppe Attardi ha scritto:
Potresti argomentare nel merito, per favore, piuttosto che argomentare ad hominem?
Scusa, ieri sera ero stanco e sono stato eccessivamente sintetico. Partiamo dal rileggere la normativa in questione: http://web.archive.org/web/20240210065634/https://www.law.cornell.edu/uscode... Come puoi leggere, quell'articolo garantisce un diritto di utilizzo sottratto ai diritti esclusivi sanciti dal copyright, per finalità necessarie al funzionamento della democrazia, ad esempio - critica - commento - diffusione delle notizie - insegnamento - apprendimento (scholarship) - ricerca Già questo dovrebbe essere sufficiente, per chiunque comprenda come funzionano questi software programmati statisticamente ad escluderne qualsiasi forma di distribuzione commerciale (incluso la realizzazione di SaaS) dal fair use: ben lungi dall'essere necessari al funzionamento della democrazia, gli LLM la minano alla base, non foss'altro che per il potere di influenzarne l'output che le pochissime aziende in grado di realizzarli e mantenerli in funzione si riserva. Spero poi sia inutile sottolineare qui come la scholarship che la norma cita come esempio non abbia nulla a che vedere con la programmazione statistica impropriamente chiamata "deep learning" o "machine learning". Purtroppo, come certo saprai, la soverchiante maggioranza delle persone che parlano di informatica non ha la più pallida idea di come questa funzioni. Il risultato di questa ignoranza diffusa è che avvocati autorevoli (nel proprio campo) come quelli di creative commons, non hanno alcuna percezione di quanto si rendono RIDICOLI sostenendo che le "AI generative" di Stability AI e Midjourney
learn what images represent and create new images based on what they learn about the associations of text and images.
Le "AI generative" non sono altro che software programmati statisticamente eseguiti da macchine costruite allo scopo. Niente di più e niente di meno. Quel software deriva dai testi utilizzati per programmarli in modo del tutto equivalente a come un binario x86 deriva dal codice C da cui è stato compilato: anche in quel caso c'è una perdita di informazione (tutte le macro, i nomi delle variabili, le funzioni inlined etc...) ma nessuno sostiene che il binario non sia più soggetto al diritto d'autore di chi ha scritto il sorgente C. Per i non programmatori potremmo dire che quel software deriva dai testi utilizzati per programmarli in modo del tutto equivalente a come un video MP4 rippato da un film Disney deriva dal DVD venduto dalla Disney: il fatto che ci sia una perdita di definizione, non rende (che io sappia) la distribuzione di copie di quel MP4 legale. Per questo scrivevo "sono avvocati, mica informatici": potremmo essere indulgenti perché non sanno di cosa parlano. Indulgenza che potrebbero non meritare, visto che si rendono ridicoli sostenendo pubblicamente una tesi che (guarda caso) supporta proprio gli interessi dei propri supporters: https://creativecommons.org/support-cc/supporters/ Spero che sia chiaro come questa sia un'argomentazione di merito! Si potrebbe poi obiettare che l'uso delle opere sotto copyright sia stato fatto per finalità di ricerca, e come tale, sia ragionevolmente sottoposto al "fair use". Benissimo! Sennonché - se si considera il software programmato statisticamente (impropriamente detto "modello AI") come output di quella ricerca, bisogna spiegare perché sia diventato segreto industriale di una manciata di ricchissime aziende USA - più ragionevolmente si potrebbe sostenere che la ricerca si focalizzi sulla scoperta di nuove tecniche di programmazione statistica e nessuno vuole impedire tale ricerca! Tuttavia, il fair use finisce alla pubblicazione del paper! Commercializzare SaaS basati sul software programmato statisticamente durante la ricerca, non può costituire "fair use": se lo fosse, basterebbe scrivere un paper su come decompilare un sorgente Windows per distribuire il sorgente decompilato liberamente. Proseguendo nella lettura della normativa in questione, vediamo elencati quattro fattori da considerare nel giudizio sul "fair use": (1) the purpose and character of the use, including whether such use is of a commercial nature or is for nonprofit educational purposes; (2) the nature of the copyrighted work; (3) the amount and substantiality of the portion used in relation to the copyrighted work as a whole; and (4) the effect of the use upon the potential market for or value of the copyrighted work. Le "AI generative" di cui parliamo sono software commerciali (punto 1) Per programmarle sono stati utilizzate opere coperte da copyright nella loro totalità (punto 2). La natura dei lavori sotto copyright non è controversa: testi, immagini etc... (punto 3) La loro commercializzazione come SaaS riduce il mercato degli autori (punto 4) Guarda caso, gli avvocati di Creative Commons non hanno nemmeno provato ad analizzare i casi in questione alla luce del testo della norma (di cui pure citano i fattori da includere nella valutazione). Invece si arrampicano ardite interpretazione di precedenti cherry-picked per sostenere la tesi dei propri supporters, la cui applicazione avrebbe conseguenze surreali. Ad esempio, se scrivo un compilatore C per una mia VM e compilo il decompilato di Microsoft Office, l'output è altamente trasformativo! Il binario ottenuto in output sarà irriconoscibile. Sarà pure meno efficente di quello di Microsoft, ma sarò felice di rivendere la "suite di Giacomo" per un decimo del prezzo di Microsoft. Se la trasformativeness è rilevante nel "fair use", allora è la fine del copyright software. Il che va benissimo, purché valga per tutti. Giacomo
Giacomo Tesio <giacomo@tesio.it> writes: [...]
https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/
Sono avvocati, mica informatici. :-)
[...]
L'ignoranza informatica diffusa è talmente profonda che nemmeno rischiano di perdere la faccia!
Anche l'ignoranza del diritto, in questo caso d'autore, è così diffusa e profonda, anche tra gli informatici, che c'è estrema confusione tra distribuzione di opere dell'ingengo ottenute tramite (ri)elaborazione (ovviamente locale) di testi, sui quali negli USA esiste la disciplina del "fair use" (in EU siamo più arzigogolati), e _redistribuzione_ dei testi orignali (che sai benissimo sono tutelati _esattamente_ NELLA loro forma originale). Se vuoi contestare agli avvocati di Creative Commons ignoranza informatica fai pure, ma non mi pare sia la strata migliore per contestare i loro giudizi; lasciatelo dire da un informatico che ha dovuto molto precocemente fare i conti con la propria ingnoranza nel diritto d'autore. [...] Saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Salve 380, credo di aver abbastanza chiara la differenza fra - creazione di opere derivate (come sono i "modelli AI" di cui parliamo) - distribuzione di opere derivate (come sono, transitivamente, gli output di tali software) - ridistribuzione di opere originali o loro parti Creative Commons in effetti confonde i due temi, confrontando Google Books (che distribuisce verbatim, parti di testi coperti da copyright) con i "modelli AI" che "imparano" dalle opere protette (ROTFL!!!). Non mi sembra di aver fatto lo stesso errore, ma se qualcosa che ho scritto ti sembra evidenziare ignoranza giuridica in merito, ti sarei grato se volessi chiarire quale passaggio esattamente ti ha dato questa impressione e possibilmente qualche riferimento per colmare la lacuna in questione. A presto! Giacomo Il 29 Febbraio 2024 12:09:10 CET, "380°" <g380@biscuolo.net> ha scritto:
Giacomo Tesio <giacomo@tesio.it> writes:
[...]
https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/
Sono avvocati, mica informatici. :-)
[...]
L'ignoranza informatica diffusa è talmente profonda che nemmeno rischiano di perdere la faccia!
Anche l'ignoranza del diritto, in questo caso d'autore, è così diffusa e profonda, anche tra gli informatici, che c'è estrema confusione tra distribuzione di opere dell'ingengo ottenute tramite (ri)elaborazione (ovviamente locale) di testi, sui quali negli USA esiste la disciplina del "fair use" (in EU siamo più arzigogolati), e _redistribuzione_ dei testi orignali (che sai benissimo sono tutelati _esattamente_ NELLA loro forma originale).
Se vuoi contestare agli avvocati di Creative Commons ignoranza informatica fai pure, ma non mi pare sia la strata migliore per contestare i loro giudizi; lasciatelo dire da un informatico che ha dovuto molto precocemente fare i conti con la propria ingnoranza nel diritto d'autore.
[...]
Saluti, 380°
Mi pare che il quarto fattore alla base dell'analisi di CC del perché si tratta di "fair use" (4. Whether the secondary use harms the market for the original) possa andare forse bene per la dottrina US, perché si limita a considerare i danni per lo specifico originale su cui ci si è addestrati, ma nella mia visione più europea andrebbe considerato il danno al mercato per l'insieme delle opere su cui ci si è addestrati. In altre parole, mi pare che i potenziali danni sociali di un uso del tutto non regolamentato di qualunque cosa si trovi sul web (e, mi pare di capire, anche fuori dal web, visto che - se non mi sbaglio - nell'intero articolo non si parla mai di web o di rete) non possano essere considerati dei trascurabili danni collaterali di una competizione capitalistica (come penso lasci intendere l'articolo), altrimenti staremmo ancora a far lavorare i minori in fabbrica per 12 ore e più. Ciao, Enrico Il 28/02/2024 15:29, Giuseppe Attardi ha scritto:
Secondo Creative Commons, l’utilizzo di pagine web per l’addestramento di modelli, costituisce “fair use”:
https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/
—
On 27 Feb 2024, at 12:00, nexa-request@server-nexa.polito.it wrote:
From: Stefano Zacchiroli <zack@upsilon.cc> To: nexa <nexa@server-nexa.polito.it> Subject: Re: [nexa] Microsoft, Mistral AI e l'AI Act Message-ID: <20240227093929.hnchfamvlyh2lo75@upsilon.cc> Content-Type: text/plain; charset=utf-8
On Tue, Feb 27, 2024 at 09:17:10AM +0100, Giuseppe Attardi wrote: Facciamolo con fondi pubblici un modello davvero completamente Open, dai dati di apprendimento, al codice, ai pesi del modello, ai test di valutazione.
Concordo con l'obiettivo e sul fatto che una AI che possa dirsi "open" (o meglio: "libera") dovrebbe esserlo in tutto: dataset di training, codice di training, codice di inferenza, pesi del modello.
Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei loro dataset di training grandi parti del Web (solitamente ottenute via crawling fatto in casa), che nessuna parte terza può legittimamente redistribuire, dato che solo una piccolissima parte del Web è disponibile sotto licenze libere.
Una AI "libera", secondo i criteri accennati sopra, ha quindi oggi uno svantaggio competitivo enorme rispetto a quelle chiuse --- il che è molto deprimente. L'evoluzione tecnologica e scientifica sta andando nel verso giusto, con modelli sempre più aperti che riescono sempre meglio a rivalizzare con quelli chiusi (o ibridi) ma la strada è ancora lunga e non è detto che il gap sia completamente colmabile.
Nel mentre dovremmo guardare criticamente alle regolamentazioni che hanno permesso tutto questo "yolo training", che dà un vantaggio competitivo enorme a chi libero non vuole essere.
Ciao -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa --
-- EN https://www.hoepli.it/libro/la-rivoluzione-informatica/9788896069516.html ====================================================== Prof. Enrico Nardelli Past President di "Informatics Europe" Direttore del Laboratorio Nazionale "Informatica e Scuola" del CINI Dipartimento di Matematica - Università di Roma "Tor Vergata" Via della Ricerca Scientifica snc - 00133 Roma home page: https://www.mat.uniroma2.it/~nardelli blog: https://link-and-think.blogspot.it/ tel: +39 06 7259.4204 fax: +39 06 7259.4699 mobile: +39 335 590.2331 e-mail: nardelli@mat.uniroma2.it online meeting: https://blue.meet.garr.it/b/enr-y7f-t0q-ont ====================================================== --
On Thu, Feb 29, 2024 at 10:09:43AM +0100, Enrico Nardelli wrote:
Mi pare che il quarto fattore alla base dell'analisi di CC del perché si tratta di "fair use" (4. Whether the secondary use harms the market for the original) possa andare forse bene per la dottrina US, perché si limita a considerare i danni per lo specifico originale su cui ci si è addestrati, ma nella mia visione più europea andrebbe considerato il danno al mercato per l'insieme delle opere su cui ci si è addestrati.
Nel caso europeo si rientra però nella fattispecie della eccezione TDM (Text & Data Mining) introdotta nella riforma del copyright del 2019. Secondo i casi d'uso (in particolare: usi a fini di ricerca vs per qualsiasi altro fine, incluso profitto) il mining è concesso automaticamente o meno, potenzialmente mitigato da un opt-out esplicito. (Ci sono su questa lista persone ben più competenti di me per discutere di questi dettagli. Nel caso, sarei curioso di sapere come l'eccezione TDM è stata recepita dal diritto italiano, se lo è stata, perché non ho per nulla seguito questo aspetto.) Faccio però notare a Giuseppe che il mio commento iniziale riguardava il diritto di *ridistribuzione* dei dataset, che è altro rispetto a quello di usarli per fare training. A presto -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'
Grazie Stefano per l'osservazione. Mi pare che in questo caso siano proprio i dettagli che fanno la differenza. Soprattutto perché il punto da semplice problema di competizione industriale diventa un problema di modello di società e di sviluppo. Ciao, Enrico Il 29/02/2024 10:56, Stefano Zacchiroli ha scritto:
On Thu, Feb 29, 2024 at 10:09:43AM +0100, Enrico Nardelli wrote:
Mi pare che il quarto fattore alla base dell'analisi di CC del perché si tratta di "fair use" (4. Whether the secondary use harms the market for the original) possa andare forse bene per la dottrina US, perché si limita a considerare i danni per lo specifico originale su cui ci si è addestrati, ma nella mia visione più europea andrebbe considerato il danno al mercato per l'insieme delle opere su cui ci si è addestrati. Nel caso europeo si rientra però nella fattispecie della eccezione TDM (Text & Data Mining) introdotta nella riforma del copyright del 2019. Secondo i casi d'uso (in particolare: usi a fini di ricerca vs per qualsiasi altro fine, incluso profitto) il mining è concesso automaticamente o meno, potenzialmente mitigato da un opt-out esplicito.
(Ci sono su questa lista persone ben più competenti di me per discutere di questi dettagli. Nel caso, sarei curioso di sapere come l'eccezione TDM è stata recepita dal diritto italiano, se lo è stata, perché non ho per nulla seguito questo aspetto.)
Faccio però notare a Giuseppe che il mio commento iniziale riguardava il diritto di *ridistribuzione* dei dataset, che è altro rispetto a quello di usarli per fare training.
A presto --
-- EN https://www.hoepli.it/libro/la-rivoluzione-informatica/9788896069516.html ====================================================== Prof. Enrico Nardelli Past President di "Informatics Europe" Direttore del Laboratorio Nazionale "Informatica e Scuola" del CINI Dipartimento di Matematica - Università di Roma "Tor Vergata" Via della Ricerca Scientifica snc - 00133 Roma home page: https://www.mat.uniroma2.it/~nardelli blog: https://link-and-think.blogspot.it/ tel: +39 06 7259.4204 fax: +39 06 7259.4699 mobile: +39 335 590.2331 e-mail: nardelli@mat.uniroma2.it online meeting: https://blue.meet.garr.it/b/enr-y7f-t0q-ont ====================================================== --
Buongiorno Giuseppe, (non so esattamente da cosa dipenda - usi la modalità digest? - ma il tuo client email continua a spezzare i thread e questo rende le discussioni in lista estremamente più difficoltose) Giuseppe Attardi <attardi@di.unipi.it> writes:
Secondo Creative Commons, l’utilizzo di pagine web per l’addestramento di modelli, costituisce “fair use”: https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/
Attenzione che Stefano si riferisce alla _redistribuzione_ del dataset di training, non del solo LLM
From: Stefano Zacchiroli <zack@upsilon.cc>
On Tue, Feb 27, 2024 at 09:17:10AM +0100, Giuseppe Attardi wrote: Facciamolo con fondi pubblici un modello davvero completamente Open, dai dati di apprendimento, al codice, ai pesi del modello, ai test di valutazione.
Concordo con l'obiettivo e sul fatto che una AI che possa dirsi "open" (o meglio: "libera") dovrebbe esserlo in tutto: dataset di training, codice di training, codice di inferenza, pesi del modello.
Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei loro dataset di training grandi parti del Web (solitamente ottenute via crawling fatto in casa), che nessuna parte terza può legittimamente redistribuire, dato che solo una piccolissima parte del Web è disponibile sotto licenze libere.
Quindi: siccome nei dataset di training c'è "roba" non libera, quella "roba" deve essere esclusa da un ipotetico dataset da redistribuire con una licenza libera.
Una AI "libera", secondo i criteri accennati sopra, ha quindi oggi uno svantaggio competitivo enorme rispetto a quelle chiuse --- il che è molto deprimente.
A meno che, invece che distribuire la "roba" proprietaria, non si forniscano le "ricette" necessarie affinché il codice di training sia in grado di andare a "leggerselo da solo" il materiale sul web: quello sarebbe "fair use", che è la stessa identica cosa che fanno quelli che sviluppano LLM proprietari Se non c'è la "roba" proprietaria ma solo "la ricetta" non c'è redistribuzione. [...] Saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
participants (7)
-
380° -
Antonio -
Enrico Nardelli -
Giacomo Tesio -
Giuseppe Attardi -
Guido Vetere -
Stefano Zacchiroli