On mar, 2024-02-27 at 10:39 +0100, Stefano Zacchiroli wrote:

On Tue, Feb 27, 2024 at 09:17:10AM +0100, Giuseppe Attardi wrote:
Facciamolo con fondi pubblici un modello davvero completamente Open,
dai dati di apprendimento, al codice, ai pesi del modello, ai test di
valutazione.

Concordo con l'obiettivo e sul fatto che una AI che possa dirsi "open"
(o meglio: "libera") dovrebbe esserlo in tutto: dataset di training,
codice di training, codice di inferenza, pesi del modello.

Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è
raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei
loro dataset di training grandi parti del Web (solitamente ottenute via
crawling fatto in casa), che nessuna parte terza può legittimamente
redistribuire, dato che solo una piccolissima parte del Web è
disponibile sotto licenze libere.

Buongiorno Stefano.

Un appunto, nessuna azienda *europea* lo può fare.

Quelle americane, ad esempio, legalmente possono e lo fanno.

Poi nessuno acquisisce più dataset in proprio, tutti lo fanno tramite queste

"aziende specializzate", in modo da avere comunque un ulteriore schermo

legale contro cause civili spicciole per diritto d'autore e proprietà intellettuale.

JM2C. Marco

Una AI "libera", secondo i criteri accennati sopra, ha quindi oggi uno
svantaggio competitivo enorme rispetto a quelle chiuse --- il che è
molto deprimente. L'evoluzione tecnologica e scientifica sta andando nel
verso giusto, con modelli sempre più aperti che riescono sempre meglio a
rivalizzare con quelli chiusi (o ibridi) ma la strada è ancora lunga e
non è detto che il gap sia completamente colmabile.

Nel mentre dovremmo guardare criticamente alle regolamentazioni che
hanno permesso tutto questo "yolo training", che dà un vantaggio
competitivo enorme a chi libero non vuole essere.

Ciao