On mar, 2024-02-27 at 14:08 +0100, Stefano Zacchiroli wrote:

On Tue, Feb 27, 2024 at 12:04:52PM +0100, Marco A. Calamari wrote:
Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è
raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei
loro dataset di training grandi parti del Web (solitamente ottenute via
crawling fatto in casa), che nessuna parte terza può legittimamente
redistribuire, dato che solo una piccolissima parte del Web è
disponibile sotto licenze libere.

Un appunto, nessuna azienda *europea* lo può fare.
Quelle americane, ad esempio, legalmente possono e lo fanno.

Ho l'impressione che parliamo di diritti diversi.

Io mi riferisco a quello di redistribuire i training dataset acquisiti
via web crawling (o simili). A mia conoscenza, non lo possono fare
nemmeno quelle americane e non lo fanno. E la ragione è abbastanza
ovvia: se fai web crawl recuperi pagine con milioni di detentori di
diritto d'autore diversi e sotto migliaia di licenze diverse, la maggior
parte delle quali non permette redistribuzione.

Se hai controesempi sono i benvenuti.

Non vorrei tediare la lista, quindi sarò sintetico

https://datarade.ai/data-categories/ai-ml-training-data/datasets

Credo tu ti riferisca al diritto di fare mining di tali pagine, ai fini
di machine learning, e su quello effettivamente la situazione tra EU e
US e abbastanza diversa. (Anche se la recente riforma del copyright
europea ha liberalizzato parecchio le cose anche qua da noi, per alcuni
use case.)

Poi nessuno acquisisce più dataset in proprio, tutti lo fanno tramite queste
"aziende specializzate", in modo da avere comunque un ulteriore schermo
legale contro cause civili spicciole per diritto d'autore e proprietà
intellettuale.

Non ho una statistica esaustiva, ma per interazione diretta con gli
autori di LLM sia specifici per il codice che general purpose (a-la
ChatGPT), a me risulta il contrario. C'è molto crawling e mining in
proprio da parte dei grandi attori, in aggiunta a quello che dici tu, ma
che a mia conoscenza non è dominante negli LLM state-of-the-art.

Ciao