On Tue, Feb 27, 2024 at 12:04:52PM +0100, Marco A. Calamari wrote:
Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei loro dataset di training grandi parti del Web (solitamente ottenute via crawling fatto in casa), che nessuna parte terza può legittimamente redistribuire, dato che solo una piccolissima parte del Web è disponibile sotto licenze libere.
Un appunto, nessuna azienda *europea* lo può fare. Quelle americane, ad esempio, legalmente possono e lo fanno.
Ho l'impressione che parliamo di diritti diversi. Io mi riferisco a quello di redistribuire i training dataset acquisiti via web crawling (o simili). A mia conoscenza, non lo possono fare nemmeno quelle americane e non lo fanno. E la ragione è abbastanza ovvia: se fai web crawl recuperi pagine con milioni di detentori di diritto d'autore diversi e sotto migliaia di licenze diverse, la maggior parte delle quali non permette redistribuzione. Se hai controesempi sono i benvenuti. Credo tu ti riferisca al diritto di fare mining di tali pagine, ai fini di machine learning, e su quello effettivamente la situazione tra EU e US e abbastanza diversa. (Anche se la recente riforma del copyright europea ha liberalizzato parecchio le cose anche qua da noi, per alcuni use case.)
Poi nessuno acquisisce più dataset in proprio, tutti lo fanno tramite queste "aziende specializzate", in modo da avere comunque un ulteriore schermo legale contro cause civili spicciole per diritto d'autore e proprietà intellettuale.
Non ho una statistica esaustiva, ma per interazione diretta con gli autori di LLM sia specifici per il codice che general purpose (a-la ChatGPT), a me risulta il contrario. C'è molto crawling e mining in proprio da parte dei grandi attori, in aggiunta a quello che dici tu, ma che a mia conoscenza non è dominante negli LLM state-of-the-art. Ciao -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'