‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian
<https://www.theguardian.com/australia-news/2023/sep/28/australian-books-trai...> Thousands of books from some of Australia’s most celebrated authors have potentially been caught up in what Booker prize-winning novelist Richard Flanagan has called “the biggest act of copyright theft in history”. The works have allegedly been pirated by the US-based Books3 dataset and used to train generative AI for corporations such as Meta and Bloomberg. Flanagan, who found 10 of his works, including the multi-international award-winning 2013 novel The Narrow Road to the Deep North, on the Books3 dataset, told Guardian Australia he was deeply shocked by the discovery made several days ago. “I felt as if my soul had been strip mined and I was powerless to stop it,” he said in a statement. “This is the biggest act of copyright theft in history.” AI could ‘turbo-charge fraud’ and be monopolised by tech companies, Andrew Leigh warns The Australian Publishers Association confirmed to Guardian Australia on Wednesday that as many as 18,000 fiction and nonfiction titles with Australian ISBNs (unique international standard book numbers) appeared to be affected by the copyright infringement, although it is not yet clear what proportion of these are Australian editions of internationally authored books. “We’re still working through [the data] to work out the impact in terms of Australian authors,” APA spokesperson Stuart Glover said. “This is a massive legal and ethical challenge for the publishing industry and for authors globally.” A search tool published on Monday by US media platform The Atlantic and uploaded by the US Authors Guild on Wednesday revealed the works of Peter Carey, Helen Garner, Kate Grenville, Anna Funder, Christos Tsiolkas and Thomas Keneally, as well as Flanagan and dozens of other high-profile Australian authors, were included in the pirated dataset containing more than 180,000 titles. On Thursday, the Australian Society of Authors issued a statement saying it was “horrified” to learn that the works of Australian writers were being used to train artificial intelligence without permission from the authors. ASA chief executive, Olivia Lanchester, described the Books3 dataset as piracy on an industrial scale. “Authors appropriately feel outraged,” Lanchester said. “The fact is this technology relies upon books, journals, essays written by authors, yet permission was not sought nor compensation granted.” Lanchester said the Australian literary industry, while not objecting per se to emerging technologies such as AI, was deeply concerned about the lack of transparency evident in the development and monetisation of AI by global tech companies. “Turning a blind eye to the legitimate rights of copyright owners threatens to diminish already precarious creative careers,” she said. “The enrichment of a few powerful companies is at the cost of thousands of individual creators. This is not how a fair market functions.” Josephine Johnston, chief executive of Australia’s Copyright Agency, described the Books3 development as “a free kick to big tech” at the expense of Australia’s creative and cultural life. “We’re going to need greater transparency – how these tools have been developed, trained, how they operate – before people can truly understand what their legal rights might be,” she said. “We seem to be in this terrible position now where content owners – remembering that the vast majority of them will be individual authors – may actually have to take out court cases to enforce their rights.” Australian copyright law protects creators of original content from data scraping. Litigation in the US against ChatGPT creator OpenAI over use of allegedly pirated book datasets, Books1 and Books2 (which do not appear to be affiliated with Books3) has already commenced. In July, North American horror/fantasy writers Mona Awad (author of Bunny) and Paul Tremblay (author of The Cabin at the End of the World) filed a lawsuit in a San Francisco federal court, alleging ChatGPT unlawfully digested their books as part of its AI training data. On 28 August, OpenAI filed a motion to dismiss the lawsuit, arguing that the authors “misconceive the scope of copyright, failing to take into account the limitations and exceptions (including fair use) that properly leave room for innovations like the large language models now at the forefront of artificial intelligence”. On 19 September the Writers Guild and 17 of its members, including bestselling novelists John Grisham, George RR Martin and Jodi Picoult, filed a complaint in a New York district court against OpenAI, seeking redress for “flagrant and harmful infringements” of guild members’ registered copyrights. In a statement on its website, the guild says while it is aware that companies such as Meta and Bloomberg have used the Books3 dataset to train their LLMs, it is not yet clear whether OpenAI is using Books3 to train its ChatGPT models GPT 3.5 or GPT 4. Democracies face ‘truth decay’ as AI blurs fact and fiction, warns head of Australia’s military Guardian Australia has sought comment from OpenAI, which has yet to officially respond to the guild’s complaint, and Meta. On 4 September, US technology magazine Wired reported that a Danish anti-piracy group called Rights Alliance had been told by Bloomberg that the company did not plan to train future versions of its BloombergGPT using Books3. Bloomberg declined to respond to the Guardian’s queries. The APA said the global nature of the issue would present significant challenges in enforcement and prosecution, and has joined the authors’ society in calling for AI technologies to be regulated. Consultation closed last month for a Department of Industry, Science and Resources discussion paper on supporting responsible AI. A parliamentary inquiry is under way examining the use of generative artificial intelligence in the Australian education system. Flanagan said it was up to the Australian government to act to protect Australia’s writers. “It has power and we do not,” he said. “If it cares for our culture it must now stand up and fight for it.”
L'idea che istruire un modello su dei testi coperti da copyright sia una violazione del suddetto copyright è altamente opinabile, e il ragionamento è in realtà abbastanza semplice: se istruirsi su un testo ne violasse il copyright, saremmo tutti dei criminali. Di quei testi non c'è fisicamente traccia all'interno dei modelli, non viene copiato niente. I modelli sono un'opera trasformativa di quei testi, non derivativa. Lo argomenta molto bene Creative Commons: https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/ Detto questo, cito le parole di un altro autore, Jeff Jarvis: https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5HMmeeVqg... «I, for one, am not complaining about my books being in in large language model training sets. I write to enter ideas into public discourse. I prefer informed over ignorant AI. I believe it is fair use for anyone to read & use books for transformative work. In fact, I'd probably feel snubbed if my books were not there. I'm happy when they are in libraries. I'm fine that they're here.» Fabio Il giorno ven 29 set 2023 alle ore 07:52 Alberto Cammozzo via nexa <nexa@server-nexa.polito.it> ha scritto:
<https://www.theguardian.com/australia-news/2023/sep/28/australian-books-trai...>
Thousands of books from some of Australia’s most celebrated authors have potentially been caught up in what Booker prize-winning novelist Richard Flanagan has called “the biggest act of copyright theft in history”.
The works have allegedly been pirated by the US-based Books3 dataset and used to train generative AI for corporations such as Meta and Bloomberg.
Flanagan, who found 10 of his works, including the multi-international award-winning 2013 novel The Narrow Road to the Deep North, on the Books3 dataset, told Guardian Australia he was deeply shocked by the discovery made several days ago.
“I felt as if my soul had been strip mined and I was powerless to stop it,” he said in a statement.
“This is the biggest act of copyright theft in history.”
AI could ‘turbo-charge fraud’ and be monopolised by tech companies, Andrew Leigh warns
The Australian Publishers Association confirmed to Guardian Australia on Wednesday that as many as 18,000 fiction and nonfiction titles with Australian ISBNs (unique international standard book numbers) appeared to be affected by the copyright infringement, although it is not yet clear what proportion of these are Australian editions of internationally authored books.
“We’re still working through [the data] to work out the impact in terms of Australian authors,” APA spokesperson Stuart Glover said.
“This is a massive legal and ethical challenge for the publishing industry and for authors globally.”
A search tool published on Monday by US media platform The Atlantic and uploaded by the US Authors Guild on Wednesday revealed the works of Peter Carey, Helen Garner, Kate Grenville, Anna Funder, Christos Tsiolkas and Thomas Keneally, as well as Flanagan and dozens of other high-profile Australian authors, were included in the pirated dataset containing more than 180,000 titles.
On Thursday, the Australian Society of Authors issued a statement saying it was “horrified” to learn that the works of Australian writers were being used to train artificial intelligence without permission from the authors.
ASA chief executive, Olivia Lanchester, described the Books3 dataset as piracy on an industrial scale.
“Authors appropriately feel outraged,” Lanchester said. “The fact is this technology relies upon books, journals, essays written by authors, yet permission was not sought nor compensation granted.”
Lanchester said the Australian literary industry, while not objecting per se to emerging technologies such as AI, was deeply concerned about the lack of transparency evident in the development and monetisation of AI by global tech companies.
“Turning a blind eye to the legitimate rights of copyright owners threatens to diminish already precarious creative careers,” she said.
“The enrichment of a few powerful companies is at the cost of thousands of individual creators. This is not how a fair market functions.”
Josephine Johnston, chief executive of Australia’s Copyright Agency, described the Books3 development as “a free kick to big tech” at the expense of Australia’s creative and cultural life.
“We’re going to need greater transparency – how these tools have been developed, trained, how they operate – before people can truly understand what their legal rights might be,” she said.
“We seem to be in this terrible position now where content owners – remembering that the vast majority of them will be individual authors – may actually have to take out court cases to enforce their rights.”
Australian copyright law protects creators of original content from data scraping.
Litigation in the US against ChatGPT creator OpenAI over use of allegedly pirated book datasets, Books1 and Books2 (which do not appear to be affiliated with Books3) has already commenced.
In July, North American horror/fantasy writers Mona Awad (author of Bunny) and Paul Tremblay (author of The Cabin at the End of the World) filed a lawsuit in a San Francisco federal court, alleging ChatGPT unlawfully digested their books as part of its AI training data.
On 28 August, OpenAI filed a motion to dismiss the lawsuit, arguing that the authors “misconceive the scope of copyright, failing to take into account the limitations and exceptions (including fair use) that properly leave room for innovations like the large language models now at the forefront of artificial intelligence”.
On 19 September the Writers Guild and 17 of its members, including bestselling novelists John Grisham, George RR Martin and Jodi Picoult, filed a complaint in a New York district court against OpenAI, seeking redress for “flagrant and harmful infringements” of guild members’ registered copyrights.
In a statement on its website, the guild says while it is aware that companies such as Meta and Bloomberg have used the Books3 dataset to train their LLMs, it is not yet clear whether OpenAI is using Books3 to train its ChatGPT models GPT 3.5 or GPT 4.
Democracies face ‘truth decay’ as AI blurs fact and fiction, warns head of Australia’s military
Guardian Australia has sought comment from OpenAI, which has yet to officially respond to the guild’s complaint, and Meta.
On 4 September, US technology magazine Wired reported that a Danish anti-piracy group called Rights Alliance had been told by Bloomberg that the company did not plan to train future versions of its BloombergGPT using Books3.
Bloomberg declined to respond to the Guardian’s queries.
The APA said the global nature of the issue would present significant challenges in enforcement and prosecution, and has joined the authors’ society in calling for AI technologies to be regulated.
Consultation closed last month for a Department of Industry, Science and Resources discussion paper on supporting responsible AI.
A parliamentary inquiry is under way examining the use of generative artificial intelligence in the Australian education system.
Flanagan said it was up to the Australian government to act to protect Australia’s writers.
“It has power and we do not,” he said.
“If it cares for our culture it must now stand up and fight for it.”
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
On Fri, Sep 29, 2023 10:24:57 AM +0200, Fabio Alemagna wrote:
L'idea che istruire un modello su dei testi coperti da copyright sia una violazione del suddetto copyright è altamente opinabile, e il ragionamento è in realtà abbastanza semplice: se istruirsi su un testo ne violasse il copyright, saremmo tutti dei criminali.
esatto, grazie. Sono sorpreso che questo argomento non venga fatto piu' spesso, mi pare cruciale. Inoltre, a sostegno di quanto dice Jarvis:
I prefer informed over ignorant AI.
ora non trovo il link, ma giorni fa leggevo qualcun altro osservare esplicitamente che se si lasciano addestrare i LLM solo con spazzatura razzista, fascista, sessista, omofoba o altro, poi non ci si puo' lamentare se creano testi razzisti eccetera. Che poi, allargando un attimo il discorso, e' lo stesso problema gigante che abbiamo gia' da vent'anni, il blocco da copyright per gli LLM lo aumenterebbe soltanto: https://stop.zona-m.net/2021/04/free-news-make-extremists/ Soluzioni non ne ho ma fa ridere, tristemente, vedere giornalisti e intellettuali progressisti lamentarsi delle masse becere che credono alla spazzatura online, spiegandogli pazientemente quanto son becere... o combattere la disinformazione su vaccini, cambiamenti climatici, Ucraina eccetera... ma solo in articoli dietro paywall Infine, senza smentire quanto sopra, giusto per completezza:
Di quei testi non c'è fisicamente traccia all'interno dei modelli, non viene copiato niente. I modelli sono un'opera trasformativa di quei testi, non derivativa.
volendo essere pignoli, questo non e' sempre **completamente vero**, vedi il caso del "knotting", https://www.wired.com/story/fanfiction-omegaverse-sex-trope-artificial-intel... Marco
Caro Fabio, convengo con te che il (c) abbia dei limiti in tale contesto, e soprattutto non credo che il /fair use/ sia l'unico criterio utile. Le corti in varie parti del mondo saranno sempre più investite in merito, vedremo che orientamento prenderanno e se la legge sul (c) sarà l'unico strumento azionato. Gli LLM sfidano un apparato giuridico che non è pensato per la produzione industriale di testi, fenomeno che finora non esisteva. In merito a quanto dici sull'equivalenza per macchine ed umani di '/istruirsi/' sullo stesso testo, per parte mia credo che l'/apprendimento/ umano e il /training/ del modello LLM abbiano una enorme differenza. L'umano è in grado di esprimersi col linguaggio anche senza i testi in questione, e di estrarre le 'idee' in esso contenute prescindendo dalla formulazione esatta, mentre la macchina produce linguaggio statisticamente correlato con la semantica associata a quelle idee solo seguendo la formulazione linguistica dei testi pertinenti, e solo con tali testi. Non potrei dire la stessa cosa pensando a uno studente che /si istruisce/ dai libri. Per la macchina l'idea (che per noi è significante, contenuto) non esiste, ma solo il linguaggio (il significante): anche se questa non produrrà frasi che copiano letteralmente l'input di training, lo specifico input è essenziale alla produzione di testi con la semantica dell'input in questione. Vedrei poi altri aspetti che le corti potrebbero tenere in considerazione, che emergeranno forse maggiormente in futuro, ma che meriterebbero approfondimento ora. - l'appropriazione del lavoro linguistico non riconosciuto dell'autore, anche come collettività autorale. Questo mi pare si veda già con la produzione automatica di codice informatico attingendo ai repository; - la responsabilità sulle conseguenze del contenuto dei testi e eventuali danni derivanti dalla scarsa qualità dello stesso (già vediamo ricette velenose, fake news, suicidi, induzione a comportamenti pericolosi, bug nel codice ...); - l'inquinamento ambientale. Non solo quello energetico (per la produzione e l'aggiornamento degli LLM), ma inquinamento informativo dell'ecosistema linguistico (o in generale simbolico). Ammettendo il linguaggio come bene sistemico e patrimonio comune, l'immissione massiva di testi (o immagini) generati artificialmente interferisce con l'ecosistema e la sua naturale evoluzione. Questo ultimo aspetto è quello meno immediatamente visibile ma sarà il più intenso, e investirà per primi i motori di ricerca e gli altri attori dell'ecosistema digitale, che vedranno diluirsi il rapporto segnale/rumore all'aumentare dei testi generati artificialmente, e di conseguenza il valore del loro servizio. Dovranno decidere da che parte stare... Anche la produzione di software a codice aperto risentirà dello stesso problema. In generale le collettività che producono testi, codice e immagini e che li riversano nei commons ne subiscono un danno dal momento che la produzione industriale artificiale sommergerà il loro ecosistema con prodotti di qualità dubbia e che sottraggono loro lavoro e riconoscimento. Stiamo (anche) a vedere... Alberto On 29/09/23 10:24, Fabio Alemagna wrote:
L'idea che istruire un modello su dei testi coperti da copyright sia una violazione del suddetto copyright è altamente opinabile, e il ragionamento è in realtà abbastanza semplice: se istruirsi su un testo ne violasse il copyright, saremmo tutti dei criminali. Di quei testi non c'è fisicamente traccia all'interno dei modelli, non viene copiato niente. I modelli sono un'opera trasformativa di quei testi, non derivativa.
Lo argomenta molto bene Creative Commons: https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/
Detto questo, cito le parole di un altro autore, Jeff Jarvis: https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5HMmeeVqg...
«I, for one, am not complaining about my books being in in large language model training sets. I write to enter ideas into public discourse. I prefer informed over ignorant AI. I believe it is fair use for anyone to read & use books for transformative work. In fact, I'd probably feel snubbed if my books were not there. I'm happy when they are in libraries. I'm fine that they're here.»
Fabio
Il giorno ven 29 set 2023 alle ore 07:52 Alberto Cammozzo via nexa <nexa@server-nexa.polito.it> ha scritto:
<https://www.theguardian.com/australia-news/2023/sep/28/australian-books-trai...>
Thousands of books from some of Australia’s most celebrated authors have potentially been caught up in what Booker prize-winning novelist Richard Flanagan has called “the biggest act of copyright theft in history”.
The works have allegedly been pirated by the US-based Books3 dataset and used to train generative AI for corporations such as Meta and Bloomberg.
Flanagan, who found 10 of his works, including the multi-international award-winning 2013 novel The Narrow Road to the Deep North, on the Books3 dataset, told Guardian Australia he was deeply shocked by the discovery made several days ago.
“I felt as if my soul had been strip mined and I was powerless to stop it,” he said in a statement.
“This is the biggest act of copyright theft in history.”
AI could ‘turbo-charge fraud’ and be monopolised by tech companies, Andrew Leigh warns
The Australian Publishers Association confirmed to Guardian Australia on Wednesday that as many as 18,000 fiction and nonfiction titles with Australian ISBNs (unique international standard book numbers) appeared to be affected by the copyright infringement, although it is not yet clear what proportion of these are Australian editions of internationally authored books.
“We’re still working through [the data] to work out the impact in terms of Australian authors,” APA spokesperson Stuart Glover said.
“This is a massive legal and ethical challenge for the publishing industry and for authors globally.”
A search tool published on Monday by US media platform The Atlantic and uploaded by the US Authors Guild on Wednesday revealed the works of Peter Carey, Helen Garner, Kate Grenville, Anna Funder, Christos Tsiolkas and Thomas Keneally, as well as Flanagan and dozens of other high-profile Australian authors, were included in the pirated dataset containing more than 180,000 titles.
On Thursday, the Australian Society of Authors issued a statement saying it was “horrified” to learn that the works of Australian writers were being used to train artificial intelligence without permission from the authors.
ASA chief executive, Olivia Lanchester, described the Books3 dataset as piracy on an industrial scale.
“Authors appropriately feel outraged,” Lanchester said. “The fact is this technology relies upon books, journals, essays written by authors, yet permission was not sought nor compensation granted.”
Lanchester said the Australian literary industry, while not objecting per se to emerging technologies such as AI, was deeply concerned about the lack of transparency evident in the development and monetisation of AI by global tech companies.
“Turning a blind eye to the legitimate rights of copyright owners threatens to diminish already precarious creative careers,” she said.
“The enrichment of a few powerful companies is at the cost of thousands of individual creators. This is not how a fair market functions.”
Josephine Johnston, chief executive of Australia’s Copyright Agency, described the Books3 development as “a free kick to big tech” at the expense of Australia’s creative and cultural life.
“We’re going to need greater transparency – how these tools have been developed, trained, how they operate – before people can truly understand what their legal rights might be,” she said.
“We seem to be in this terrible position now where content owners – remembering that the vast majority of them will be individual authors – may actually have to take out court cases to enforce their rights.”
Australian copyright law protects creators of original content from data scraping.
Litigation in the US against ChatGPT creator OpenAI over use of allegedly pirated book datasets, Books1 and Books2 (which do not appear to be affiliated with Books3) has already commenced.
In July, North American horror/fantasy writers Mona Awad (author of Bunny) and Paul Tremblay (author of The Cabin at the End of the World) filed a lawsuit in a San Francisco federal court, alleging ChatGPT unlawfully digested their books as part of its AI training data.
On 28 August, OpenAI filed a motion to dismiss the lawsuit, arguing that the authors “misconceive the scope of copyright, failing to take into account the limitations and exceptions (including fair use) that properly leave room for innovations like the large language models now at the forefront of artificial intelligence”.
On 19 September the Writers Guild and 17 of its members, including bestselling novelists John Grisham, George RR Martin and Jodi Picoult, filed a complaint in a New York district court against OpenAI, seeking redress for “flagrant and harmful infringements” of guild members’ registered copyrights.
In a statement on its website, the guild says while it is aware that companies such as Meta and Bloomberg have used the Books3 dataset to train their LLMs, it is not yet clear whether OpenAI is using Books3 to train its ChatGPT models GPT 3.5 or GPT 4.
Democracies face ‘truth decay’ as AI blurs fact and fiction, warns head of Australia’s military
Guardian Australia has sought comment from OpenAI, which has yet to officially respond to the guild’s complaint, and Meta.
On 4 September, US technology magazine Wired reported that a Danish anti-piracy group called Rights Alliance had been told by Bloomberg that the company did not plan to train future versions of its BloombergGPT using Books3.
Bloomberg declined to respond to the Guardian’s queries.
The APA said the global nature of the issue would present significant challenges in enforcement and prosecution, and has joined the authors’ society in calling for AI technologies to be regulated.
Consultation closed last month for a Department of Industry, Science and Resources discussion paper on supporting responsible AI.
A parliamentary inquiry is under way examining the use of generative artificial intelligence in the Australian education system.
Flanagan said it was up to the Australian government to act to protect Australia’s writers.
“It has power and we do not,” he said.
“If it cares for our culture it must now stand up and fight for it.”
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Ciao Fabio, Il 29 Settembre 2023 08:24:57 UTC, Fabio Alemagna <falemagn@gmail.com> ha scritto:
L'idea che istruire un modello...
Purtroppo l'idea di "istruire" una macchina è di per sé un'allucinazione. Le macchine si costruiscono e (se sono programmabili) di programmano. Non c'è nessuna mente che possa imparare lì dentro, perché le macchine non pensano. Il fatto che possano essere programmate statisticamente per ingannare chi non ne comprende il funzionamento ci dice che il loro studio andrebbe riservato a chi lo comprende appieno (tanto da poterle ricostruire da zero) e la loro applicazione a persone inconsapevoli o fragili semplicemente vietato. Ciò che chiami "modello" non è stato istruito ma programmato statisticamente usando determinati testi "sorgente". Il "modello" rappresenta una codifica parziale (o se peferisci, una compressione con perdita di informazione) con interferenze (le varie sorgenti casuali utilizzate durante la programmazione statistica o durante l'esecuzione del programma e poi scartate per poter fingere che l'output non sia deterministico). Dunque il modello CONTIENE, seppur in forma difficile da estrarre e non necessariamente corrispondente all'intento comunicativo dei rispettivi autori, ampie parti dei testi originali. Un esempio particolarmente lampante di questo meccanismo fu evidenziato con Microsoft Copilot (aka CopyALot) che distribuì codice sotto GPL in violazione della stessa, copiando alla lettera il sorgente ma (guarda caso) attribuendogli una licenza permissiva ed un autore inesistente. Quel codice, distribuito attraverso l'editor per programmatori di Microsoft chiamato Visual Studio Code è stato riconosciuto perché particolarmente famoso, ma è inevitabile che analogje violazioni avvengano continuamente senza che nessuno se ne accorga. Violazioni particolarmente gravi perché il codice GPL viene poi incluso in prodotti proprietari.
cito le parole di un altro autore, Jeff Jarvis: https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5HMmeeVqg...
Il fatto che Facebook propini e diffonda le parole di autori felici che le proprie opere vengano sfruttate in questo modo e ricostruite secondo gli interessi propagandistici di questa o quella società statunitense, non significa molto. Piuttosto, evidenzia la scarsa consapevolezza del mezzo facebook (intermediario interessato e notoriamente senza scrupoli) di chi se le beve e le diffonde. Personalmente sarei felicissimo di scoprire che fare uno zip di windows o office è sufficiente a far decadere i diritti di Microsoft a su di esso. E scommetto che lo sarebbero anche molti suoi dipendenti, che potrebbero distribuire zip dei sorgenti su GitHub (magari sotto GPL, tanto poi CopyALot li suggerirà ai concorrenti di Microsoft stessa con una licenza permissiva e attribuzione ad mentula). L'importante è che l'abolizione dei cosiddetti "diritti di proprietà intellettuale" valga per chiunque passi un contenuto soggetto agli stessi attraverso un programma software. Se però questa abolizione non vale per i singoli esseri umani non deve valere neanche per le aziende. Perché nota bene: qui non siamo di fronte ad una primordiale intelligenza aliena cui potremmo anche decidere generosamente di fornire accesso alla nostra cultura. Qui siamo di fronte ad aziende che approfittano della straordinaria ignoranza informatica cui è costretta la stragrande maggioranza della popolazione per comportarsi da legibus soluti, violando per gli altri le stesse leggi che pretendono siano rispettate per sé. Mi spiace che tu ti sia bevuto la favoletta della "intelligenza artificiale". Non che sia colpa tua: la propaganda è potente e personalizzata. (soprattutto se usi GMail! ;-) Ma dentro un LLM non opera alcuna intelligenza, solo rappresentazioni vettoriali di testi attraversate lungo tracciati statisticamente probabili selezionati in modo (pseudo) casuale entro un errore accettabile... e tipicamente post-processati per scartare gli output politicamente (NON eticamente!) problematici e problematizzanti. Niente di più. Giacomo
caro Giacomo e cari tutti, mi congratulo con Giacomo per la chiarezza e profondità della sua riflessione. A Giacomo, e a lui soltanto perchè non è bello farsi belli con meriti altrui, invio il mio curriculum vitae secondo chatgpt, che mi attribuisce dieci anni di meno, un luogo di nascita dove non sono mai stato e moltissimi meriti scientifici che sono di almeno altri tre autori. Raf Meo ________________________________ From: nexa <nexa-bounces@server-nexa.polito.it> on behalf of Giacomo Tesio <giacomo@tesio.it> Sent: Friday, September 29, 2023 11:53 AM To: nexa@server-nexa.polito.it <nexa@server-nexa.polito.it>; Fabio Alemagna <falemagn@gmail.com>; Alberto Cammozzo <ac+nexa@zeromx.net> Cc: Nexa <nexa@server-nexa.polito.it> Subject: Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian Ciao Fabio, Il 29 Settembre 2023 08:24:57 UTC, Fabio Alemagna <falemagn@gmail.com> ha scritto:
L'idea che istruire un modello...
Purtroppo l'idea di "istruire" una macchina è di per sé un'allucinazione. Le macchine si costruiscono e (se sono programmabili) di programmano. Non c'è nessuna mente che possa imparare lì dentro, perché le macchine non pensano. Il fatto che possano essere programmate statisticamente per ingannare chi non ne comprende il funzionamento ci dice che il loro studio andrebbe riservato a chi lo comprende appieno (tanto da poterle ricostruire da zero) e la loro applicazione a persone inconsapevoli o fragili semplicemente vietato. Ciò che chiami "modello" non è stato istruito ma programmato statisticamente usando determinati testi "sorgente". Il "modello" rappresenta una codifica parziale (o se peferisci, una compressione con perdita di informazione) con interferenze (le varie sorgenti casuali utilizzate durante la programmazione statistica o durante l'esecuzione del programma e poi scartate per poter fingere che l'output non sia deterministico). Dunque il modello CONTIENE, seppur in forma difficile da estrarre e non necessariamente corrispondente all'intento comunicativo dei rispettivi autori, ampie parti dei testi originali. Un esempio particolarmente lampante di questo meccanismo fu evidenziato con Microsoft Copilot (aka CopyALot) che distribuì codice sotto GPL in violazione della stessa, copiando alla lettera il sorgente ma (guarda caso) attribuendogli una licenza permissiva ed un autore inesistente. Quel codice, distribuito attraverso l'editor per programmatori di Microsoft chiamato Visual Studio Code è stato riconosciuto perché particolarmente famoso, ma è inevitabile che analogje violazioni avvengano continuamente senza che nessuno se ne accorga. Violazioni particolarmente gravi perché il codice GPL viene poi incluso in prodotti proprietari.
cito le parole di un altro autore, Jeff Jarvis: https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5HMmeeVqg...
Il fatto che Facebook propini e diffonda le parole di autori felici che le proprie opere vengano sfruttate in questo modo e ricostruite secondo gli interessi propagandistici di questa o quella società statunitense, non significa molto. Piuttosto, evidenzia la scarsa consapevolezza del mezzo facebook (intermediario interessato e notoriamente senza scrupoli) di chi se le beve e le diffonde. Personalmente sarei felicissimo di scoprire che fare uno zip di windows o office è sufficiente a far decadere i diritti di Microsoft a su di esso. E scommetto che lo sarebbero anche molti suoi dipendenti, che potrebbero distribuire zip dei sorgenti su GitHub (magari sotto GPL, tanto poi CopyALot li suggerirà ai concorrenti di Microsoft stessa con una licenza permissiva e attribuzione ad mentula). L'importante è che l'abolizione dei cosiddetti "diritti di proprietà intellettuale" valga per chiunque passi un contenuto soggetto agli stessi attraverso un programma software. Se però questa abolizione non vale per i singoli esseri umani non deve valere neanche per le aziende. Perché nota bene: qui non siamo di fronte ad una primordiale intelligenza aliena cui potremmo anche decidere generosamente di fornire accesso alla nostra cultura. Qui siamo di fronte ad aziende che approfittano della straordinaria ignoranza informatica cui è costretta la stragrande maggioranza della popolazione per comportarsi da legibus soluti, violando per gli altri le stesse leggi che pretendono siano rispettate per sé. Mi spiace che tu ti sia bevuto la favoletta della "intelligenza artificiale". Non che sia colpa tua: la propaganda è potente e personalizzata. (soprattutto se usi GMail! ;-) Ma dentro un LLM non opera alcuna intelligenza, solo rappresentazioni vettoriali di testi attraversate lungo tracciati statisticamente probabili selezionati in modo (pseudo) casuale entro un errore accettabile... e tipicamente post-processati per scartare gli output politicamente (NON eticamente!) problematici e problematizzanti. Niente di più. Giacomo _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Non capisco il senso di questa risposta quando la questione è tecnica e riguarda l'applicazione delle norme sul diritto d'autore, la dicotomia idea/espressione e l'applicazione di potenziali eccezioni e limitazioni o usi privilegiati in base alla giurisdizione di riferimento. In principio, condivido la posizione di Fabio, poichè la teoria generale del diritto d'autore vorrebbe che si proteggessero espressioni e non dati o informazioni estratte per fini ulteriori e trasformativi. Mi rendo però poi anche conto delle complessità nell'applicare quel principio generale in diritto europeo. Ho pochi dubbi invece che la dottrina del "fair use" dovrebbe giustificare gli usi di contenuti protetti in processi di machine learning. I casi ora pendenti mi smentiranno probabilmente ma mi sembra che la posizione statunitense sia chiara dai tempi di Baker v Selden (1879). Sono però anche d'accordo che un qualche soluzione, forse endogena al diritto d'autore, dovrebbe essere proposta per evitare esternalità negative rilevanti, anche se forse solo nel breve-medio periodo, sul mercato della creatività. Ne parlo in maniera esaustiva qui (anche per rispondere alle molteplici domande che questo thread contiene): 'Generative AI in Court <https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4558865>' in Nikos Koutras and Niloufer Selvadurai (eds), Recreating Creativity, Reinventing Inventiveness - International Perspectives on AI and IP Governance (Routledge, Forthcoming) la proposta menzionata sopra invece è qui: 'Should We Ban Generative AI, Incentivise it or Make it a Medium for Inclusive Creativity? <https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4527461>' in Enrico Bonadio and Caterina Sganga (eds), A Research Agenda for EU Copyright Law (Edward Elgar, Forthcoming) Giancarlo PS Il dibattito circa l'antropomorfizzazione linguistica di quel che fa la macchina è ormai vecchio e stantio. Ci siano accordati nel dire che la macchina "genera" e viene "istruita" tramite processi di machine learning, anche perché ai fini del diritto d'autore chi istruisce potenzialmente usando contenuti protetti in violazione di privativa altrui è un agente umano, come poi definire l'effetto di tale processo di "istruzione" sulla macchina mi pare davvero irrilevante--e probabilmente pretestuoso--nel contesto di cui qui si discute. On Fri, Sep 29, 2023 at 10:53 AM Giacomo Tesio <giacomo@tesio.it> wrote:
Ciao Fabio,
Il 29 Settembre 2023 08:24:57 UTC, Fabio Alemagna <falemagn@gmail.com> ha scritto:
L'idea che istruire un modello...
Purtroppo l'idea di "istruire" una macchina è di per sé un'allucinazione.
Le macchine si costruiscono e (se sono programmabili) di programmano.
Non c'è nessuna mente che possa imparare lì dentro, perché le macchine non pensano.
Il fatto che possano essere programmate statisticamente per ingannare chi non ne comprende il funzionamento ci dice che il loro studio andrebbe riservato a chi lo comprende appieno (tanto da poterle ricostruire da zero) e la loro applicazione a persone inconsapevoli o fragili semplicemente vietato.
Ciò che chiami "modello" non è stato istruito ma programmato statisticamente usando determinati testi "sorgente".
Il "modello" rappresenta una codifica parziale (o se peferisci, una compressione con perdita di informazione) con interferenze (le varie sorgenti casuali utilizzate durante la programmazione statistica o durante l'esecuzione del programma e poi scartate per poter fingere che l'output non sia deterministico).
Dunque il modello CONTIENE, seppur in forma difficile da estrarre e non necessariamente corrispondente all'intento comunicativo dei rispettivi autori, ampie parti dei testi originali.
Un esempio particolarmente lampante di questo meccanismo fu evidenziato con Microsoft Copilot (aka CopyALot) che distribuì codice sotto GPL in violazione della stessa, copiando alla lettera il sorgente ma (guarda caso) attribuendogli una licenza permissiva ed un autore inesistente.
Quel codice, distribuito attraverso l'editor per programmatori di Microsoft chiamato Visual Studio Code è stato riconosciuto perché particolarmente famoso, ma è inevitabile che analogje violazioni avvengano continuamente senza che nessuno se ne accorga. Violazioni particolarmente gravi perché il codice GPL viene poi incluso in prodotti proprietari.
cito le parole di un altro autore, Jeff Jarvis:
https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5HMmeeVqg...
Il fatto che Facebook propini e diffonda le parole di autori felici che le proprie opere vengano sfruttate in questo modo e ricostruite secondo gli interessi propagandistici di questa o quella società statunitense, non significa molto.
Piuttosto, evidenzia la scarsa consapevolezza del mezzo facebook (intermediario interessato e notoriamente senza scrupoli) di chi se le beve e le diffonde.
Personalmente sarei felicissimo di scoprire che fare uno zip di windows o office è sufficiente a far decadere i diritti di Microsoft a su di esso.
E scommetto che lo sarebbero anche molti suoi dipendenti, che potrebbero distribuire zip dei sorgenti su GitHub (magari sotto GPL, tanto poi CopyALot li suggerirà ai concorrenti di Microsoft stessa con una licenza permissiva e attribuzione ad mentula).
L'importante è che l'abolizione dei cosiddetti "diritti di proprietà intellettuale" valga per chiunque passi un contenuto soggetto agli stessi attraverso un programma software.
Se però questa abolizione non vale per i singoli esseri umani non deve valere neanche per le aziende.
Perché nota bene: qui non siamo di fronte ad una primordiale intelligenza aliena cui potremmo anche decidere generosamente di fornire accesso alla nostra cultura.
Qui siamo di fronte ad aziende che approfittano della straordinaria ignoranza informatica cui è costretta la stragrande maggioranza della popolazione per comportarsi da legibus soluti, violando per gli altri le stesse leggi che pretendono siano rispettate per sé.
Mi spiace che tu ti sia bevuto la favoletta della "intelligenza artificiale". Non che sia colpa tua: la propaganda è potente e personalizzata. (soprattutto se usi GMail! ;-)
Ma dentro un LLM non opera alcuna intelligenza, solo rappresentazioni vettoriali di testi attraversate lungo tracciati statisticamente probabili selezionati in modo (pseudo) casuale entro un errore accettabile... e tipicamente post-processati per scartare gli output politicamente (NON eticamente!) problematici e problematizzanti.
Niente di più.
Giacomo _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Il 30 Settembre 2023 00:38:33 UTC, GC F <gcfrosio@gmail.com> ha scritto:
Non capisco il senso di questa risposta quando la questione è tecnica e riguarda l'applicazione delle norme...
La cosa, ahimé, non mi sorprende. La confusione fra norma e programma è "vecchia e stantia" e non sarà facile superarla visto l'investimento emotivo e sociale che milioni di giuristi vi hanno dedicato. Purtroppo in un sistema cibernetico in cui gli esseri unani costituiscono meno di un millesimo (e presto, un milionesimo) degli agenti attivi, vedere la propria rilevanza culturale e politica tranciata nel corso di pochi decenni (dopo millenni di status elevato) dev'essere molto frustrante, per chi ne acquisisca la piena consapevolezza. Presumere di poter prescindere dalla comprensione della realtà di cui si tratta, è un comprensibile rifugio. Le norme si applicano alle persone perché ontologicamente libere di sovvertirle (quandanche convinte della loro bontà o di essere inermi contro chi le impone). La loro imposizione segue costi lineari e crescenti, parte dei quali è costituita dai redditi di avvocati, magistrati e forze dell'ordine. I programmi vengono eseguiti rigorosamente da macchine deterministiche ontologicamente incapaci di qualsiasi autonomia. Per potergli attribuire intelligenza dobbiamo ridefinire il concetto di "intelligenza" per prescindere dalla nostra stessa esperienza della stessa. La loro imposizione alla società cibernetica segue costi decrescenti con la loro diffusione, parte dei quali è costituita dai redditi di chi ne cura il marketing iniziale e dei lobbisti che a vari livelli ne assicurano la penetrazione nei punti chiave della società. Dovrebbe essere facile intuire perché, in assenza di consapevolezza diffusa, i nostri discendenti vivranno nella peggiore e più duratura distopia della storia. Una distopia in cui saranno ridotti a meno di bestiame: ingranaggi sostituibili di macchine che non comprendono controllate dai pochissimi che lo fanno. Ma si sa, la dissonanza cognitiva fa brutti scherzi. Torniamo pure però alle quisquiglie su cui ti sei focalizzato:
sul diritto d'autore, la dicotomia idea/espressione e l'applicazione di potenziali eccezioni e limitazioni o usi privilegiati in base alla giurisdizione di riferimento.
La domanda di Fabio fonda su presupposti errati, che andavano segnalati. L'appropriazione di biada per allevare gli unicorni, costituisce reato? Prima di lanciarsi in disquisizioni accademiche sulla fattispecie del furto di biada, una persona caritatevole dovrebbe segnalare l'inesistenza degli unicorni. Soprattutto qualora ci siano noti ladri di biada che si giustificano con la ricerca sull'allevamento degli unicorni e moltissime persone (fra cui anche alcuni contadini) che se la bevono sulla base delle proprie fantasie infantili! Per non parlare dei politici (spesso giuristi, mai informatici) che, non avendo imparato nulla dalla fiaba di Andersen sui vestiti nuovi dell'imperatore, fanno a gara a lodare l'intelligenza delle macchine come all'epoca avrebbero lodato la fattura dei vestiti. Solo per non sembrare stupidi! Una volta chiarito che i LLM non sono nulla di più che grossi e complessi archivi dei testi utilizzati per programmarli statisticamente, dovrebbe apparire evidente la loro natura di opera derivata da tali testi anche a chi non bastasse l'evidenza che ne sputano fuori ampi estratti (seppur talvolta corrotti dal rumore necessario a confondere l'utente sulla natura del giocattolo elettromeccanico che sta usando). Insomma, una volta chiarito che i LLM non sono altro che antologie dei testi originali, il contributo dell'informatico finisce per lasciar decidere ai giuristi se chi realizza antologie di testi autoriali prive di attribuzioni (o, come nel caso di GitHub CopyALot con attribuzioni e licenze errate) sia vincolato dal diritto d'autore o meno. In particolare, personalmente, sarei curioso di sapere a che punto i diritti inalienabili dell'autore (quelli che nel diritto europeo l'autore non può cedere) possono essere alienati automaticamente tramite un software. Perché sapendo scrivere software, sarei ben felice di liberarmi anch'io di questa noiosa seccatura legale.. ;-)
In principio, condivido la posizione di Fabio, poichè la teoria generale del diritto d'autore vorrebbe che si proteggessero espressioni e non dati o informazioni
Ahimé, questa frase evidenzia un'enorme confusione terminologica. Le informazioni sono esperienze soggettive di pensiero comunicabile. I dati sono rappresentazioni trasferibili ed interpretabili di informazioni. Quando tali dati sono emessi da una persona indipendentemente dalla propria volontà, proteggiamo i "dati personali". Quando tali dati sono espressi volontariamente da una persona come opera creativa, proteggiamo il suo "diritto d'autore". Quando tali dati sono espressi volontariamente da una persona nel tentativo di comunicare la propria opinione, proteggiamo la libertà d'espressione. Tali distinzioni emergono chiaramente anche nel diritto seppur non sempre in modo coerente. Ad esempio, l'articolo 19 della Dichiarazione dei Diritti Umani distingue la libertà di opinione (che attiene alle informazioni che costituiscono la mente dell'individuo) dalla libertà di espressione (che riguarda i dati che es-primono tali informazioni) Dunque il diritto d'autore protegge una paricolare categoria di dati. Si tratta di una normativa pre-cibernetica, e dunque inevitabilmente messa in crisi dall'informatica. Purtuttavia, come spesso accade, una piena comprensione della realtà cui la norma si applica permette di interpretarla in modo attinente alla sua ratio. Purtroppo è vero anche il contrario: una scarsa comprensione della realtà cui una normativa si applica conduce inevitabilmente alla violazione della sua ratio e dei principi su cui la norma si basa.
Ho pochi dubbi invece che la dottrina del "fair use" dovrebbe giustificare gli usi di contenuti protetti in processi di machine learning.
Beh... in tal caso credo che potresti aiutare i giudici statunitensi che in questi anni sono stati molro attenti ad evitare di esprimersi a riguardo. Se non hai dubbi, potresti chiarire i loro!
Sono però anche d'accordo che un qualche soluzione, forse endogena al diritto d'autore, dovrebbe essere proposta per evitare esternalità negative rilevanti, anche se forse solo nel breve-medio periodo, sul mercato della creatività.
Ohibò: non è blasfemo evocare un deus ex-machina sul mercato? :-D
Ne parlo in maniera esaustiva qui (anche per rispondere alle molteplici domande che questo thread contiene):
'Generative AI in Court <https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4558865>' in Nikos Koutras and Niloufer Selvadurai (eds), Recreating Creativity, Reinventing Inventiveness - International Perspectives on AI and IP Governance (Routledge, Forthcoming)
Il fatto che una rivista autorevole pubblichi un articolo dove si inizia con "In the age of burgeoning AI-driven creativity" e "This product of 'Generative AI' is a testament to AI's creative capabilities." credo evidenzi diversi problemi culturali e politici di quest'epoca. Anzitutto nei processi di selezione dei testi da pubblicare: se questo è l'esito del processo di peer review, appare quanto meno comprensibile la ricerca di alternativa (per quanto ingenua, autolesionista e tecnosoluzionista, quando suggerisce di affidarla a strumenti software che non farebbero che esacerbare le sue storture) Poi nella formazione dei giuristi che trattano questa materia: è urgente introdurre corsi di programmazione avanzata nei corsi di laurea in giurisprudenza, corredati da tirocini pluriennali in grado di fornire un esperienza diretta ed approfondita della realtà di cui si occuperanno. A valle un una decina di anni di debug e programmazione NESSUNO attribuirebbe (in buona fede) "creatività" ad un software. Un articolo scritto dallo stesso autore a valle di una tale formazione, potrebbe forse iniziare con "In the age of statistical programming and software-aided art..." e continuare "This output is a testament to human capabilities in the selection, extraction and reproduction of patterns from all kind of data, and from particular from the creative works of artists". In altri termini, un framework interpretativo attinente alla realtà tecnica (invece che alla propaganda interessata di un pugno di produttori) avrebbe spazzato via diverse delle "unprecedented challenges" "the intersection of technology and copyright law". Attenzione: la sfida senza precedenti rimane! Ma non concerne l'applicabilità delle norme sul copyright bensì l'applicabilità della Legge a chi controlla la stragrande maggioranza degli agenti cibernetici attivi nella società, da parte di Stati privi degli strumenti culturali ancor prima che legali per resisterne al potere.
la proposta menzionata sopra invece è qui:
'Should We Ban Generative AI, Incentivise it or Make it a Medium for Inclusive Creativity? <https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4527461>' in Enrico Bonadio and Caterina Sganga (eds), A Research Agenda for EU Copyright Law (Edward Elgar, Forthcoming)
Vedi, il problema sta di nuovo nelle assunzioni preliminari tecnicamente infondate. Ad esempio perché chiedersi "should we impose a complete prohibition on this technology or contemplate a temporary pause in its development? " e "what is the most effective way to create a regulatory framework to oversee its application?" invece di chiedersi più semplicemente "Why the Hell should we NOT treat LLMs as derivative works of the works they derive from?" Lo stesso bisogno di leggi ad hoc per queste quisquiglie economiche svanirebbe, per permetterci di concentrarci sulle norme necessarie a ridurre e contenere il potere di chi li realizza e mantiene in funzione.
PS Il dibattito circa l'antropomorfizzazione linguistica di quel che fa la macchina è ormai vecchio e stantio.
ROFTL ! ! ! :-D Ma se è appena cominciato!
Ci siano accordati nel dire che la macchina "genera" e viene "istruita" tramite processi di machine learning,
Ehm... non so da quanto ti occupi della materia ma queste tecniche di programmazione statistica hanno cambiato nome diverse volte negli ultimi venti anni. Ricerca Operativa, Data Mining, Business Intelligence, Artificial Intelligence, Machine Learning... La ciccia è più o meno sempre la stessa. Cambia sostanzialmente solo la disponibilità di potenza di calcolo e dati da elaborre. Tuttavia MAI la loro denominazione è stata oggetto di un dibattito pubblico informato: si è sempre trattato di buzzword commerciali, sostituite quando perdevano di efficacia... o sparandola più grossa o riesumando evergreen. Chi non ne capisce il funzionamento se le beve, gli altri se la ridono (o ne approfittano). Dunque non ci siamo affatto "messi d'accordo". Il fatto che tu lo creda è un'altro effetto dell'egemonia culturale di chi controlla il dibattito in merito (controllo individuale e collettivo). Spero dunque di averti chiarito il senso della mia risposta. Un invito ad uno studio approfondito dell'informatica e della sua storia per non soccombere alle sirene commerciali, pur tenendo loro testa come Ulisse. A presto! Giacomo
Incredibile..."non capisco il senso di questa rsposta" era una affermazione retorica per evidenziarne la pretestuosità, non una richiesta di chiarimenti. Lei ha seri problemi di comprensione delle logiche e meccaniche del linguaggio. La Sua convinzione di comprendere tutto più di altri che dedicano anni di studio a certe tematiche rasenta la follia...tanto quanto i suoi deliri tecnocratici. Giancarlo Sent from Outlook for Android<https://aka.ms/AAb9ysg> ________________________________ From: Giacomo Tesio <giacomo@tesio.it> Sent: Saturday, September 30, 2023 11:37:36 AM To: nexa@server-nexa.polito.it <nexa@server-nexa.polito.it>; GC F <gcfrosio@gmail.com> Subject: Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian Il 30 Settembre 2023 00:38:33 UTC, GC F <gcfrosio@gmail.com> ha scritto:
Non capisco il senso di questa risposta quando la questione è tecnica e riguarda l'applicazione delle norme...
La cosa, ahimé, non mi sorprende. La confusione fra norma e programma è "vecchia e stantia" e non sarà facile superarla visto l'investimento emotivo e sociale che milioni di giuristi vi hanno dedicato. Purtroppo in un sistema cibernetico in cui gli esseri unani costituiscono meno di un millesimo (e presto, un milionesimo) degli agenti attivi, vedere la propria rilevanza culturale e politica tranciata nel corso di pochi decenni (dopo millenni di status elevato) dev'essere molto frustrante, per chi ne acquisisca la piena consapevolezza. Presumere di poter prescindere dalla comprensione della realtà di cui si tratta, è un comprensibile rifugio. Le norme si applicano alle persone perché ontologicamente libere di sovvertirle (quandanche convinte della loro bontà o di essere inermi contro chi le impone). La loro imposizione segue costi lineari e crescenti, parte dei quali è costituita dai redditi di avvocati, magistrati e forze dell'ordine. I programmi vengono eseguiti rigorosamente da macchine deterministiche ontologicamente incapaci di qualsiasi autonomia. Per potergli attribuire intelligenza dobbiamo ridefinire il concetto di "intelligenza" per prescindere dalla nostra stessa esperienza della stessa. La loro imposizione alla società cibernetica segue costi decrescenti con la loro diffusione, parte dei quali è costituita dai redditi di chi ne cura il marketing iniziale e dei lobbisti che a vari livelli ne assicurano la penetrazione nei punti chiave della società. Dovrebbe essere facile intuire perché, in assenza di consapevolezza diffusa, i nostri discendenti vivranno nella peggiore e più duratura distopia della storia. Una distopia in cui saranno ridotti a meno di bestiame: ingranaggi sostituibili di macchine che non comprendono controllate dai pochissimi che lo fanno. Ma si sa, la dissonanza cognitiva fa brutti scherzi. Torniamo pure però alle quisquiglie su cui ti sei focalizzato:
sul diritto d'autore, la dicotomia idea/espressione e l'applicazione di potenziali eccezioni e limitazioni o usi privilegiati in base alla giurisdizione di riferimento.
La domanda di Fabio fonda su presupposti errati, che andavano segnalati. L'appropriazione di biada per allevare gli unicorni, costituisce reato? Prima di lanciarsi in disquisizioni accademiche sulla fattispecie del furto di biada, una persona caritatevole dovrebbe segnalare l'inesistenza degli unicorni. Soprattutto qualora ci siano noti ladri di biada che si giustificano con la ricerca sull'allevamento degli unicorni e moltissime persone (fra cui anche alcuni contadini) che se la bevono sulla base delle proprie fantasie infantili! Per non parlare dei politici (spesso giuristi, mai informatici) che, non avendo imparato nulla dalla fiaba di Andersen sui vestiti nuovi dell'imperatore, fanno a gara a lodare l'intelligenza delle macchine come all'epoca avrebbero lodato la fattura dei vestiti. Solo per non sembrare stupidi! Una volta chiarito che i LLM non sono nulla di più che grossi e complessi archivi dei testi utilizzati per programmarli statisticamente, dovrebbe apparire evidente la loro natura di opera derivata da tali testi anche a chi non bastasse l'evidenza che ne sputano fuori ampi estratti (seppur talvolta corrotti dal rumore necessario a confondere l'utente sulla natura del giocattolo elettromeccanico che sta usando). Insomma, una volta chiarito che i LLM non sono altro che antologie dei testi originali, il contributo dell'informatico finisce per lasciar decidere ai giuristi se chi realizza antologie di testi autoriali prive di attribuzioni (o, come nel caso di GitHub CopyALot con attribuzioni e licenze errate) sia vincolato dal diritto d'autore o meno. In particolare, personalmente, sarei curioso di sapere a che punto i diritti inalienabili dell'autore (quelli che nel diritto europeo l'autore non può cedere) possono essere alienati automaticamente tramite un software. Perché sapendo scrivere software, sarei ben felice di liberarmi anch'io di questa noiosa seccatura legale.. ;-)
In principio, condivido la posizione di Fabio, poichè la teoria generale del diritto d'autore vorrebbe che si proteggessero espressioni e non dati o informazioni
Ahimé, questa frase evidenzia un'enorme confusione terminologica. Le informazioni sono esperienze soggettive di pensiero comunicabile. I dati sono rappresentazioni trasferibili ed interpretabili di informazioni. Quando tali dati sono emessi da una persona indipendentemente dalla propria volontà, proteggiamo i "dati personali". Quando tali dati sono espressi volontariamente da una persona come opera creativa, proteggiamo il suo "diritto d'autore". Quando tali dati sono espressi volontariamente da una persona nel tentativo di comunicare la propria opinione, proteggiamo la libertà d'espressione. Tali distinzioni emergono chiaramente anche nel diritto seppur non sempre in modo coerente. Ad esempio, l'articolo 19 della Dichiarazione dei Diritti Umani distingue la libertà di opinione (che attiene alle informazioni che costituiscono la mente dell'individuo) dalla libertà di espressione (che riguarda i dati che es-primono tali informazioni) Dunque il diritto d'autore protegge una paricolare categoria di dati. Si tratta di una normativa pre-cibernetica, e dunque inevitabilmente messa in crisi dall'informatica. Purtuttavia, come spesso accade, una piena comprensione della realtà cui la norma si applica permette di interpretarla in modo attinente alla sua ratio. Purtroppo è vero anche il contrario: una scarsa comprensione della realtà cui una normativa si applica conduce inevitabilmente alla violazione della sua ratio e dei principi su cui la norma si basa.
Ho pochi dubbi invece che la dottrina del "fair use" dovrebbe giustificare gli usi di contenuti protetti in processi di machine learning.
Beh... in tal caso credo che potresti aiutare i giudici statunitensi che in questi anni sono stati molro attenti ad evitare di esprimersi a riguardo. Se non hai dubbi, potresti chiarire i loro!
Sono però anche d'accordo che un qualche soluzione, forse endogena al diritto d'autore, dovrebbe essere proposta per evitare esternalità negative rilevanti, anche se forse solo nel breve-medio periodo, sul mercato della creatività.
Ohibò: non è blasfemo evocare un deus ex-machina sul mercato? :-D
Ne parlo in maniera esaustiva qui (anche per rispondere alle molteplici domande che questo thread contiene):
'Generative AI in Court <https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4558865>' in Nikos Koutras and Niloufer Selvadurai (eds), Recreating Creativity, Reinventing Inventiveness - International Perspectives on AI and IP Governance (Routledge, Forthcoming)
Il fatto che una rivista autorevole pubblichi un articolo dove si inizia con "In the age of burgeoning AI-driven creativity" e "This product of 'Generative AI' is a testament to AI's creative capabilities." credo evidenzi diversi problemi culturali e politici di quest'epoca. Anzitutto nei processi di selezione dei testi da pubblicare: se questo è l'esito del processo di peer review, appare quanto meno comprensibile la ricerca di alternativa (per quanto ingenua, autolesionista e tecnosoluzionista, quando suggerisce di affidarla a strumenti software che non farebbero che esacerbare le sue storture) Poi nella formazione dei giuristi che trattano questa materia: è urgente introdurre corsi di programmazione avanzata nei corsi di laurea in giurisprudenza, corredati da tirocini pluriennali in grado di fornire un esperienza diretta ed approfondita della realtà di cui si occuperanno. A valle un una decina di anni di debug e programmazione NESSUNO attribuirebbe (in buona fede) "creatività" ad un software. Un articolo scritto dallo stesso autore a valle di una tale formazione, potrebbe forse iniziare con "In the age of statistical programming and software-aided art..." e continuare "This output is a testament to human capabilities in the selection, extraction and reproduction of patterns from all kind of data, and from particular from the creative works of artists". In altri termini, un framework interpretativo attinente alla realtà tecnica (invece che alla propaganda interessata di un pugno di produttori) avrebbe spazzato via diverse delle "unprecedented challenges" "the intersection of technology and copyright law". Attenzione: la sfida senza precedenti rimane! Ma non concerne l'applicabilità delle norme sul copyright bensì l'applicabilità della Legge a chi controlla la stragrande maggioranza degli agenti cibernetici attivi nella società, da parte di Stati privi degli strumenti culturali ancor prima che legali per resisterne al potere.
la proposta menzionata sopra invece è qui:
'Should We Ban Generative AI, Incentivise it or Make it a Medium for Inclusive Creativity? <https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4527461>' in Enrico Bonadio and Caterina Sganga (eds), A Research Agenda for EU Copyright Law (Edward Elgar, Forthcoming)
Vedi, il problema sta di nuovo nelle assunzioni preliminari tecnicamente infondate. Ad esempio perché chiedersi "should we impose a complete prohibition on this technology or contemplate a temporary pause in its development? " e "what is the most effective way to create a regulatory framework to oversee its application?" invece di chiedersi più semplicemente "Why the Hell should we NOT treat LLMs as derivative works of the works they derive from?" Lo stesso bisogno di leggi ad hoc per queste quisquiglie economiche svanirebbe, per permetterci di concentrarci sulle norme necessarie a ridurre e contenere il potere di chi li realizza e mantiene in funzione.
PS Il dibattito circa l'antropomorfizzazione linguistica di quel che fa la macchina è ormai vecchio e stantio.
ROFTL ! ! ! :-D Ma se è appena cominciato!
Ci siano accordati nel dire che la macchina "genera" e viene "istruita" tramite processi di machine learning,
Ehm... non so da quanto ti occupi della materia ma queste tecniche di programmazione statistica hanno cambiato nome diverse volte negli ultimi venti anni. Ricerca Operativa, Data Mining, Business Intelligence, Artificial Intelligence, Machine Learning... La ciccia è più o meno sempre la stessa. Cambia sostanzialmente solo la disponibilità di potenza di calcolo e dati da elaborre. Tuttavia MAI la loro denominazione è stata oggetto di un dibattito pubblico informato: si è sempre trattato di buzzword commerciali, sostituite quando perdevano di efficacia... o sparandola più grossa o riesumando evergreen. Chi non ne capisce il funzionamento se le beve, gli altri se la ridono (o ne approfittano). Dunque non ci siamo affatto "messi d'accordo". Il fatto che tu lo creda è un'altro effetto dell'egemonia culturale di chi controlla il dibattito in merito (controllo individuale e collettivo). Spero dunque di averti chiarito il senso della mia risposta. Un invito ad uno studio approfondito dell'informatica e della sua storia per non soccombere alle sirene commerciali, pur tenendo loro testa come Ulisse. A presto! Giacomo
Buongiorno, mi permetto di aggiungere un po' si sale :-) Premetto che "in soldoni" sono perfettamente d'accordo che l'utilizzo GC F <gcfrosio@gmail.com> writes:
Non capisco il senso di questa risposta
Il senso è che il copyright è una "brutta bestia", lo dimostra il fatto che per poter "accomodare" software _e_ (banche) dati negli ultimi 40 anni, giuristi e legislatori hanno dovuto usare la mazza, più che il fioretto [...]
In principio, condivido la posizione di Fabio, poichè la teoria generale del diritto d'autore vorrebbe che si proteggessero espressioni e non dati o informazioni estratte per fini ulteriori e trasformativi. Mi rendo però poi anche conto delle complessità nell'applicare quel principio generale in diritto europeo.
Domanda da un _miliardo_ di EUR: perché è così complesso applicare quel principio generale nel diritto europeo? Non è, per caso, che il diritto europeo è stato "accomodato" con la mazza per accontentare chi, attraverso il diritto d'autore, ha voluto e **ottenuto** abusi di posizione dominante che una più attenta applicazione della "teoria generale del diritto d'autore" avrebbe _dovuto_ evitare?
Ho pochi dubbi invece che la dottrina del "fair use" dovrebbe giustificare gli usi di contenuti protetti in processi di machine learning.
Oh Sant'iGNUzio mi è testimone di quanto io desideri ardentemente che si scopra anche solo per UN processo di machine learnig è stato violato UN DRM!!! :-D
Sono però anche d'accordo che un qualche soluzione, forse endogena al diritto d'autore, dovrebbe essere proposta per evitare esternalità negative rilevanti, anche se forse solo nel breve-medio periodo, sul mercato della creatività.
Mi spiace ma più passa il tempo più è del tutto evidente che del diritto d'autore non si può salvare _quasi_ nulla, temo che "adeguarlo" o riformarlo sia solo prolungarne la lenta agonia, anche perché - insisto - l'ultimo adeguamento del diritto d'autore è di natura *esonega* e ci ha regalato quella perla del male nota come DRM.
Ne parlo in maniera esaustiva qui (anche per rispondere alle molteplici domande che questo thread contiene):
Grazie! [...] Saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Ciao Giacomo, Giacomo Tesio <giacomo@tesio.it> writes: [...]
Ciò che chiami "modello" non è stato istruito ma programmato statisticamente usando determinati testi "sorgente".
questo è un concetto _fondamentale_ e anche ampiamente condiviso da qutti gli addetti ai lavori, il fatto che anche qui se ne discuta anche fin troppo dipende solo dalla *confusione* proveniente dal "ambiente esterno" :-O in più, direi che tra colleghi di questa lista ogni tanto possiamo anche perdonarci qualche imprecisione terminologica poi, per stabilire se l'utilizzo di qualsiasi testo (tutti i testi sono tutelati da copyright, anche il pubblico dominio *è* copyright) come input per l'elaborazione di modelli costituisca di per sè violazione o meno del copyright non è importante sapere se il modello è programmato statisticamente o meno
Il "modello" rappresenta una codifica parziale (o se peferisci, una compressione con perdita di informazione) con interferenze (le varie sorgenti casuali utilizzate durante la programmazione statistica o durante l'esecuzione del programma e poi scartate per poter fingere che l'output non sia deterministico).
esatto: una (ri)codifica con _rielaborazione_ della **forma** del testo qui non siamo nemmeno nel c.d. fair use (riproduzione parziale ai fini didattici, parodistici, bla bla...), siamo nella rielaborazone della **forma**, che è l'unica cosa protetta dal copyright: non sono protette le idee, non la semantica (che l'AI non sa nemmeno cos'è) e nemmeno la sintassi
Dunque il modello CONTIENE, seppur in forma difficile da estrarre e non necessariamente corrispondente all'intento comunicativo dei rispettivi autori, ampie parti dei testi originali.
ecco: qui proprio non capisco quello che vuoi dire stai dicendo che quelle parti di testo, che sono espresse in /forma/ difficilmente estraibile, sarebbero plagio (ampie parti dei testi originali)?
Un esempio particolarmente lampante di questo meccanismo fu evidenziato con Microsoft Copilot (aka CopyALot) che distribuì codice sotto GPL in violazione della stessa, copiando alla lettera il sorgente ma (guarda caso) attribuendogli una licenza permissiva ed un autore inesistente.
già, ma come ha fatto CopyALot, **se** è un LLM, a riprodurre alla lettera il sorgente? Microsofoft bara o, trattandosi di software, a precisa domanda l'LLM non ha potuto fare altro che fornire precisa risposta nell'unica **forma** /ricavata/ dal suo modello, perché il "conosce" solo quella precisa forma di "risposta" che risponde perfettamente alla "domanda"? ma a ben pansarci: che importa /come/ abbia fatto CopyALot a sputare fuori quel codice con attribuzione sbagliata? Se io avessi cercato quel codice con altri criteri, male interpretando l'attribuzione, cosa sarebbe cambiato? Sono _io_ a essere responsabile di eventuale violazione (e per questo ci vuole un processo _di_merito_). il problema, come ho detto in altre occasioni, è che /ogni/ fornitore di servizi che usano LLM per sputare scemate a pseudo-caso in output, scrive in piccolo e con un linguaggio che a volte supera quello delle clausole vessatorie che non si prende la responsabilità dell'adeguatezza del testo, _nemmeno_ in merito alla sua legalità: è _la_persona_ che usa l'output che si prende la responsabilità di /decidere/ in merito alla sua adeguatezza, _anche_ legale, in funzione di come lo vuole utilizzare. ...certo, Microsoft e compagnia cantante dovrebbero scrivere 'sta cosa su **ogni** output (watermarking, quel che l'è)... ieri, non domani [...]
Violazioni particolarmente gravi perché il codice GPL viene poi incluso in prodotti proprietari.
se permetti, sono stracavolacci di quelli che copia-incollano l'output da CopyALot, non ho verificato ma scommetto un fiorino che è pure scritto chiaramente nelle condizioni di utilizzo del servizio [...]
Personalmente sarei felicissimo di scoprire che fare uno zip di windows o office è sufficiente a far decadere i diritti di Microsoft a su di esso.
ovviamente no... ma meno male che nessuno ha mai pensato di accusare il software zip di violare il diritto d'autore per via di quello che "zippa" :-D [...]
Ma dentro un LLM non opera alcuna intelligenza, solo rappresentazioni vettoriali di testi attraversate lungo tracciati statisticamente probabili selezionati in modo (pseudo) casuale entro un errore accettabile...
quale sarebbe la violazione del diritto d'autore, se non c'è plagio *e* chi usa quei testi per usarli in una elaborazione ha *pagato* "i libri"? [...] saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Ciao 380, Il 30 Settembre 2023 14:03:23 UTC, "380°" <g380@biscuolo.net> ha scritto:
in direi che tra colleghi di questa lista ogni tanto possiamo anche perdonarci qualche imprecisione terminologica
Naturalmente! Ma di fronte a termini ambigui ed evocativi che impediscono ai più di comprendere la natura di ciò di cui stiamo parlando, credo che sia doveroso fare chiarezza.
Dunque il modello CONTIENE, seppur in forma difficile da estrarre e non necessariamente corrispondente all'intento comunicativo dei rispettivi autori, ampie parti dei testi originali.
ecco: qui proprio non capisco quello che vuoi dire
stai dicendo che quelle parti di testo, che sono espresse in /forma/ difficilmente estraibile, sarebbero plagio (ampie parti dei testi originali)?
Se siano plagio o semplicemente opere derivata create e distribuite senza il permesso dell'autore è una valutazione giuridica che non so fare. Sto semplicemente dicendo che quei testi sono in gran parte presenti nel LLM seppure codificati con perdita di informazione. Una similitudine tecnicamente più attinente di uno zip sarebbe un jpeg o un mp3, ma non volevo confondere ulteriormente il mio interlocutore.
Un esempio particolarmente lampante di questo meccanismo fu evidenziato con Microsoft Copilot (aka CopyALot) che distribuì codice sotto GPL in violazione della stessa, copiando alla lettera il sorgente ma (guarda caso) attribuendogli una licenza permissiva ed un autore inesistente.
già, ma come ha fatto CopyALot, **se** è un LLM, a riprodurre alla lettera il sorgente?
I ricercatori di Microsoft scrissero che lo faceva per "rompere il ghiaccio" in presenza di poche informazioni sulle esigenze dell'utente. Comunque non si tratta di barare in questo caso: si tratta solo di probabilità. Qualche volta CopyALot restituirà lo stesso codice, altre volte rimpiazzerà alcuni identificativi con l'equivalente di uno string replace. Ripeto, a me può anche stare bene purché io possa nello stesso modo disassemblare Microsoft Windows o Microsoft Office e distribuirne il codice sotto GPL, magari attribuendolo a Mickey Mouse. Non sono contrario alla abolizione delle varie forme di "proprietà intellettuale", voglio solo sia esplicita e valga per tutti. Ma finché non posso usare come mi piace il codice di Microsoft, Microsoft non deve usare come le pare il mio.
Violazioni particolarmente gravi perché il codice GPL viene poi incluso in prodotti proprietari.
se permetti, sono stracavolacci di quelli che copia-incollano l'output da CopyALot, non ho verificato ma scommetto un fiorino che è pure scritto chiaramente nelle condizioni di utilizzo del servizio
No 380: se io voglio riservare alla collettività un mio pezzo di codice utilizzando una licenza copyleft (metti la AGPL) e Microsoft lo distribuisce senza attribuzione e con licenza sbagliata, buttandolo in mezzo ad un software proprietario di un proprio cliente pagante, se permetti "sono stracavolacci" miei. Subisco un danno morale ed economico. E quel che è peggio, non ho alcun modo di individuare precisamente quanto grave sia questo danno morale, ovvero in quanti software proprietari che aborro il mio lavoro sia stato inserito. La responsabilità del programmatore che riceve il mio codice da CopyALot viene dopo: prima Microsoft ha realizzato un opera derivata dal mio codice (il "modello" di Copilot) che distribuisce il mio codice senza permesso quando deve "rompere il ghiaccio".
quale sarebbe la violazione del diritto d'autore, se non c'è plagio *e* chi usa quei testi per usarli in una elaborazione ha *pagato* "i libri"?
Anche ne avesse comprate un milione di copie, non avrebbe alcun diritto di creare opere derivate. Quanti testi CC-BY ND sono stati usati da OpenAI per programmare statisticamente ChatGPT? Quanti CC-BY SA? IMHO ha violato e sta violando entrambe le licenze. E quel che è peggio è che sta violando i diritti morali degli autori. Giacomo
Buongiorno Giacomo, Giacomo Tesio <giacomo@tesio.it> writes: [...]
stai dicendo che quelle parti di testo, che sono espresse in /forma/ difficilmente estraibile, sarebbero plagio (ampie parti dei testi originali)?
Se siano plagio o semplicemente opere derivata create e distribuite senza il permesso dell'autore è una valutazione giuridica che non so fare.
Io invece /credo/ di saperla fare (voglio l'Orso d'oro in faccia tosta) sulla base di quello che osservo e mi pare non ci sia nessuna delle fattispecie che indichi ...solo un processo potrà dirlo
Sto semplicemente dicendo che quei testi sono in gran parte presenti nel LLM seppure codificati con perdita di informazione.
OK, su cosa succede tecnicamente, ovvero sul tipo di elaborazione e immagazzinamento dei testi _elaborari_, credo sia tutto sufficientemente chiaro.
Una similitudine tecnicamente più attinente di uno zip sarebbe un jpeg o un mp3, ma non volevo confondere ulteriormente il mio interlocutore.
Ottimo, vedo che tecnicamente siamo allineati :-) [...]
Ripeto, a me può anche stare bene purché io possa nello stesso modo disassemblare Microsoft Windows o Microsoft Office e distribuirne il codice sotto GPL,
Ma Giacomo! Non solo /tu/ puoi farlo, è *già* stato fatto ed è perfettamente lagale nonostante quello che "si dice in giro"; la tecnica si chiama "binary reverse engineering" [1]. Chissà se un giorno qualcuno avrà il coraggio di programmare un sistema di machine learning, magari basato su bLLM (binary large language model) per aiutare i ricercatori ad applicare quella tecnica :-O
magari attribuendolo a Mickey Mouse.
Ha beccato proprio il nome *perfetto* per attirare l'attenzione del Censore Intergalattico, Topo Gigio darebbe meno nell'occhio :-D
Non sono contrario alla abolizione delle varie forme di "proprietà intellettuale",
Non dovresti usare quella bestemmia! ...ma ti perdono :-)
voglio solo sia esplicita e valga per tutti.
Ma finché non posso usare come mi piace il codice di Microsoft, Microsoft non deve usare come le pare il mio.
Se tu potessi leggere il codice sorgente di qualsiasi software proprietario senza essere costretto a firmare un NDA, lo potresti _rielaborare_ *anche* usando lo stesso linguaggio di programmazione e distribuire quel codice rielaborato: sono *certo* che tu e almeno altre decine di migliaia di bravi programmatori sareste in grado di modificarne la forma espressiva in modo tale che non risulti manco come opera derivata. ...per tutto il resto c'è il binary reverse engineering (che costa troppa fatica!)
Violazioni particolarmente gravi perché il codice GPL viene poi incluso in prodotti proprietari.
se permetti, sono stracavolacci di quelli che copia-incollano l'output da CopyALot, non ho verificato ma scommetto un fiorino che è pure scritto chiaramente nelle condizioni di utilizzo del servizio
No 380: se io voglio riservare alla collettività un mio pezzo di codice utilizzando una licenza copyleft (metti la AGPL) e Microsoft lo distribuisce senza attribuzione e con licenza sbagliata, buttandolo in mezzo ad un software proprietario di un proprio cliente pagante, se permetti "sono stracavolacci" miei.
Subisco un danno morale ed economico.
Sì ma solo se il cliente pagante spegne il cervello e usa pedissequamente l'output del servizio di turno
E quel che è peggio, non ho alcun modo di individuare precisamente quanto grave sia questo danno morale, ovvero in quanti software proprietari che aborro il mio lavoro sia stato inserito.
La responsabilità del programmatore che riceve il mio codice da CopyALot viene dopo: prima Microsoft ha realizzato un opera derivata dal mio codice (il "modello" di Copilot) che distribuisce il mio codice senza permesso quando deve "rompere il ghiaccio".
quale sarebbe la violazione del diritto d'autore, se non c'è plagio *e* chi usa quei testi per usarli in una elaborazione ha *pagato* "i libri"?
Anche ne avesse comprate un milione di copie, non avrebbe alcun diritto di creare opere derivate.
Quanti testi CC-BY ND sono stati usati da OpenAI per programmare statisticamente ChatGPT?
Quanti CC-BY SA?
IMHO ha violato e sta violando entrambe le licenze.
E quel che è peggio è che sta violando i diritti morali degli autori.
Giacomo
[1] https://en.wikipedia.org/wiki/Reverse_engineering#Binary_software -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Sto semplicemente dicendo che quei testi sono in gran parte presenti nel LLM seppure codificati con perdita di informazione. ... OK, su cosa succede tecnicamente, ovvero sul tipo di elaborazione e immagazzinamento dei testi _elaborari_, credo sia tutto sufficientemente chiaro.
No, aspettate, forse mi sono perso qualche puntata precedente. I testi non sono per nulla presenti nell'LLM, neanche in forma "compressa". Il "model" non è altro che un enorme contenitore di "numeri". Nel caso di GPT3-175B, 175 miliardi di numeri, fine. Questi numeri si chiamano "pesi" ma sempre numeri sono. Provo con qualche esempio. Prompt: Quante lune ha Giove? La prima operazione che fa un LLM è la tokenizzazione, nel caso dell'esempio: Token array: Array ( [Qu] => 4507 [ante] => 12427 [Ġl] => 300 [une] => 1726 [Ġha] => 387 [ĠGi] => 8118 [ove] => 659 [?] => 30 ) Il dizionario usato da OpenAI è pubblico e contiene 50257 token, quindi i numeri qui sopra sono quelli che realmente entrano nel processo di "inferenza" di ChatGPT. Quello che ChatGPT fa non è altro che aggiungere UN numero a quella sequenza (ovviamente sulla base di migliaia di calcoli che non sto qui a dettagliare). Il numero trovato (su una versione mininale di ChatGPT) è 33704. ChatGPT prende questo numero e lo accoda a 30, e così via ... Alla fine, la sequenza completa di ChatGPT sarà: 33704, 659, 387, 334, 2108, 498, 434, 68, 9225, 300, 1726, 1013, 7780, 378, che "detokenizzato", diventa: "Giove ha ufficialmente 79 lune confermate". Ciao, Antonio
Il giorno lun 2 ott 2023 alle ore 12:58 Antonio <antonio@piumarossa.it> ha scritto:
Sto semplicemente dicendo che quei testi sono in gran parte presenti nel LLM seppure codificati con perdita di informazione. ... OK, su cosa succede tecnicamente, ovvero sul tipo di elaborazione e immagazzinamento dei testi _elaborari_, credo sia tutto sufficientemente chiaro.
No, aspettate, forse mi sono perso qualche puntata precedente. I testi non sono per nulla presenti nell'LLM, neanche in forma "compressa". Il "model" non è altro che un enorme contenitore di "numeri". Nel caso di GPT3-175B, 175 miliardi di numeri, fine. Questi numeri si chiamano "pesi" ma sempre numeri sono.
Ho atteso che qualcun altro intervenisse prima di me, perché avevo paura di infilarmi in discussioni controproducenti con le solite persone in questa lista, e ti ringrazio, quindi, di aver sottolineato un fatto fondamentale. A me pare che si sia sviluppato un certo "credo" tra gli avventori di questa lista, che si disinteressa completamente dello stato dell'arte e delle definizioni su cui c'è consenso, e finisce con il creare dogmi inscalfibili ai quali o si aderisce, o ci si becca papelli scritti con toni misti tra l'evangelizzazione e il perculamento. Se si vuole sostenere che il processo trasformativo attraverso il quale, partendo da dei testi o delle immagini, si finisce con il generare una serie di pesi all'interno di una rete neurale, è una forma di compressione, allora bisogna sostenere che lo stesso avviene durante l'apprendimento umano: gli umani nient'altro fanno, quando apprendono, che formare nuove connessioni neurali, che i pesi nelle reti neurali sono volti a simulare. La cosa interessante è che c'è una scuola di pensiero per la quale in effetti sì, l'apprendimento in senso lato, incluso quello umano, è una sorta di compressione dei dati. Pertanto, a me pare evidente che ogni tentativo si qui messo in atto da alcuni altri avventori della lista di "denigrare" l'apprendimento dei modelli di machine learning, fino a sostenere che non si tratta di "vero" apprendimento, in realtà finisce con l'inciampare sui suoi stessi antropocentrici piedi. Fabio
Buongiorno Fabio, Fabio Alemagna <falemagn@gmail.com> writes: [...]
A me pare che si sia sviluppato un certo "credo" tra gli avventori di questa lista,
Tu di che "credo" sei?
che si disinteressa completamente dello stato dell'arte e delle definizioni su cui c'è consenso, e finisce con il creare dogmi inscalfibili ai quali o si aderisce, o ci si becca papelli scritti con toni misti tra l'evangelizzazione e il perculamento.
Se si vuole sostenere che il processo trasformativo attraverso il quale, partendo da dei testi o delle immagini, si finisce con il generare una serie di pesi all'interno di una rete neurale, è una forma di compressione, allora bisogna sostenere che lo stesso avviene durante l'apprendimento umano
Non vorrei suonare evangelizzatore e men che meno perculante, ma non c'era bisogno di fare ulteriore confuZione con questo fuorviante parallelo. Che il processo di machine learning, in generale e non solo per le reti neurali, sia una forma di compressione è descritto (anche) in questo saggio: «The Nooscope Manifested - AI as Instrument of Knowledge Extractivism» By Vladan Joler and Matteo Pasquinelli (2020) --8<---------------cut here---------------start------------->8--- This is unsurprising, since machine learning algorithms are the most powerful algorithms for information compression. [...] The problem of bias has mostly originated from the fact that machine learning algorithms are among the most efficient for information compression, which engenders issues of information resolution, diffraction and loss. [Footnote: Computer scientists argue that AI belongs to a subfield of signal processing, that is data compression.] --8<---------------cut here---------------end--------------->8--- Sottolineo «subfield of signal processing» Tra l'altro, nel saggio in questione ci sono anche molti riferimenti a ricerche di terzi. Se questo è un "credo", ti sarei grato se mi indicassi qualche saggio dello stesso livello attraverso il quale io possa avere la possibilità di /ricredermi/. Infine, nella tua foga di dimostrare che si tratti di un "credo", non ti sei nemmeno accorto (anzi sì ma hai sorvolato, secondo me) che quello che ha sommariamente descritto Antonio è _precisamente_ un algoritmo di compressione dell'informazione. [...]
Pertanto, a me pare evidente che ogni tentativo si qui messo in atto da alcuni altri avventori della lista di "denigrare" l'apprendimento dei modelli di machine learning, fino a sostenere che non si tratta di "vero" apprendimento, in realtà finisce con l'inciampare sui suoi stessi antropocentrici piedi.
Invece, a me pare evidente che ogni tentativo di sostenere che il processo di machine learning sia del tutto analogo al processo di apprendimento umano - cioè che l'apprendimento umano è (anche) una forma di *compressione* dell'informazione del tutto analoga a quella usata nel machine learning, ovvero la riduzione dell'uomo a /automa/ - corrisponda più o meno a perculare quello che in questa lista e _fuori_ da questa lista molte persone informate sui fatti sostengono da molti anni; uno tra i moltissimi, a caso: Joseph Weizenbaum. Così è, a _me_ /pare/. [...] Cordiali saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
forma di compressione, allora bisogna sostenere che lo stesso avviene durante l'apprendimento umano: gli umani nient'altro fanno, quando apprendono, che formare nuove connessioni neurali, che i pesi nelle reti neurali sono volti a simulare.
beh, non proprio. questa e' una schematizzazione di meta' del secolo scorso, AFAIK un amico fisico e neurologo mi diceva che, semplificando, ogni singolo neurone si potrebbe interpretare come un computer analogico; anche il meccanismo con cui intervengono i gangli della base e lo striato sono ancora ignoti, AFAIK. "oltre i pesi c'e' di piu'..." (semicit. J. Squillo) :-)
Ciao Antonio! Antonio <antonio@piumarossa.it> writes:
Sto semplicemente dicendo che quei testi sono in gran parte presenti nel LLM seppure codificati con perdita di informazione. ... OK, su cosa succede tecnicamente, ovvero sul tipo di elaborazione e immagazzinamento dei testi _elaborari_, credo sia tutto sufficientemente chiaro.
No, aspettate, forse mi sono perso qualche puntata precedente.
No no, è solo che io ho eccessivamente semplificato... in effetti si tratta di semplicità insormontabili [1]
I testi non sono per nulla presenti nell'LLM, neanche in forma "compressa".
[...]
La prima operazione che fa un LLM è la tokenizzazione, nel caso dell'esempio:
[...]
Il numero trovato (su una versione mininale di ChatGPT) è 33704. ChatGPT prende questo numero e lo accoda a 30, e così via ... Alla fine, la sequenza completa di ChatGPT sarà: 33704,
non 8118? :-) (non è fondamentale, eh!)
659, 387, 334, 2108, 498, 434, 68, 9225, 300, 1726, 1013, 7780, 378, che "detokenizzato", diventa: "Giove ha ufficialmente 79 lune confermate".
Grazie di aver esemplificato il processo di "(de)tokeinizzazione" così efficacemente, potrei obiettare il fatto che per "detokenizzare" la corrispondenza tra numeri e testo (ovvero il testo elaborato in forma di array o matrice) è memorizzato no? ...ma non cambierebbe di molto la sostanza della descrizione di cosa succede "dentro" un LLM Ciao, 380° [1] https://it.wikipedia.org/wiki/Semplicit%C3%A0_insormontabili_-_39_storie_fil... -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
non 8118? :-) (non è fondamentale, eh!)
[Gi] => 33704 [ĠGi] => 8118 Nel dizionario di GPT, lo spazio è identificato con: [Ġ] Nella domanda: "Quante lune ha Giove?", il token è [spazio]Gi, quindi [ĠGi], quindi 8118. Nella risposta: "Giove ha ...", non c'è nessuno spazio prima di [Gi], quindi [Gi] ha un'altra posizione, 33704 A.
Il 02/10/23 12:58, Antonio ha scritto:
[...] No, aspettate, forse mi sono perso qualche puntata precedente. I testi non sono per nulla presenti nell'LLM, neanche in forma "compressa". Il "model" non è altro che un enorme contenitore di "numeri". Nel caso di GPT3-175B, 175 miliardi di numeri, fine. Questi numeri si chiamano "pesi" ma sempre numeri sono. Provo con qualche esempio.
Prompt: Quante lune ha Giove? La prima operazione che fa un LLM è la tokenizzazione, nel caso dell'esempio: Token array: Array ( [Qu] => 4507 [ante] => 12427 [Ġl] => 300 [une] => 1726 [Ġha] => 387 [ĠGi] => 8118 [ove] => 659 [?] => 30 )
Il dizionario usato da OpenAI è pubblico e contiene 50257 token, quindi i numeri qui sopra sono quelli che realmente entrano nel processo di "inferenza" di ChatGPT.
Quello che ChatGPT fa non è altro che aggiungere UN numero a quella sequenza (ovviamente sulla base di migliaia di calcoli che non sto qui a dettagliare). Il numero trovato (su una versione mininale di ChatGPT) è 33704. ChatGPT prende questo numero e lo accoda a 30, e così via ... Alla fine, la sequenza completa di ChatGPT sarà: 33704, 659, 387, 334, 2108, 498, 434, 68, 9225, 300, 1726, 1013, 7780, 378, che "detokenizzato", diventa: "Giove ha ufficialmente 79 lune confermate".
Nell'ipotesi che i non-addetti ai lavori (o anche quegli "addetti" che --come me-- sono ignoranti in materia) vogliano cercare di approfondire il funzionamento degli LLM... segnalo che finora la migliore spiegazione che ho trovato, non-tecnicissima, è quella circolata in lista lo scorso 16/09, da Luigi Scorca - https://server-nexa.polito.it/pipermail/nexa/2023-September/051521.html: Nella sua mail, Luigi segnalava questo link: https://ig.ft.com/generative-ai/ che, fra tutto quello che ho letto e visto finora, in giro, on-line (e off-line), ritengo sia la migliore presentazione al riguardo. Raro esempio di utilizzo di un sito web nel pieno delle sue potenzialita', e non semplicemente la trasposizione di un foglio di carta... Saluti, DV -- Damiano Verzulli e-mail:damiano@verzulli.it --- possible?ok:while(!possible){open_mindedness++} --- "...I realized that free software would not generate the kind of income that was needed. Maybe in USA or Europe, you may be able to get a well paying job as a free software developer, but not here [in Africa]..." -- Guido Sohne - 1973-2008 http://ole.kenic.or.ke/pipermail/skunkworks/2008-April/005989.html
Concordo Damiano, Il giorno Mon, 2 Oct 2023 13:43:35 +0200 Damiano Verzulli ha scritto:
Nella sua mail, Luigi segnalava questo link:
https://ig.ft.com/generative-ai/
che, fra tutto quello che ho letto e visto finora, in giro, on-line (e off-line), ritengo sia la migliore presentazione al riguardo.
è sicuramente un buon testo divulgativo su come può funzionare un LLM a runtime. Mancano purtroppo alcuni dettagli rilevanti che, oltre ad essere complessi da rappresentare, avrebbero definitivamente abbattuto qualsiasi parvenza di intelligenza. Primo fra tutti, l'utilizzo di sorgenti casuali (o pseudo-casuali) per selezionare di volta in volta percorsi diversi fra quelli più probabilmente vicini al vettore in input. Tali sorgenti (pseudo?)casuali arricchiscono l'input dell'utente facendo sì che il LLM possa fornire output diversi a fronte dello stesso input fornito dall'utente stesso dandogli l'illusione di comunicare con un essere intelligente ed autonomo. Fra i limiti di quella presentazione c'è anche la totale assenza di qualsiasi spiegazione sul processo di programmazione statistica necessario alla creazione di quel software o sui suoi componenti. Anche qui la complessità della materia giustifica la sua assenza. Purtroppo ciò non aiuta a comprendere la natura del LLM come opera inevitabilmente derivata dai testi usati per la sua programmazione statistica. O l'influenza delle sorgenti casuali nelle fasi di inizializzazione di alcuni suoi componenti e l'arbitrio che questa influenza fornisce ai programmatori. Può forse aiutare in questo senso considerare come il disegno delle parole sulla pagina non costituisca il lavoro dello scrittore. L'opera creativa dello scrittore consiste proprio nella scelta della relazione fra le parole nella sequenza che costituisce il testo, relazione funzionale all'interpretazione che l'autore spera di indurre nel lettore. Il linguaggio infatti non è altro che un protocollo di sincronizzazione fra le menti umane adeguatamente efficace (a seconda del contesto): non ci scambiamo informazioni, ma dati che una volta interpretati riproducono (più o meno) nella mente del ricevente l'informazione che il mittente intendeva comunicare. Il diritto d'autore riconosce (pur intuitivamente) questa dinamica: la traduzione di un romanzo è ancora sottoposta ai diritti dell'autore originale cui si aggiungono quelli del traduttore. Quando l'opera dello scrittore viene usata per programmare statisticamente un LLM questa relazione fra le parole viene salvata dentro le matrici numeriche del LLM a prescindere dal proprio significato. Ad ogni prompt, il LLM percorre questa intricata foresta statistica di parole, percorrendo più spesso le strade più battute ma usando le sorgenti randomiche per non ripetere sempre pedissequamente la più frequente per ingannare la mente dell'utente evolutasi in un ambiente in cui determinate sequenza di simboli avevano un significato impresso da un altro mittente umano. Purtuttavia, se la traduzione di un testo è sottoposta al diritto dell'autore originale, allo stesso modo un LLM dovrebbe essere sottoposto al diritto d'autore di tutti gli autori originali. Giacomo
Ehm... no Antonio: anzitutto non è così semplice. Ogni token può rappresentare anche più di una parola, non solo dei frammenti di parola. Poi ogni ad ogni token il dizionario associa non un singolo numero, ma un vettore sparso i cui componenti non zero rappresentano (semplificando enormemente) statistiche relative alle occorrenze di altri token in diversi contesti. Ma soprattutto, la mappatura fra le parole e i vettori è bidirezionale. Sempre semplificando enormemente alla sequenza di 4 parole A B C D corrisponde una matrice di 4 righe tipo [0 123 0 14 ...], [41 0 0 0 ...], [0 0 0 18 ...], [0 0 99 0 ...] Questa matrice viene ridotta ad un nuovo vettore [0 2 7 0 ...] che corrisponde ad un'altra parola, che verrà accodata all'output ed utilizzata anche come input. In qualunque caso, i vettori associati a ciascun token sono rappresentazioni dei percorsi presenti nei testi sorgente: è sempre possibile (pur essendo più o meno probabile a seconda di molte variabili runtime) percorrere quei vettori riproducendo il testo utilizzato in input (magari con qualche errore). Naturalmente è tutto MOLTO più compresso di così. Ma ciò non toglie che, poiché esiste sempre una mappatura fra vettore e parola e l'output è calcolato sulla base della frequenza con cui si ogni token si trovava in relazione con gli altri token nei testi sorgente, i testi sono presenti nel LLM. Si tratta di un'algoritmo di compressione lossy, ma pur tuttavia talvolta la "decompressione" di determinati frammenti riproduce verbatim frammenti più o meno vasti del testo originale (e ancor più frequentemente, piccole variazioni sintattiche dello stesso, ad esempio cambiando gli identificatori di un sorgente Python, senza cambiarne in alcun modo la semantica) Ma non fidarti delle mie parole, guarda con i tuoi occhi: https://peertube.opencloud.lu/w/eW497u3UYXmQwcQu9LYEDR Giacomo Il giorno Mon, 2 Oct 2023 12:58:25 +0200 Antonio <antonio@piumarossa.it> ha scritto:
Sto semplicemente dicendo che quei testi sono in gran parte presenti nel LLM seppure codificati con perdita di informazione. ... OK, su cosa succede tecnicamente, ovvero sul tipo di elaborazione e immagazzinamento dei testi _elaborari_, credo sia tutto sufficientemente chiaro.
No, aspettate, forse mi sono perso qualche puntata precedente. I testi non sono per nulla presenti nell'LLM, neanche in forma "compressa". Il "model" non è altro che un enorme contenitore di "numeri". Nel caso di GPT3-175B, 175 miliardi di numeri, fine. Questi numeri si chiamano "pesi" ma sempre numeri sono. Provo con qualche esempio.
Prompt: Quante lune ha Giove? La prima operazione che fa un LLM è la tokenizzazione, nel caso dell'esempio: Token array: Array ( [Qu] => 4507 [ante] => 12427 [Ġl] => 300 [une] => 1726 [Ġha] => 387 [ĠGi] => 8118 [ove] => 659 [?] => 30 )
Il dizionario usato da OpenAI è pubblico e contiene 50257 token, quindi i numeri qui sopra sono quelli che realmente entrano nel processo di "inferenza" di ChatGPT.
Quello che ChatGPT fa non è altro che aggiungere UN numero a quella sequenza (ovviamente sulla base di migliaia di calcoli che non sto qui a dettagliare). Il numero trovato (su una versione mininale di ChatGPT) è 33704. ChatGPT prende questo numero e lo accoda a 30, e così via ... Alla fine, la sequenza completa di ChatGPT sarà: 33704, 659, 387, 334, 2108, 498, 434, 68, 9225, 300, 1726, 1013, 7780, 378, che "detokenizzato", diventa: "Giove ha ufficialmente 79 lune confermate".
Ciao, Antonio
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Ogni token può rappresentare anche più di una parola
No, i token sono fissi e possono (oppure no) iniziare con lo spazio. Quindi non ci possono essere token con lo spazio in mezzo, ovvero formati da più di una parola. La grandezza del vocabolario di GPT[1-3] è 50256 token, quella di LLaMA di 32000, GPT4 ha 100256 token [1], ecc. A meno che non intendiamo cose diverse ;) A. [1] https://github.com/kaisugi/gpt4_vocab_list/blob/main/cl100k_base_vocab_list....
Sicuro sicuro? :-D Il 2 Ottobre 2023 14:50:55 UTC, Antonio ha scritto:
Ogni token può rappresentare anche più di una parola
No, i token sono fissi e possono (oppure no) iniziare con lo spazio. Quindi non ci possono essere token con lo spazio in mezzo, ovvero formati da più di una parola.
L'insieme dei token è fisso a valle del processo di programmazione statistica ma è determinato durante tale processo. [1] La dimensione del token può variare a seconda del processo di tokenizzazione (variando di conseguenza i diversi grafi di frequenze relative individuate nei testi "sorgente") La tokenizzazione MWU (multi words unit) è più recente e meno usata, ma parlando in generale di LLM invece di una specifica implementazione non vedo perché ignorarla. Trovi una buona introduzione al riguardo qui https://journals.openedition.org/lexis/6231 D'altronde se ci pensi qualsiasi LLM programmato su sorgenti software potrebbe ragionevolmente trattare keyword costituite da sequenze di caratteri contenenti spazi come singolo token. È il caso, ad esempio, di POINTER TO o ARRAY OF in Oberon-07. A presto! Giacomo [1] potenzialmente, nulla vieta di modificare i vettori associati ai token disponibili a posteriori, ad esempio sulla base degli input forniti dagli utenti, per dare l'impressione che il software "impari".
Buongiorno Giacomo, chiedo scusa ma il messaggio precedente è partito per errore, riperto da dove mi ero auto-interrotto Giacomo Tesio <giacomo@tesio.it> writes: [...]
No 380: se io voglio riservare alla collettività un mio pezzo di codice utilizzando una licenza copyleft (metti la AGPL) e Microsoft lo distribuisce senza attribuzione e con licenza sbagliata, buttandolo in mezzo ad un software proprietario di un proprio cliente pagante, se permetti "sono stracavolacci" miei.
Subisco un danno morale ed economico.
Sì ma solo se il cliente pagante spegne il cervello e usa pedissequamente l'output del servizio di turno. ...il tutto poi deve essere dimostrato in tribunale, compresa l'esatta stima del danno economico. Mi spiace Giacomo, ma la disciplina (reazionaria) del copyright è proprio lo strumento più sbagliato di tutti i tempi per poter anche solo tentare di risolvere /altri/ problemi... e non è "benaltrismo" il mio.
E quel che è peggio, non ho alcun modo di individuare precisamente quanto grave sia questo danno morale, ovvero in quanti software proprietari che aborro il mio lavoro sia stato inserito.
Sì, purtroppo il codice binario è una brutta bestia... chissà se con l'aiuto di una "AI" appositamente "ammaestrata" potrebbe essere più facile rilevare "pattern" binari che sono chari indicatori di scopiazzamento...
La responsabilità del programmatore che riceve il mio codice da CopyALot viene dopo: prima Microsoft ha realizzato un opera derivata dal mio codice (il "modello" di Copilot) che distribuisce il mio codice senza permesso quando deve "rompere il ghiaccio".
Ammetto di non aver letto le condizioni scritte in piccolo di CopyALot, ma per favore non ignorare la mia scommessa da un fiorino ;-) [...]
Anche ne avesse comprate un milione di copie, non avrebbe alcun diritto di creare opere derivate.
Già solo il concetto di "opera derivata" è... _problematico_, figuruamoci poi sul software. Mi spiace ma, dopo lunga e attenta analisi, comincio ad /intuire/ che il copyright è un boschetto fatato della nostra fantasia collettiva dove ci sono quattro vitelli... Follow the white rabbit... (https://server-nexa.polito.it/pipermail/nexa/2023-September/051674.html Message-id: 87bkdjis53.fsf@xelera.eu) [...] Ciao, 380° [1] https://en.wikipedia.org/wiki/Reverse_engineering#Binary_software -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Buongiorno lista,
L'idea che istruire un modello su dei testi coperti da copyright sia una violazione del suddetto copyright è altamente opinabile
Fin qui, ho l'impressione che tutti i legali in lista concorderanno.
ragionamento è in realtà abbastanza semplice: se istruirsi su un testo ne violasse il copyright, saremmo tutti dei criminali.
Ma siccome noi siamo umani e quello che produciamo non è - salvo i discorsi dei politici(*) - ontologicamente identico alla produzione di esseri tecnici non viventi, logica vuole che quanto si applica a noi non possa applicarsi a un LLM, tanto quanto la legge sul copyright non si applica pedissequamente all'utilizzo di testi umani per creare modelli linguistici. Questo è il motivo per il quale tutti i tentativi di "proteggere via copyright" il prodotto di software generativi sono falliti miseramente, e con motivazioni scritte in sentenze; che per il diritto credo abbiano un peso assai maggiore del sito di CC. La mia impressione è che la questione terrà impegnati legali, informatici, filosofi e società ancora moooooolto a lungo. SBB (*) Come sanno bene i bambini degli anni '80 che hanno giocato con questo spassoso giocattolo: https://www.enricodalbosco.it/giochi/tubolario/ Di quei testi
non c'è fisicamente traccia all'interno dei modelli, non viene copiato niente. I modelli sono un'opera trasformativa di quei testi, non derivativa.
Lo argomenta molto bene Creative Commons: https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/
Detto questo, cito le parole di un altro autore, Jeff Jarvis: https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5HMmeeVqg...
«I, for one, am not complaining about my books being in in large language model training sets. I write to enter ideas into public discourse. I prefer informed over ignorant AI. I believe it is fair use for anyone to read & use books for transformative work. In fact, I'd probably feel snubbed if my books were not there. I'm happy when they are in libraries. I'm fine that they're here.»
Fabio
Il giorno ven 29 set 2023 alle ore 07:52 Alberto Cammozzo via nexa nexa@server-nexa.polito.it ha scritto:
https://www.theguardian.com/australia-news/2023/sep/28/australian-books-trai...
Thousands of books from some of Australia’s most celebrated authors have potentially been caught up in what Booker prize-winning novelist Richard Flanagan has called “the biggest act of copyright theft in history”.
The works have allegedly been pirated by the US-based Books3 dataset and used to train generative AI for corporations such as Meta and Bloomberg.
Flanagan, who found 10 of his works, including the multi-international award-winning 2013 novel The Narrow Road to the Deep North, on the Books3 dataset, told Guardian Australia he was deeply shocked by the discovery made several days ago.
“I felt as if my soul had been strip mined and I was powerless to stop it,” he said in a statement.
“This is the biggest act of copyright theft in history.”
AI could ‘turbo-charge fraud’ and be monopolised by tech companies, Andrew Leigh warns
The Australian Publishers Association confirmed to Guardian Australia on Wednesday that as many as 18,000 fiction and nonfiction titles with Australian ISBNs (unique international standard book numbers) appeared to be affected by the copyright infringement, although it is not yet clear what proportion of these are Australian editions of internationally authored books.
“We’re still working through [the data] to work out the impact in terms of Australian authors,” APA spokesperson Stuart Glover said.
“This is a massive legal and ethical challenge for the publishing industry and for authors globally.”
A search tool published on Monday by US media platform The Atlantic and uploaded by the US Authors Guild on Wednesday revealed the works of Peter Carey, Helen Garner, Kate Grenville, Anna Funder, Christos Tsiolkas and Thomas Keneally, as well as Flanagan and dozens of other high-profile Australian authors, were included in the pirated dataset containing more than 180,000 titles.
On Thursday, the Australian Society of Authors issued a statement saying it was “horrified” to learn that the works of Australian writers were being used to train artificial intelligence without permission from the authors.
ASA chief executive, Olivia Lanchester, described the Books3 dataset as piracy on an industrial scale.
“Authors appropriately feel outraged,” Lanchester said. “The fact is this technology relies upon books, journals, essays written by authors, yet permission was not sought nor compensation granted.”
Lanchester said the Australian literary industry, while not objecting per se to emerging technologies such as AI, was deeply concerned about the lack of transparency evident in the development and monetisation of AI by global tech companies.
“Turning a blind eye to the legitimate rights of copyright owners threatens to diminish already precarious creative careers,” she said.
“The enrichment of a few powerful companies is at the cost of thousands of individual creators. This is not how a fair market functions.”
Josephine Johnston, chief executive of Australia’s Copyright Agency, described the Books3 development as “a free kick to big tech” at the expense of Australia’s creative and cultural life.
“We’re going to need greater transparency – how these tools have been developed, trained, how they operate – before people can truly understand what their legal rights might be,” she said.
“We seem to be in this terrible position now where content owners – remembering that the vast majority of them will be individual authors – may actually have to take out court cases to enforce their rights.”
Australian copyright law protects creators of original content from data scraping.
Litigation in the US against ChatGPT creator OpenAI over use of allegedly pirated book datasets, Books1 and Books2 (which do not appear to be affiliated with Books3) has already commenced.
In July, North American horror/fantasy writers Mona Awad (author of Bunny) and Paul Tremblay (author of The Cabin at the End of the World) filed a lawsuit in a San Francisco federal court, alleging ChatGPT unlawfully digested their books as part of its AI training data.
On 28 August, OpenAI filed a motion to dismiss the lawsuit, arguing that the authors “misconceive the scope of copyright, failing to take into account the limitations and exceptions (including fair use) that properly leave room for innovations like the large language models now at the forefront of artificial intelligence”.
On 19 September the Writers Guild and 17 of its members, including bestselling novelists John Grisham, George RR Martin and Jodi Picoult, filed a complaint in a New York district court against OpenAI, seeking redress for “flagrant and harmful infringements” of guild members’ registered copyrights.
In a statement on its website, the guild says while it is aware that companies such as Meta and Bloomberg have used the Books3 dataset to train their LLMs, it is not yet clear whether OpenAI is using Books3 to train its ChatGPT models GPT 3.5 or GPT 4.
Democracies face ‘truth decay’ as AI blurs fact and fiction, warns head of Australia’s military
Guardian Australia has sought comment from OpenAI, which has yet to officially respond to the guild’s complaint, and Meta.
On 4 September, US technology magazine Wired reported that a Danish anti-piracy group called Rights Alliance had been told by Bloomberg that the company did not plan to train future versions of its BloombergGPT using Books3.
Bloomberg declined to respond to the Guardian’s queries.
The APA said the global nature of the issue would present significant challenges in enforcement and prosecution, and has joined the authors’ society in calling for AI technologies to be regulated.
Consultation closed last month for a Department of Industry, Science and Resources discussion paper on supporting responsible AI.
A parliamentary inquiry is under way examining the use of generative artificial intelligence in the Australian education system.
Flanagan said it was up to the Australian government to act to protect Australia’s writers.
“It has power and we do not,” he said.
“If it cares for our culture it must now stand up and fight for it.”
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Ho una domanda per i giuristi (anzi, piu' di una) per allenare un modello, ho bisogno di un file con la versione digitale di un testo. (cosnsidero ovviamente testi non PD, CC0, ecc.) la versione digitale di un testo la posso ottenere da un ebook (gia' digitale), togliendo il probabile DRM. ma un ebook non e' unbene ma e' un servizio soggetto a licenza d'uso, quindi se non e' prevista nella licenza d'uso la facolta' di estrarre il testo digitale per allenarci un modello, mi sembra che ci sia gia' una violazione della licenza, per cui, credo, non possa essere usato come base di un allenamento, tanto piu' se il fine di tale allenamento e' commerciale (se vendo un servizio basato su quel modello). se e' cosi', per allenare il mio modello devo allora prednere il testo digitale facendo scan/ocr di un testo cartaceo. ma cio' e' possibile, se non erro, solo per uso personale e non commerciale. se questo e' corretto, non mi pare ci sia un modo per prendere un testo digitale senza infrangere una licenza d'uso/copyright dove e' la fallacia del ragionamento ? grazie, s. On 29/09/23 15:00, Stefano Borroni Barale wrote:
Buongiorno lista,
L'idea che istruire un modello su dei testi coperti da copyright sia una violazione del suddetto copyright è altamente opinabile
Fin qui, ho l'impressione che tutti i legali in lista concorderanno.
ragionamento è in realtà abbastanza semplice: se istruirsi su un testo ne violasse il copyright, saremmo tutti dei criminali.
Ma siccome noi siamo umani e quello che produciamo non è - salvo i discorsi dei politici(*) - ontologicamente identico alla produzione di esseri tecnici non viventi, logica vuole che quanto si applica a noi non possa applicarsi a un LLM, tanto quanto la legge sul copyright non si applica pedissequamente all'utilizzo di testi umani per creare modelli linguistici.
Questo è il motivo per il quale tutti i tentativi di "proteggere via copyright" il prodotto di software generativi sono falliti miseramente, e con motivazioni scritte in sentenze; che per il diritto credo abbiano un peso assai maggiore del sito di CC.
La mia impressione è che la questione terrà impegnati legali, informatici, filosofi e società ancora moooooolto a lungo. SBB
(*) Come sanno bene i bambini degli anni '80 che hanno giocato con questo spassoso giocattolo: https://www.enricodalbosco.it/giochi/tubolario/
Di quei testi
non c'è fisicamente traccia all'interno dei modelli, non viene copiato niente. I modelli sono un'opera trasformativa di quei testi, non derivativa.
Lo argomenta molto bene Creative Commons: https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/
Detto questo, cito le parole di un altro autore, Jeff Jarvis: https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5HMmeeVqg...
«I, for one, am not complaining about my books being in in large language model training sets. I write to enter ideas into public discourse. I prefer informed over ignorant AI. I believe it is fair use for anyone to read & use books for transformative work. In fact, I'd probably feel snubbed if my books were not there. I'm happy when they are in libraries. I'm fine that they're here.»
Fabio
Il giorno ven 29 set 2023 alle ore 07:52 Alberto Cammozzo via nexa nexa@server-nexa.polito.it ha scritto:
https://www.theguardian.com/australia-news/2023/sep/28/australian-books-trai...
Thousands of books from some of Australia’s most celebrated authors have potentially been caught up in what Booker prize-winning novelist Richard Flanagan has called “the biggest act of copyright theft in history”.
The works have allegedly been pirated by the US-based Books3 dataset and used to train generative AI for corporations such as Meta and Bloomberg.
Flanagan, who found 10 of his works, including the multi-international award-winning 2013 novel The Narrow Road to the Deep North, on the Books3 dataset, told Guardian Australia he was deeply shocked by the discovery made several days ago.
“I felt as if my soul had been strip mined and I was powerless to stop it,” he said in a statement.
“This is the biggest act of copyright theft in history.”
AI could ‘turbo-charge fraud’ and be monopolised by tech companies, Andrew Leigh warns
The Australian Publishers Association confirmed to Guardian Australia on Wednesday that as many as 18,000 fiction and nonfiction titles with Australian ISBNs (unique international standard book numbers) appeared to be affected by the copyright infringement, although it is not yet clear what proportion of these are Australian editions of internationally authored books.
“We’re still working through [the data] to work out the impact in terms of Australian authors,” APA spokesperson Stuart Glover said.
“This is a massive legal and ethical challenge for the publishing industry and for authors globally.”
A search tool published on Monday by US media platform The Atlantic and uploaded by the US Authors Guild on Wednesday revealed the works of Peter Carey, Helen Garner, Kate Grenville, Anna Funder, Christos Tsiolkas and Thomas Keneally, as well as Flanagan and dozens of other high-profile Australian authors, were included in the pirated dataset containing more than 180,000 titles.
On Thursday, the Australian Society of Authors issued a statement saying it was “horrified” to learn that the works of Australian writers were being used to train artificial intelligence without permission from the authors.
ASA chief executive, Olivia Lanchester, described the Books3 dataset as piracy on an industrial scale.
“Authors appropriately feel outraged,” Lanchester said. “The fact is this technology relies upon books, journals, essays written by authors, yet permission was not sought nor compensation granted.”
Lanchester said the Australian literary industry, while not objecting per se to emerging technologies such as AI, was deeply concerned about the lack of transparency evident in the development and monetisation of AI by global tech companies.
“Turning a blind eye to the legitimate rights of copyright owners threatens to diminish already precarious creative careers,” she said.
“The enrichment of a few powerful companies is at the cost of thousands of individual creators. This is not how a fair market functions.”
Josephine Johnston, chief executive of Australia’s Copyright Agency, described the Books3 development as “a free kick to big tech” at the expense of Australia’s creative and cultural life.
“We’re going to need greater transparency – how these tools have been developed, trained, how they operate – before people can truly understand what their legal rights might be,” she said.
“We seem to be in this terrible position now where content owners – remembering that the vast majority of them will be individual authors – may actually have to take out court cases to enforce their rights.”
Australian copyright law protects creators of original content from data scraping.
Litigation in the US against ChatGPT creator OpenAI over use of allegedly pirated book datasets, Books1 and Books2 (which do not appear to be affiliated with Books3) has already commenced.
In July, North American horror/fantasy writers Mona Awad (author of Bunny) and Paul Tremblay (author of The Cabin at the End of the World) filed a lawsuit in a San Francisco federal court, alleging ChatGPT unlawfully digested their books as part of its AI training data.
On 28 August, OpenAI filed a motion to dismiss the lawsuit, arguing that the authors “misconceive the scope of copyright, failing to take into account the limitations and exceptions (including fair use) that properly leave room for innovations like the large language models now at the forefront of artificial intelligence”.
On 19 September the Writers Guild and 17 of its members, including bestselling novelists John Grisham, George RR Martin and Jodi Picoult, filed a complaint in a New York district court against OpenAI, seeking redress for “flagrant and harmful infringements” of guild members’ registered copyrights.
In a statement on its website, the guild says while it is aware that companies such as Meta and Bloomberg have used the Books3 dataset to train their LLMs, it is not yet clear whether OpenAI is using Books3 to train its ChatGPT models GPT 3.5 or GPT 4.
Democracies face ‘truth decay’ as AI blurs fact and fiction, warns head of Australia’s military
Guardian Australia has sought comment from OpenAI, which has yet to officially respond to the guild’s complaint, and Meta.
On 4 September, US technology magazine Wired reported that a Danish anti-piracy group called Rights Alliance had been told by Bloomberg that the company did not plan to train future versions of its BloombergGPT using Books3.
Bloomberg declined to respond to the Guardian’s queries.
The APA said the global nature of the issue would present significant challenges in enforcement and prosecution, and has joined the authors’ society in calling for AI technologies to be regulated.
Consultation closed last month for a Department of Industry, Science and Resources discussion paper on supporting responsible AI.
A parliamentary inquiry is under way examining the use of generative artificial intelligence in the Australian education system.
Flanagan said it was up to the Australian government to act to protect Australia’s writers.
“It has power and we do not,” he said.
“If it cares for our culture it must now stand up and fight for it.”
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Non sono una giurista ma credo che questa rassegna possa essere utile alla discussione https://www.thefashionlaw.com/from-chatgpt-to-deepfake-creating-apps-a-runni... Saluti Rossana Morriello -----Messaggio originale----- Da: nexa <nexa-bounces@server-nexa.polito.it> Per conto di Stefano Quintarelli Inviato: venerdì 29 settembre 2023 15:21 Cc: Nexa <nexa@server-nexa.polito.it> Oggetto: Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian Ho una domanda per i giuristi (anzi, piu' di una) per allenare un modello, ho bisogno di un file con la versione digitale di un testo. (cosnsidero ovviamente testi non PD, CC0, ecc.) la versione digitale di un testo la posso ottenere da un ebook (gia' digitale), togliendo il probabile DRM. ma un ebook non e' unbene ma e' un servizio soggetto a licenza d'uso, quindi se non e' prevista nella licenza d'uso la facolta' di estrarre il testo digitale per allenarci un modello, mi sembra che ci sia gia' una violazione della licenza, per cui, credo, non possa essere usato come base di un allenamento, tanto piu' se il fine di tale allenamento e' commerciale (se vendo un servizio basato su quel modello). se e' cosi', per allenare il mio modello devo allora prednere il testo digitale facendo scan/ocr di un testo cartaceo. ma cio' e' possibile, se non erro, solo per uso personale e non commerciale. se questo e' corretto, non mi pare ci sia un modo per prendere un testo digitale senza infrangere una licenza d'uso/copyright dove e' la fallacia del ragionamento ? grazie, s. On 29/09/23 15:00, Stefano Borroni Barale wrote:
Buongiorno lista,
L'idea che istruire un modello su dei testi coperti da copyright sia una violazione del suddetto copyright è altamente opinabile
Fin qui, ho l'impressione che tutti i legali in lista concorderanno.
ragionamento è in realtà abbastanza semplice: se istruirsi su un testo ne violasse il copyright, saremmo tutti dei criminali.
Ma siccome noi siamo umani e quello che produciamo non è - salvo i discorsi dei politici(*) - ontologicamente identico alla produzione di esseri tecnici non viventi, logica vuole che quanto si applica a noi non possa applicarsi a un LLM, tanto quanto la legge sul copyright non si applica pedissequamente all'utilizzo di testi umani per creare modelli linguistici.
Questo è il motivo per il quale tutti i tentativi di "proteggere via copyright" il prodotto di software generativi sono falliti miseramente, e con motivazioni scritte in sentenze; che per il diritto credo abbiano un peso assai maggiore del sito di CC.
La mia impressione è che la questione terrà impegnati legali, informatici, filosofi e società ancora moooooolto a lungo. SBB
(*) Come sanno bene i bambini degli anni '80 che hanno giocato con questo spassoso giocattolo: https://www.enricodalbosco.it/giochi/tubolario/
Di quei testi
non c'è fisicamente traccia all'interno dei modelli, non viene copiato niente. I modelli sono un'opera trasformativa di quei testi, non derivativa.
Lo argomenta molto bene Creative Commons: https://creativecommons.org/2023/02/17/fair-use-training-generative-a i/
Detto questo, cito le parole di un altro autore, Jeff Jarvis: https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5H MmeeVqgMSjL2dkcwMcBojkb2cinBpgYTHyc7Fhq1B9NPl
«I, for one, am not complaining about my books being in in large language model training sets. I write to enter ideas into public discourse. I prefer informed over ignorant AI. I believe it is fair use for anyone to read & use books for transformative work. In fact, I'd probably feel snubbed if my books were not there. I'm happy when they are in libraries. I'm fine that they're here.»
Fabio
Il giorno ven 29 set 2023 alle ore 07:52 Alberto Cammozzo via nexa nexa@server-nexa.polito.it ha scritto:
https://www.theguardian.com/australia-news/2023/sep/28/australian-bo oks-training-ai-books3-stolen-pirated
Thousands of books from some of Australia’s most celebrated authors have potentially been caught up in what Booker prize-winning novelist Richard Flanagan has called “the biggest act of copyright theft in history”.
The works have allegedly been pirated by the US-based Books3 dataset and used to train generative AI for corporations such as Meta and Bloomberg.
Flanagan, who found 10 of his works, including the multi-international award-winning 2013 novel The Narrow Road to the Deep North, on the Books3 dataset, told Guardian Australia he was deeply shocked by the discovery made several days ago.
“I felt as if my soul had been strip mined and I was powerless to stop it,” he said in a statement.
“This is the biggest act of copyright theft in history.”
AI could ‘turbo-charge fraud’ and be monopolised by tech companies, Andrew Leigh warns
The Australian Publishers Association confirmed to Guardian Australia on Wednesday that as many as 18,000 fiction and nonfiction titles with Australian ISBNs (unique international standard book numbers) appeared to be affected by the copyright infringement, although it is not yet clear what proportion of these are Australian editions of internationally authored books.
“We’re still working through [the data] to work out the impact in terms of Australian authors,” APA spokesperson Stuart Glover said.
“This is a massive legal and ethical challenge for the publishing industry and for authors globally.”
A search tool published on Monday by US media platform The Atlantic and uploaded by the US Authors Guild on Wednesday revealed the works of Peter Carey, Helen Garner, Kate Grenville, Anna Funder, Christos Tsiolkas and Thomas Keneally, as well as Flanagan and dozens of other high-profile Australian authors, were included in the pirated dataset containing more than 180,000 titles.
On Thursday, the Australian Society of Authors issued a statement saying it was “horrified” to learn that the works of Australian writers were being used to train artificial intelligence without permission from the authors.
ASA chief executive, Olivia Lanchester, described the Books3 dataset as piracy on an industrial scale.
“Authors appropriately feel outraged,” Lanchester said. “The fact is this technology relies upon books, journals, essays written by authors, yet permission was not sought nor compensation granted.”
Lanchester said the Australian literary industry, while not objecting per se to emerging technologies such as AI, was deeply concerned about the lack of transparency evident in the development and monetisation of AI by global tech companies.
“Turning a blind eye to the legitimate rights of copyright owners threatens to diminish already precarious creative careers,” she said.
“The enrichment of a few powerful companies is at the cost of thousands of individual creators. This is not how a fair market functions.”
Josephine Johnston, chief executive of Australia’s Copyright Agency, described the Books3 development as “a free kick to big tech” at the expense of Australia’s creative and cultural life.
“We’re going to need greater transparency – how these tools have been developed, trained, how they operate – before people can truly understand what their legal rights might be,” she said.
“We seem to be in this terrible position now where content owners – remembering that the vast majority of them will be individual authors – may actually have to take out court cases to enforce their rights.”
Australian copyright law protects creators of original content from data scraping.
Litigation in the US against ChatGPT creator OpenAI over use of allegedly pirated book datasets, Books1 and Books2 (which do not appear to be affiliated with Books3) has already commenced.
In July, North American horror/fantasy writers Mona Awad (author of Bunny) and Paul Tremblay (author of The Cabin at the End of the World) filed a lawsuit in a San Francisco federal court, alleging ChatGPT unlawfully digested their books as part of its AI training data.
On 28 August, OpenAI filed a motion to dismiss the lawsuit, arguing that the authors “misconceive the scope of copyright, failing to take into account the limitations and exceptions (including fair use) that properly leave room for innovations like the large language models now at the forefront of artificial intelligence”.
On 19 September the Writers Guild and 17 of its members, including bestselling novelists John Grisham, George RR Martin and Jodi Picoult, filed a complaint in a New York district court against OpenAI, seeking redress for “flagrant and harmful infringements” of guild members’ registered copyrights.
In a statement on its website, the guild says while it is aware that companies such as Meta and Bloomberg have used the Books3 dataset to train their LLMs, it is not yet clear whether OpenAI is using Books3 to train its ChatGPT models GPT 3.5 or GPT 4.
Democracies face ‘truth decay’ as AI blurs fact and fiction, warns head of Australia’s military
Guardian Australia has sought comment from OpenAI, which has yet to officially respond to the guild’s complaint, and Meta.
On 4 September, US technology magazine Wired reported that a Danish anti-piracy group called Rights Alliance had been told by Bloomberg that the company did not plan to train future versions of its BloombergGPT using Books3.
Bloomberg declined to respond to the Guardian’s queries.
The APA said the global nature of the issue would present significant challenges in enforcement and prosecution, and has joined the authors’ society in calling for AI technologies to be regulated.
Consultation closed last month for a Department of Industry, Science and Resources discussion paper on supporting responsible AI.
A parliamentary inquiry is under way examining the use of generative artificial intelligence in the Australian education system.
Flanagan said it was up to the Australian government to act to protect Australia’s writers.
“It has power and we do not,” he said.
“If it cares for our culture it must now stand up and fight for it.”
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
§§ 54-64 della citazione in giudizio (facilmente reperibile , ad es. qui <https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwiD...> ): <<54. Recent generative AI systems designed to recognize input text and generate output text are built on “large language models” or “LLMs.” 55. LLMs use predictive algorithms that are designed to detect statistical patterns in the text datasets on which they are “trained” and, on the basis of these patterns, generate responses to user prompts. “Training” an LLM refers to the process by which the parameters that define an LLM’s behavior are adjusted through the LLM’s ingestion and analysis of large “training” datasets. 56. Once “trained,” the LLM analyzes the relationships among words in an input prompt and generates a response that is an approximation of similar relationships among words in the LLM’s “training” data. In this way, LLMs can be capable of generating sentences, paragraphs, and even complete texts, from cover letters to novels. 57. “Training” an LLM requires supplying the LLM with large amounts of text for the LLM to ingest—the more text, the better. That is, in part, the large in large language model. 58. As the U.S. Patent and Trademark Office has observed, LLM “training” “almost by definition involve[s] the reproduction of entire works or substantial portions thereof.”4 59. “Training” in this context is therefore a technical-sounding euphemism for “copying and ingesting.” 60. The quality of the LLM (that is, its capacity to generate human-seeming responses to prompts) is dependent on the quality of the datasets used to “train” the LLM. 61. Professionally authored, edited, and published books—such as those authored by Plaintiffs here—are an especially important source of LLM “training” data. 62. As one group of AI researchers (not affiliated with Defendants) has observed, “[b]ooks are a rich source of both fine-grained information, how a character, an object or a scene looks like, as well as high-level semantics, what someone is thinking, feeling and how these states evolve through a story.”5 63. In other words, books are the high-quality materials Defendants want, need, and have therefore outright pilfered to develop generative AI products that produce high-quality results: text that appears to have been written by a human writer. 64. This use is highly commercial.>>. _______________ Le informazioni contenute nella presente comunicazione e nei documenti ad essa allegati potrebbero essere tutelate dal segreto professionale e sono comunque confidenziali e ad uso esclusivo del destinatario sopra indicato. Qualora la presente comunicazione non fosse destinata a Voi, Vi preghiamo di tener presente che la divulgazione, distribuzione o riproduzione di qualunque informazione contenuta nella presente comunicazione o nei documenti ad essa allegati sono vietate. Se avete ricevuto la presente comunicazione per errore, Vi preghiamo di volerci avvertire immediatamente e di distruggere quanto ricevuto senza leggerlo. Grazie per la collaborazione. The information contained in this email and any documents attached to it may be legally privileged and confidential. The information is intended only for the use of the individual or entity named above. If you are not the intended recipient, you are hereby notified that any use, dissemination, distribution or reproduction of any information contained in or attached to this email is prohibited. If you have received this email in error, please immediately notify us by reply email or by telephone, and destroy the original transmission and its attachments without reading them. Thank you.
-----Messaggio originale----- Da: nexa <nexa-bounces@server-nexa.polito.it> Per conto di Rossana Morriello Inviato: venerdì 29 settembre 2023 16:08 A: Nexa <nexa@server-nexa.polito.it> Oggetto: [nexa] R: ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian
Non sono una giurista ma credo che questa rassegna possa essere utile alla discussione
https://www.thefashionlaw.com/from-chatgpt-to-deepfake-creating-apps-a- <https://www.thefashionlaw.com/from-chatgpt-to-deepfake-creating-apps-a-runni...> running-list-of-key-ai-lawsuits/
Saluti Rossana Morriello
-----Messaggio originale----- Da: nexa <nexa-bounces@server-nexa.polito.it <mailto:nexa-bounces@server-nexa.polito.it> > Per conto di Stefano Quintarelli Inviato: venerdì 29 settembre 2023 15:21 Cc: Nexa <nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> > Oggetto: Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian
Ho una domanda per i giuristi (anzi, piu' di una)
per allenare un modello, ho bisogno di un file con la versione digitale di un testo. (cosnsidero ovviamente testi non PD, CC0, ecc.)
la versione digitale di un testo la posso ottenere da un ebook (gia' digitale), togliendo il probabile DRM. ma un ebook non e' unbene ma e' un servizio soggetto a licenza d'uso, quindi se non e' prevista nella licenza d'uso la facolta' di estrarre il testo digitale per allenarci un modello, mi sembra che ci sia gia' una violazione della licenza, per cui, credo, non possa essere usato come base di un allenamento, tanto piu' se il fine di tale allenamento e' commerciale (se vendo un servizio basato su quel modello).
se e' cosi', per allenare il mio modello devo allora prednere il testo digitale facendo scan/ocr di un testo cartaceo. ma cio' e' possibile, se non erro, solo per uso personale e non commerciale.
se questo e' corretto, non mi pare ci sia un modo per prendere un testo digitale senza infrangere una licenza d'uso/copyright
dove e' la fallacia del ragionamento ?
grazie, s.
On 29/09/23 15:00, Stefano Borroni Barale wrote:
Buongiorno lista,
L'idea che istruire un modello su dei testi coperti da copyright sia una violazione del suddetto copyright è altamente opinabile
Fin qui, ho l'impressione che tutti i legali in lista concorderanno.
ragionamento è in realtà abbastanza semplice: se istruirsi su un testo ne violasse il copyright, saremmo tutti dei criminali.
Ma siccome noi siamo umani e quello che produciamo non è - salvo i discorsi dei politici(*) - ontologicamente identico alla produzione di esseri tecnici non viventi, logica vuole che quanto si applica a noi non possa applicarsi a un LLM, tanto quanto la legge sul copyright non si applica pedissequamente all'utilizzo di testi umani per creare modelli linguistici.
Questo è il motivo per il quale tutti i tentativi di "proteggere via copyright" il prodotto di software generativi sono falliti miseramente, e con motivazioni scritte in sentenze; che per il diritto credo abbiano un peso assai maggiore del sito di CC.
La mia impressione è che la questione terrà impegnati legali, informatici, filosofi e società ancora moooooolto a lungo. SBB
(*) Come sanno bene i bambini degli anni '80 che hanno giocato con questo spassoso giocattolo: https://www.enricodalbosco.it/giochi/tubolario/
Di quei testi
non c'è fisicamente traccia all'interno dei modelli, non viene copiato niente. I modelli sono un'opera trasformativa di quei testi, non derivativa.
Lo argomenta molto bene Creative Commons: https://creativecommons.org/2023/02/17/fair-use-training-generative-a i/
Detto questo, cito le parole di un altro autore, Jeff Jarvis:
https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5 <https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5H> H
MmeeVqgMSjL2dkcwMcBojkb2cinBpgYTHyc7Fhq1B9NPl
«I, for one, am not complaining about my books being in in large language model training sets. I write to enter ideas into public discourse. I prefer informed over ignorant AI. I believe it is fair use for anyone to read & use books for transformative work. In fact, I'd probably feel snubbed if my books were not there. I'm happy when they are in libraries. I'm fine that they're here.»
Fabio
Il giorno ven 29 set 2023 alle ore 07:52 Alberto Cammozzo via nexa nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> ha scritto:
https://www.theguardian.com/australia-news/2023/sep/28/australian- <https://www.theguardian.com/australia-news/2023/sep/28/australian-bo> bo oks-training-ai-books3-stolen-pirated
Thousands of books from some of Australia’s most celebrated authors have potentially been caught up in what Booker prize-winning novelist Richard Flanagan has called “the biggest act of copyright theft in history”.
The works have allegedly been pirated by the US-based Books3 dataset and used to train generative AI for corporations such as Meta and Bloomberg.
Flanagan, who found 10 of his works, including the multi-international award-winning 2013 novel The Narrow Road to the Deep North, on the Books3 dataset, told Guardian Australia he was deeply shocked by the discovery made several days ago.
“I felt as if my soul had been strip mined and I was powerless to stop it,” he said in a statement.
“This is the biggest act of copyright theft in history.”
AI could ‘turbo-charge fraud’ and be monopolised by tech companies, Andrew Leigh warns
The Australian Publishers Association confirmed to Guardian Australia on Wednesday that as many as 18,000 fiction and nonfiction titles with Australian ISBNs (unique international standard book numbers) appeared to be affected by the copyright infringement, although it is not yet clear what proportion of these are Australian editions of internationally authored books.
“We’re still working through [the data] to work out the impact in terms of Australian authors,” APA spokesperson Stuart Glover said.
“This is a massive legal and ethical challenge for the publishing industry and for authors globally.”
A search tool published on Monday by US media platform The Atlantic and uploaded by the US Authors Guild on Wednesday revealed the works of Peter Carey, Helen Garner, Kate Grenville, Anna Funder, Christos Tsiolkas and Thomas Keneally, as well as Flanagan and dozens of other high-profile Australian authors, were included in the pirated dataset containing more than 180,000 titles.
On Thursday, the Australian Society of Authors issued a statement saying it was “horrified” to learn that the works of Australian writers were being used to train artificial intelligence without permission from the authors.
ASA chief executive, Olivia Lanchester, described the Books3 dataset as piracy on an industrial scale.
“Authors appropriately feel outraged,” Lanchester said. “The fact is this technology relies upon books, journals, essays written by authors, yet permission was not sought nor compensation granted.”
Lanchester said the Australian literary industry, while not objecting per se to emerging technologies such as AI, was deeply concerned about the lack of transparency evident in the development and monetisation of AI by global tech companies.
“Turning a blind eye to the legitimate rights of copyright owners threatens to diminish already precarious creative careers,” she said.
“The enrichment of a few powerful companies is at the cost of thousands of individual creators. This is not how a fair market functions.”
Josephine Johnston, chief executive of Australia’s Copyright Agency, described the Books3 development as “a free kick to big tech” at the expense of Australia’s creative and cultural life.
“We’re going to need greater transparency – how these tools have been developed, trained, how they operate – before people can truly understand what their legal rights might be,” she said.
“We seem to be in this terrible position now where content owners – remembering that the vast majority of them will be individual authors – may actually have to take out court cases to enforce their rights.”
Australian copyright law protects creators of original content from data scraping.
Litigation in the US against ChatGPT creator OpenAI over use of allegedly pirated book datasets, Books1 and Books2 (which do not appear to be affiliated with Books3) has already commenced.
In July, North American horror/fantasy writers Mona Awad (author of Bunny) and Paul Tremblay (author of The Cabin at the End of the World) filed a lawsuit in a San Francisco federal court, alleging ChatGPT unlawfully digested their books as part of its AI training data.
On 28 August, OpenAI filed a motion to dismiss the lawsuit, arguing that the authors “misconceive the scope of copyright, failing to take into account the limitations and exceptions (including fair use) that properly leave room for innovations like the large language models now at the forefront of artificial intelligence”.
On 19 September the Writers Guild and 17 of its members, including bestselling novelists John Grisham, George RR Martin and Jodi Picoult, filed a complaint in a New York district court against OpenAI, seeking redress for “flagrant and harmful infringements” of guild members’ registered copyrights.
In a statement on its website, the guild says while it is aware that companies such as Meta and Bloomberg have used the Books3 dataset to train their LLMs, it is not yet clear whether OpenAI is using Books3 to train its ChatGPT models GPT 3.5 or GPT 4.
Democracies face ‘truth decay’ as AI blurs fact and fiction, warns head of Australia’s military
Guardian Australia has sought comment from OpenAI, which has yet to officially respond to the guild’s complaint, and Meta.
On 4 September, US technology magazine Wired reported that a Danish anti-piracy group called Rights Alliance had been told by Bloomberg that the company did not plan to train future versions of its BloombergGPT using Books3.
Bloomberg declined to respond to the Guardian’s queries.
The APA said the global nature of the issue would present significant challenges in enforcement and prosecution, and has joined the authors’ society in calling for AI technologies to be regulated.
Consultation closed last month for a Department of Industry, Science and Resources discussion paper on supporting responsible AI.
A parliamentary inquiry is under way examining the use of generative artificial intelligence in the Australian education system.
Flanagan said it was up to the Australian government to act to protect Australia’s writers.
“It has power and we do not,” he said.
“If it cares for our culture it must now stand up and fight for it.”
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
nexa mailing list nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
nexa mailing list nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa _______________________________________________ nexa mailing list nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
grazie ma il punto focale del mio quesito non e' il training ma, prima del training, la genesi dei testi usati per il training ciao, s. On 29/09/23 16:36, Lorenzo Albertini wrote:
§§ 54-64della citazione in giudizio (facilmente reperibile ,_ad es. qui_<https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwiD...>):
<<54. Recent generative AI systems designed to recognize input text and generate
output text are built on “large language models” or “LLMs.”
55. LLMs use predictive algorithms that are designed to detect statistical patterns in
the text datasets on which they are “trained” and, on the basis of these patterns, generate
responses to user prompts. “Training” an LLM refers to the process by which the parameters that
define an LLM’s behavior are adjusted through the LLM’s ingestion and analysis of large
“training” datasets.
56. Once “trained,” the LLM analyzes the relationships among words in an input
prompt and generates a response that is an approximation of similar relationships among words
in the LLM’s “training” data. In this way, LLMs can be capable of generating sentences,
paragraphs, and even complete texts, from cover letters to novels.
57. “Training” an LLM requires supplying the LLM with large amounts of text for
the LLM to ingest—the more text, the better. That is, in part, the large in large language model.
58. As the U.S. Patent and Trademark Office has observed, LLM “training” “almost
by definition involve[s] the reproduction of entire works or substantial portions thereof.”4
59. “Training” in this context is therefore a technical-sounding euphemism for
“copying and ingesting.”
60. The quality of the LLM (that is, its capacity to generate human-seeming responses
to prompts) is dependent on the quality of the datasets used to “train” the LLM.
61. Professionally authored, edited, and published books—such as those authored by
Plaintiffs here—are an especially important source of LLM “training” data.
62. As one group of AI researchers (not affiliated with Defendants) has observed,
“[b]ooks are a rich source of both fine-grained information, how a character, an object or a scene
looks like, as well as high-level semantics, what someone is thinking, feeling and how these
states evolve through a story.”5
63. In other words, books are the high-quality materials Defendants want, need, and
have therefore outright pilfered to develop generative AI products that produce high-quality
results: text that appears to have been written by a human writer.
64. This use is highly commercial.>>.
_______________
Le informazioni contenute nella presente comunicazione e nei documenti ad essa allegati potrebbero essere tutelate dal segreto professionale e sono comunque confidenziali e ad uso esclusivo del destinatario sopra indicato. Qualora la presente comunicazione non fosse destinata a Voi, Vi preghiamo di tener presente che la divulgazione, distribuzione o riproduzione di qualunque informazione contenuta nella presente comunicazione o nei documenti ad essa allegati sono vietate. Se avete ricevuto la presente comunicazione per errore, Vi preghiamo di volerci avvertire immediatamente e di distruggere quanto ricevuto senza leggerlo. Grazie per la collaborazione.
The information contained in this email and any documents attached to it may be legally privileged and confidential. The information is intended only for the use of the individual or entity named above. If you are not the intended recipient, you are hereby notified that any use, dissemination, distribution or reproduction of any information contained in or attached to this email is prohibited. If you have received this email in error, please immediately notify us by reply email or by telephone, and destroy the original transmission and its attachments without reading them. Thank you.
-----Messaggio originale-----
Da: nexa <nexa-bounces@server-nexa.polito.it> Per conto di Rossana
Morriello
Inviato: venerdì 29 settembre 2023 16:08
A: Nexa <nexa@server-nexa.polito.it>
Oggetto: [nexa] R: ‘Biggest act of copyright theft in history’: thousands of
Australian books allegedly used to train AI model | Australia news | The
Guardian
Non sono una giurista ma credo che questa rassegna possa essere utile alla
discussione
running-list-of-key-ai-lawsuits/
Saluti
Rossana Morriello
-----Messaggio originale-----
Da: nexa <nexa-bounces@server-nexa.polito.it<mailto:nexa-bounces@server-nexa.polito.it>> Per conto di Stefano
Quintarelli
Inviato: venerdì 29 settembre 2023 15:21
Cc: Nexa <nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it>>
Oggetto: Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of
Australian books allegedly used to train AI model | Australia news | The
Guardian
Ho una domanda per i giuristi (anzi, piu' di una)
per allenare un modello, ho bisogno di un file con la versione digitale di un
testo.
(cosnsidero ovviamente testi non PD, CC0, ecc.)
la versione digitale di un testo la posso ottenere da un ebook (gia' digitale),
togliendo il probabile DRM.
ma un ebook non e' unbene ma e' un servizio soggetto a licenza d'uso, quindi
se non e'
prevista nella licenza d'uso la facolta' di estrarre il testo digitale per allenarci un
modello, mi sembra che ci sia gia' una violazione della licenza, per cui, credo,
non possa essere usato come base di un allenamento, tanto piu' se il fine di
tale allenamento e'
commerciale (se vendo un servizio basato su quel modello).
se e' cosi', per allenare il mio modello devo allora prednere il testo digitale
facendo scan/ocr di un testo cartaceo.
ma cio' e' possibile, se non erro, solo per uso personale e non commerciale.
se questo e' corretto, non mi pare ci sia un modo per prendere un testo digitale
senza infrangere una licenza d'uso/copyright
dove e' la fallacia del ragionamento ?
grazie, s.
On 29/09/23 15:00, Stefano Borroni Barale wrote:
Buongiorno lista,
L'idea che istruire un modello su dei testi coperti da copyright sia
una violazione del suddetto copyright è altamente opinabile
Fin qui, ho l'impressione che tutti i legali in lista concorderanno.
ragionamento è in realtà abbastanza semplice: se istruirsi su un
testo ne violasse il copyright, saremmo tutti dei criminali.
Ma siccome noi siamo umani e quello che produciamo non è - salvo i discorsi
dei politici(*) - ontologicamente identico alla produzione di esseri tecnici non
viventi, logica vuole che quanto si applica a noi non possa applicarsi a un LLM,
tanto quanto la legge sul copyright non si applica pedissequamente all'utilizzo
di testi umani per creare modelli linguistici.
Questo è il motivo per il quale tutti i tentativi di "proteggere via copyright" il
prodotto di software generativi sono falliti miseramente, e con motivazioni
scritte in sentenze; che per il diritto credo abbiano un peso assai maggiore del
sito di CC.
La mia impressione è che la questione terrà impegnati legali, informatici,
filosofi e società ancora moooooolto a lungo.
SBB
(*) Come sanno bene i bambini degli anni '80 che hanno giocato con
questo spassoso giocattolo:
https://www.enricodalbosco.it/giochi/tubolario/<https://www.enricodalbosco.it/giochi/tubolario/>
Di quei testi
non c'è fisicamente traccia all'interno dei modelli, non viene
copiato niente. I modelli sono un'opera trasformativa di quei testi,
non derivativa.
Lo argomenta molto bene Creative Commons:
i/
Detto questo, cito le parole di un altro autore, Jeff Jarvis:
H
MmeeVqgMSjL2dkcwMcBojkb2cinBpgYTHyc7Fhq1B9NPl
«I, for one, am not complaining about my books being in in large
language model training sets. I write to enter ideas into public
discourse. I prefer informed over ignorant AI. I believe it is fair
use for anyone to read & use books for transformative work. In fact,
I'd probably feel snubbed if my books were not there. I'm happy when
they are in libraries. I'm fine that they're here.»
Fabio
Il giorno ven 29 set 2023 alle ore 07:52 Alberto Cammozzo via nexa
nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it>ha scritto:
bo
oks-training-ai-books3-stolen-pirated
Thousands of books from some of Australia’s most celebrated authors
have potentially been caught up in what Booker prize-winning novelist Richard
Flanagan has called “the biggest act of copyright theft in history”.
The works have allegedly been pirated by the US-based Books3 dataset
and used to train generative AI for corporations such as Meta and Bloomberg.
Flanagan, who found 10 of his works, including the multi-international
award-winning 2013 novel The Narrow Road to the Deep North, on the
Books3 dataset, told Guardian Australia he was deeply shocked by the
discovery made several days ago.
“I felt as if my soul had been strip mined and I was powerless to stop it,”
he said in a statement.
“This is the biggest act of copyright theft in history.”
AI could ‘turbo-charge fraud’ and be monopolised by tech companies,
Andrew Leigh warns
The Australian Publishers Association confirmed to Guardian Australia on
Wednesday that as many as 18,000 fiction and nonfiction titles with
Australian ISBNs (unique international standard book numbers) appeared to
be affected by the copyright infringement, although it is not yet clear what
proportion of these are Australian editions of internationally authored books.
“We’re still working through [the data] to work out the impact in terms of
Australian authors,” APA spokesperson Stuart Glover said.
“This is a massive legal and ethical challenge for the publishing industry
and for authors globally.”
A search tool published on Monday by US media platform The Atlantic and
uploaded by the US Authors Guild on Wednesday revealed the works of Peter
Carey, Helen Garner, Kate Grenville, Anna Funder, Christos Tsiolkas and
Thomas Keneally, as well as Flanagan and dozens of other high-profile
Australian authors, were included in the pirated dataset containing more than
180,000 titles.
On Thursday, the Australian Society of Authors issued a statement saying
it was “horrified” to learn that the works of Australian writers were being used
to train artificial intelligence without permission from the authors.
ASA chief executive, Olivia Lanchester, described the Books3 dataset as
piracy on an industrial scale.
“Authors appropriately feel outraged,” Lanchester said. “The fact is this
technology relies upon books, journals, essays written by authors, yet
permission was not sought nor compensation granted.”
Lanchester said the Australian literary industry, while not objecting per se
to emerging technologies such as AI, was deeply concerned about the lack of
transparency evident in the development and monetisation of AI by global
tech companies.
“Turning a blind eye to the legitimate rights of copyright owners threatens
to diminish already precarious creative careers,” she said.
“The enrichment of a few powerful companies is at the cost of thousands
of individual creators. This is not how a fair market functions.”
Josephine Johnston, chief executive of Australia’s Copyright Agency,
described the Books3 development as “a free kick to big tech” at the expense
of Australia’s creative and cultural life.
“We’re going to need greater transparency – how these tools have been
developed, trained, how they operate – before people can truly understand
what their legal rights might be,” she said.
“We seem to be in this terrible position now where content owners –
remembering that the vast majority of them will be individual authors – may
actually have to take out court cases to enforce their rights.”
Australian copyright law protects creators of original content from data
scraping.
Litigation in the US against ChatGPT creator OpenAI over use of allegedly
pirated book datasets, Books1 and Books2 (which do not appear to be
affiliated with Books3) has already commenced.
In July, North American horror/fantasy writers Mona Awad (author of
Bunny) and Paul Tremblay (author of The Cabin at the End of the World) filed a
lawsuit in a San Francisco federal court, alleging ChatGPT unlawfully digested
their books as part of its AI training data.
On 28 August, OpenAI filed a motion to dismiss the lawsuit, arguing that
the authors “misconceive the scope of copyright, failing to take into account
the limitations and exceptions (including fair use) that properly leave room for
innovations like the large language models now at the forefront of artificial
intelligence”.
On 19 September the Writers Guild and 17 of its members, including
bestselling novelists John Grisham, George RR Martin and Jodi Picoult, filed a
complaint in a New York district court against OpenAI, seeking redress for
“flagrant and harmful infringements” of guild members’ registered copyrights.
In a statement on its website, the guild says while it is aware that
companies such as Meta and Bloomberg have used the Books3 dataset to
train their LLMs, it is not yet clear whether OpenAI is using Books3 to train its
ChatGPT models GPT 3.5 or GPT 4.
Democracies face ‘truth decay’ as AI blurs fact and fiction, warns
head of Australia’s military
Guardian Australia has sought comment from OpenAI, which has yet to
officially respond to the guild’s complaint, and Meta.
On 4 September, US technology magazine Wired reported that a Danish
anti-piracy group called Rights Alliance had been told by Bloomberg that the
company did not plan to train future versions of its BloombergGPT using
Books3.
Bloomberg declined to respond to the Guardian’s queries.
The APA said the global nature of the issue would present significant
challenges in enforcement and prosecution, and has joined the authors’
society in calling for AI technologies to be regulated.
Consultation closed last month for a Department of Industry, Science and
Resources discussion paper on supporting responsible AI.
A parliamentary inquiry is under way examining the use of generative
artificial intelligence in the Australian education system.
Flanagan said it was up to the Australian government to act to protect
Australia’s writers.
“It has power and we do not,” he said.
“If it cares for our culture it must now stand up and fight for it.”
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it>
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it>
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it>
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it>
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it>
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Sul presupposto che cmq ricorra <riproduzione>, sarebbe difficile individuare (in UE) un'eccezione. Non invocabile direi l'art. 4 dir. Copyright 790 : ≪Articolo 4 Eccezioni o limitazioni ai fini dell'estrazione di testo e di dati 1. Gli Stati membri dispongono un'eccezione o una limitazione ai diritti di cui all'articolo 5, lettera a), e all'articolo 7, paragrafo 1, della direttiva 96/9/CE, all'articolo 2 della direttiva 2001/29/CE, all'articolo 4, paragrafo 1, lettere a) e b), della direttiva 2009/24/CE e all'articolo 15, paragrafo 1, della presente direttiva per le riproduzioni e le estrazioni effettuate da opere o altri materiali cui si abbia legalmente accesso ai fini dell'estrazione di testo e di dati. 2. Le riproduzioni e le estrazioni effettuate a norma del paragrafo 1 possono essere conservate per il tempo necessario ai fini dell'estrazione di testo e di dati. 3. L'eccezione o la limitazione di cui al paragrafo 1 si applica a condizione che l'utilizzo delle opere e di altri materiali di cui a tale paragrafo non sia stato espressamente riservato dai titolari dei diritti in modo appropriato, ad esempio attraverso strumenti che consentano lettura automatizzata in caso di contenuti resi pubblicamente disponibili online. 4. Il presente articolo non pregiudica l'applicazione dell'articolo 3 della presente direttiva≫. Non so in usa (fair use, che ha ambito applicativo alquanto vasto?)
-----Messaggio originale----- Da: Stefano Quintarelli <stefano@quintarelli.it> Inviato: venerdì 29 settembre 2023 17:08 A: Lorenzo Albertini <lorenzoalbertini.vr@gmail.com>; 'Nexa' <nexa@server- nexa.polito.it> Oggetto: Re: [nexa] R: R: ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian
grazie
ma il punto focale del mio quesito non e' il training ma, prima del training, la genesi dei testi usati per il training
ciao, s.
On 29/09/23 16:36, Lorenzo Albertini wrote:
§§ 54-64della citazione in giudizio (facilmente reperibile ,_ad es.
qui_<https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd= <https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwiD...> &ved=2ahUKEwiDh_vygtCBAxX4SPEDHZlhAxMQFnoECBYQAQ&url=https%3A %2F%2Fwww.classaction.org%2Fmedia%2Fauthors-guild-et-al-v-openai-inc- et-al.pdf&usg=AOvVaw1tUMb6Gk10kZCsvoAo0PH6&opi=89978449>):
<<54. Recent generative AI systems designed to recognize input text and generate
output text are built on “large language models” or “LLMs.”
55. LLMs use predictive algorithms that are designed to detect statistical patterns in
the text datasets on which they are “trained” and, on the basis of these patterns, generate
responses to user prompts. “Training” an LLM refers to the process by which the parameters that
define an LLM’s behavior are adjusted through the LLM’s ingestion and analysis of large
“training” datasets.
56. Once “trained,” the LLM analyzes the relationships among words in an input
prompt and generates a response that is an approximation of similar relationships among words
in the LLM’s “training” data. In this way, LLMs can be capable of generating sentences,
paragraphs, and even complete texts, from cover letters to novels.
57. “Training” an LLM requires supplying the LLM with large amounts of text for
the LLM to ingest—the more text, the better. That is, in part, the large in large language model.
58. As the U.S. Patent and Trademark Office has observed, LLM “training” “almost
by definition involve[s] the reproduction of entire works or substantial portions thereof.”4
59. “Training” in this context is therefore a technical-sounding euphemism for
“copying and ingesting.”
60. The quality of the LLM (that is, its capacity to generate human-seeming responses
to prompts) is dependent on the quality of the datasets used to “train” the
LLM.
61. Professionally authored, edited, and published books—such as those authored by
Plaintiffs here—are an especially important source of LLM “training” data.
62. As one group of AI researchers (not affiliated with Defendants) has observed,
“[b]ooks are a rich source of both fine-grained information, how a character, an object or a scene
looks like, as well as high-level semantics, what someone is thinking, feeling and how these
states evolve through a story.”5
63. In other words, books are the high-quality materials Defendants want, need, and
have therefore outright pilfered to develop generative AI products that produce high-quality
results: text that appears to have been written by a human writer.
64. This use is highly commercial.>>.
_______________
Le informazioni contenute nella presente comunicazione e nei documenti ad essa allegati potrebbero essere tutelate dal segreto professionale e sono comunque confidenziali e ad uso esclusivo del destinatario sopra indicato. Qualora la presente comunicazione non fosse destinata a Voi, Vi preghiamo di tener presente che la divulgazione, distribuzione o riproduzione di qualunque informazione contenuta nella presente comunicazione o nei documenti ad essa allegati sono vietate. Se avete ricevuto la presente comunicazione per errore, Vi preghiamo di
volerci avvertire immediatamente e di distruggere quanto ricevuto senza leggerlo. Grazie per la collaborazione.
The information contained in this email and any documents attached to it may be legally privileged and confidential. The information is intended only for the use of the individual or entity named above. If you are not the intended recipient, you are hereby notified that any use, dissemination, distribution or reproduction of any information contained in or attached to this email is prohibited. If you have received this email in error, please immediately notify us by reply email or by
telephone, and destroy the original transmission and its attachments without reading them. Thank you.
-----Messaggio originale-----
Da: nexa <nexa-bounces@server-nexa.polito.it <mailto:nexa-bounces@server-nexa.polito.it> > Per conto di Rossana
Morriello
Inviato: venerdì 29 settembre 2023 16:08
A: Nexa <nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> >
Oggetto: [nexa] R: ‘Biggest act of copyright theft in history’: thousands of
Australian books allegedly used to train AI model | Australia news | The
Guardian
Non sono una giurista ma credo che questa rassegna possa essere utile alla
discussione
https://www.thefashionlaw.com/from-chatgpt-to-deepfake-creating- <https://www.thefashionlaw.com/from-chatgpt-to-deepfake-creating-apps->
apps-
a-<https://www.thefashionlaw.com/from-chatgpt-to-deepfake-creating- ap ps-a-running-list-of-key-ai-lawsuits/>
running-list-of-key-ai-lawsuits/
Saluti
Rossana Morriello
-----Messaggio originale-----
Da: nexa <nexa-bounces@server-nexa.polito.it<mailto:nexa-bounces@server- nexa.p olito.it>> Per conto di Stefano
Quintarelli
Inviato: venerdì 29 settembre 2023 15:21
Cc: Nexa <nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it> >>
Oggetto: Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of
Australian books allegedly used to train AI model | Australia news | The
Guardian
Ho una domanda per i giuristi (anzi, piu' di una)
per allenare un modello, ho bisogno di un file con la versione digitale di un
testo.
(cosnsidero ovviamente testi non PD, CC0, ecc.)
la versione digitale di un testo la posso ottenere da un ebook (gia' digitale),
togliendo il probabile DRM.
ma un ebook non e' unbene ma e' un servizio soggetto a licenza d'uso, quindi
se non e'
prevista nella licenza d'uso la facolta' di estrarre il testo digitale per allenarci un
modello, mi sembra che ci sia gia' una violazione della licenza, per cui, credo,
non possa essere usato come base di un allenamento, tanto piu' se il fine di
tale allenamento e'
commerciale (se vendo un servizio basato su quel modello).
se e' cosi', per allenare il mio modello devo allora prednere il testo digitale
facendo scan/ocr di un testo cartaceo.
ma cio' e' possibile, se non erro, solo per uso personale e non commerciale.
se questo e' corretto, non mi pare ci sia un modo per prendere un testo digitale
senza infrangere una licenza d'uso/copyright
dove e' la fallacia del ragionamento ?
grazie, s.
On 29/09/23 15:00, Stefano Borroni Barale wrote:
Buongiorno lista,
> L'idea che istruire un modello su dei testi coperti da copyright > sia
> una violazione del suddetto copyright è altamente opinabile
Fin qui, ho l'impressione che tutti i legali in lista concorderanno.
> ragionamento è in realtà abbastanza semplice: se istruirsi su un
> testo ne violasse il copyright, saremmo tutti dei criminali.
Ma siccome noi siamo umani e quello che produciamo non è - salvo i discorsi
dei politici(*) - ontologicamente identico alla produzione di esseri tecnici non
viventi, logica vuole che quanto si applica a noi non possa applicarsi a un LLM,
tanto quanto la legge sul copyright non si applica pedissequamente all'utilizzo
di testi umani per creare modelli linguistici.
Questo è il motivo per il quale tutti i tentativi di "proteggere via copyright" il
prodotto di software generativi sono falliti miseramente, e con motivazioni
scritte in sentenze; che per il diritto credo abbiano un peso assai maggiore del
sito di CC.
La mia impressione è che la questione terrà impegnati legali, informatici,
filosofi e società ancora moooooolto a lungo.
SBB
(*) Come sanno bene i bambini degli anni '80 che hanno giocato con
questo spassoso giocattolo:
https://www.enricodalbosco.it/giochi/tubolario/<https://www.enricod albosco.it/giochi/tubolario/>
Di quei testi
> non c'è fisicamente traccia all'interno dei modelli, non viene
> copiato niente. I modelli sono un'opera trasformativa di quei > testi,
> non derivativa.
>
> Lo argomenta molto bene Creative Commons:
>https://creativecommons.org/2023/02/17/fair-use-training-generativ >e-a<https://creativecommons.org/2023/02/17/fair-use-training-gener >ative-a>
> i/
>
> Detto questo, cito le parole di un altro autore, Jeff Jarvis:
>
https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZ <https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5<> wp5< https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZ <https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5H> wp5H
H
> MmeeVqgMSjL2dkcwMcBojkb2cinBpgYTHyc7Fhq1B9NPl
>
> «I, for one, am not complaining about my books being in in large
> language model training sets. I write to enter ideas into public
> discourse. I prefer informed over ignorant AI. I believe it is > fair
> use for anyone to read & use books for transformative work. In > fact,
> I'd probably feel snubbed if my books were not there. I'm happy > when
> they are in libraries. I'm fine that they're here.»
>
> Fabio
>
> Il giorno ven 29 set 2023 alle ore 07:52 Alberto Cammozzo via > nexa
>nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it>ha <mailto:nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it>ha> scritto:
>
>>https://www.theguardian.com/australia- <https://www.theguardian.com/australia-news/2023/sep/28/australian> news/2023/sep/28/australian >>-<https://www.theguardian.com/australia- news/2023/sep/28/australi >>an-bo>
bo
>> oks-training-ai-books3-stolen-pirated
>>
>> Thousands of books from some of Australia’s most celebrated >> authors
have potentially been caught up in what Booker prize-winning novelist Richard
Flanagan has called “the biggest act of copyright theft in history”.
>>
>> The works have allegedly been pirated by the US-based Books3 >> dataset
and used to train generative AI for corporations such as Meta and Bloomberg.
>>
>> Flanagan, who found 10 of his works, including the >> multi-international
award-winning 2013 novel The Narrow Road to the Deep North, on the
Books3 dataset, told Guardian Australia he was deeply shocked by the
discovery made several days ago.
>>
>> “I felt as if my soul had been strip mined and I was powerless to stop it,”
he said in a statement.
>>
>> “This is the biggest act of copyright theft in history.”
>>
>> AI could ‘turbo-charge fraud’ and be monopolised by tech >> companies,
>> Andrew Leigh warns
>>
>> The Australian Publishers Association confirmed to Guardian >> Australia on
Wednesday that as many as 18,000 fiction and nonfiction titles with
Australian ISBNs (unique international standard book numbers) appeared to
be affected by the copyright infringement, although it is not yet clear what
proportion of these are Australian editions of internationally authored books.
>>
>> “We’re still working through [the data] to work out the impact >> in terms of
Australian authors,” APA spokesperson Stuart Glover said.
>>
>> “This is a massive legal and ethical challenge for the >> publishing industry
and for authors globally.”
>>
>> A search tool published on Monday by US media platform The >> Atlantic and
uploaded by the US Authors Guild on Wednesday revealed the works of Peter
Carey, Helen Garner, Kate Grenville, Anna Funder, Christos Tsiolkas and
Thomas Keneally, as well as Flanagan and dozens of other high-profile
Australian authors, were included in the pirated dataset containing more than
180,000 titles.
>>
>> On Thursday, the Australian Society of Authors issued a >> statement saying
it was “horrified” to learn that the works of Australian writers were being used
to train artificial intelligence without permission from the authors.
>>
>> ASA chief executive, Olivia Lanchester, described the Books3 >> dataset as
piracy on an industrial scale.
>>
>> “Authors appropriately feel outraged,” Lanchester said. “The >> fact is this
technology relies upon books, journals, essays written by authors, yet
permission was not sought nor compensation granted.”
>>
>> Lanchester said the Australian literary industry, while not >> objecting per se
to emerging technologies such as AI, was deeply concerned about the lack of
transparency evident in the development and monetisation of AI by global
tech companies.
>>
>> “Turning a blind eye to the legitimate rights of copyright >> owners threatens
to diminish already precarious creative careers,” she said.
>>
>> “The enrichment of a few powerful companies is at the cost of >> thousands
of individual creators. This is not how a fair market functions.”
>>
>> Josephine Johnston, chief executive of Australia’s Copyright >> Agency,
described the Books3 development as “a free kick to big tech” at the expense
of Australia’s creative and cultural life.
>>
>> “We’re going to need greater transparency – how these tools have >> been
developed, trained, how they operate – before people can truly understand
what their legal rights might be,” she said.
>>
>> “We seem to be in this terrible position now where content >> owners –
remembering that the vast majority of them will be individual authors – may
actually have to take out court cases to enforce their rights.”
>>
>> Australian copyright law protects creators of original content >> from data
scraping.
>>
>> Litigation in the US against ChatGPT creator OpenAI over use of >> allegedly
pirated book datasets, Books1 and Books2 (which do not appear to be
affiliated with Books3) has already commenced.
>>
>> In July, North American horror/fantasy writers Mona Awad (author >> of
Bunny) and Paul Tremblay (author of The Cabin at the End of the World) filed a
lawsuit in a San Francisco federal court, alleging ChatGPT unlawfully digested
their books as part of its AI training data.
>>
>> On 28 August, OpenAI filed a motion to dismiss the lawsuit, >> arguing that
the authors “misconceive the scope of copyright, failing to take into account
the limitations and exceptions (including fair use) that properly leave room for
innovations like the large language models now at the forefront of artificial
intelligence”.
>>
>> On 19 September the Writers Guild and 17 of its members, >> including
bestselling novelists John Grisham, George RR Martin and Jodi Picoult, filed a
complaint in a New York district court against OpenAI, seeking redress for
“flagrant and harmful infringements” of guild members’ registered copyrights.
>>
>> In a statement on its website, the guild says while it is aware >> that
companies such as Meta and Bloomberg have used the Books3 dataset to
train their LLMs, it is not yet clear whether OpenAI is using Books3 to train its
ChatGPT models GPT 3.5 or GPT 4.
>>
>> Democracies face ‘truth decay’ as AI blurs fact and fiction, >> warns
>> head of Australia’s military
>>
>> Guardian Australia has sought comment from OpenAI, which has yet >> to
officially respond to the guild’s complaint, and Meta.
>>
>> On 4 September, US technology magazine Wired reported that a >> Danish
anti-piracy group called Rights Alliance had been told by Bloomberg that the
company did not plan to train future versions of its BloombergGPT using
Books3.
>>
>> Bloomberg declined to respond to the Guardian’s queries.
>>
>> The APA said the global nature of the issue would present >> significant
challenges in enforcement and prosecution, and has joined the authors’
society in calling for AI technologies to be regulated.
>>
>> Consultation closed last month for a Department of Industry, >> Science and
Resources discussion paper on supporting responsible AI.
>>
>> A parliamentary inquiry is under way examining the use of >> generative
artificial intelligence in the Australian education system.
>>
>> Flanagan said it was up to the Australian government to act to >> protect
Australia’s writers.
>>
>> “It has power and we do not,” he said.
>>
>> “If it cares for our culture it must now stand up and fight for it.”
>>
>> _______________________________________________
>> nexa mailing list
>>nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it> >
>>https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa<https >>://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa>
>
> _______________________________________________
> nexa mailing list
>nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it> >
>https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa<https: >//server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa>
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it> >
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa<https:/ /server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa>
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it> >
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa<https://s erver-nexa.polito.it/cgi-bin/mailman/listinfo/nexa>
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it> >
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa<https://s erver-nexa.polito.it/cgi-bin/mailman/listinfo/nexa>
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
On Fri, Sep 29, 2023 at 05:33:04PM +0200, Lorenzo Albertini wrote:
Non so in usa (fair use, che ha ambito applicativo alquanto vasto?)
La posizione (per ora non verificata in tribunale) di Microsoft/GitHub per Copilot è esattamente che il training di modelli ML secondo il copyright americano costituisca fair use. Nel caso dei libri questo non evacua però (credo, IANAL, etc.) la domanda di Stefano Quintarelli su se un contratto d'uso di un ebook impedisca comunque il training. (Nel caso di Microsoft/GitHub la domanda invece non si poneva, perché avevano già tutto il codice che "gentilmente" milioni di sviluppatori gli hanno chiesto di ospitare...) -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'
Circa il contratto su ebook, valgono le clausole ivi inserite . Circa l'ocr da cartaceo, si torna a dover verificare se ciò comporti o meno <riproduzione>. In caso positivo, vedrei poche eccezioni/limitazioni/controdiritti azionabili da OpenAI o simili allenatori di AI ...
-----Messaggio originale----- Da: nexa <nexa-bounces@server-nexa.polito.it> Per conto di Stefano Zacchiroli Inviato: venerdì 29 settembre 2023 19:48 A: 'Nexa' <nexa@server-nexa.polito.it> Oggetto: Re: [nexa] R: R: R: ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian
On Fri, Sep 29, 2023 at 05:33:04PM +0200, Lorenzo Albertini wrote:
Non so in usa (fair use, che ha ambito applicativo alquanto vasto?)
La posizione (per ora non verificata in tribunale) di Microsoft/GitHub per Copilot è esattamente che il training di modelli ML secondo il copyright americano costituisca fair use. Nel caso dei libri questo non evacua però (credo, IANAL, etc.) la domanda di Stefano Quintarelli su se un contratto d'uso di un ebook impedisca comunque il training. (Nel caso di Microsoft/GitHub la domanda invece non si poneva, perché avevano già tutto il codice che "gentilmente" milioni di sviluppatori gli hanno chiesto di ospitare...)
-- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "' _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Stefano Zacchiroli <zack@upsilon.cc> writes:
Nel caso dei libri questo non evacua però (credo, IANAL, etc.) la domanda di Stefano Quintarelli su se un contratto d'uso di un ebook impedisca comunque il training.
Un *contratto* d'uso?!? Cioè tipo le EULA del software? L'unico modo che esiste oggi per imporre un contratto d'uso su un libro elettronico è attraverso l'uso dei DRM, che oltre che poter impedire il training di "AI" di solito impedisce anche uno o più tra questi _diritti_: stampa, copia, uso di software interoperabile... L'ho già detto e ribadisco: Satn'iGNUzio sa quanto io cuor mio speri che anche solo UNO degli ebook (o altro) usati per il "training" sia /impestato/ da un DRM che ve *vieti* la copia: chi conosce il DRM sa cosa comporta, in caso di aggiramento di quel divieto :-D Ribadisco che il riconoscimento giuridico dei DRM come mezzo lecito per "proteggere" le opere oggetto di tutela del copyright è un *abominio* che stravolge _completamente_ il senso, già reazionario, della norma così come la conoscevamo prima. [...] Cordiali saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Buongiorno "Lorenzo Albertini" <lorenzoalbertini.vr@gmail.com> writes: [...]
1. Gli Stati membri dispongono un'eccezione o una limitazione [...] per le riproduzioni e le estrazioni effettuate da opere o altri materiali cui si abbia legalmente accesso ai fini dell'estrazione di testo e di dati.
C'è qualche dubbio che CopyALot o /ogni/ altra organizzazione che effettua estrazione di testo e di dati per il "training" delle "AI" abbiano legalmente accesso ai materiali? Io non credo. [...]
Non so in usa (fair use, che ha ambito applicativo alquanto vasto?)
La norma valida in EU negli effetti è equivalente al c.d. "fair use" USA, dopotutto la convenzione di Berna /dovrebbe/ servire proprio ad armonizzare la disciplina in tutti i paesi aderenti, essendo il copyright una questione neocolo... ops, globale(ista) [...] Cordiali saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Buongiorno Lorenzo, "Lorenzo Albertini" <lorenzoalbertini.vr@gmail.com> writes:
§§ 54-64 della citazione in giudizio (facilmente reperibile , ad es. qui <https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwiD...> ):
scusi ma non ho capito cosa intende aggiungere alla discussione con questi riferimenti estratti dalla citazione sopra indicata: potrebbe espandere il suo commento per favore? [...] piccola digressione quasi OT:
Le informazioni contenute nella presente comunicazione e nei documenti ad essa allegati potrebbero essere tutelate dal segreto professionale e sono comunque confidenziali e ad uso esclusivo del destinatario sopra indicato. Qualora la presente comunicazione non fosse destinata a Voi, Vi preghiamo di tener presente che la divulgazione, distribuzione o riproduzione di qualunque informazione contenuta nella presente comunicazione o nei documenti ad essa allegati sono vietate. Se avete ricevuto la presente comunicazione per errore, Vi preghiamo di volerci avvertire immediatamente e di distruggere quanto ricevuto senza leggerlo. Grazie per la collaborazione.
Mi scusi se faccio notare questa cosa prendendo il suo "disclaimer" come esempio, ne ho visti a quintalate e le assicuro che ovviamente non c'è nulla di personale... ...però questo tipo di "disclaimer" a mio modesto avviso (IANAL) evidenziano in modo plastico quanta confusione c'è in merito alla riservatezza e la _riproduzione_ delle informazioni contenute nelle comunicazioni. Domanda scema: il fatto che in una lista pubblica io e lei utilizziamo - in modi assai diversi - larghe parti dei messaggi che riceviamo nelle nostre risposte è fair use o è vietato? :-D ...o forse il disclaimer è rivolto alla NSA? [...] Cordiali saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
La newsletter "Guerre di Rete" m. 169 del 1 ottobre porta un interessante contributo a questa discussione, sia illustrando come Meta abbia acquisito i tesi di molti libri coperti da copyright e sia indicando uno strumento per verificare se un certo testo sia stato utilizzato per l'addestramento di LLaMa. Qui di seguito trovate la parte della newlsetter che tratta questo problema. Questo è link per sottoscrivere "Guerre di Rete" https://substack.com/redirect/2/eyJlIjoiaHR0cHM6Ly9ndWVycmVkaXJldGUuc3Vic3Rh... ########################### Guerre di Rete - una newsletter di notizie cyber a cura di Carola Frediani N.169 - 1 ottobre 2023 AI La politica dei dataset alla base degli strumenti di intelligenza artificiale La rivista The Atlantic ha messo a disposizione uno strumento (di cui dirò di più a breve) per cercare quali libri e autori facciano parte di un corpus di testi usati per addestrare diversi sistemi di intelligenza artificiale generativa, in particolare LLaMa, una serie di modelli linguistici di grandi dimensioni sviluppati da Meta (Facebook) e simile a GPT di OpenAI (che sta alla base del chatbot ChatGPT). Per capire come la rivista sia riuscita a farlo bisogna fare un passo indietro. Si hanno pochi dettagli sui testi usati per addestrare questi modelli, e questo vale in primis per OpenAI ma anche per altri. Archeologia dei dataset di Llama Sappiamo (dallo stesso primo paper su LLaMa) che Meta ha usato, fra gli altri materiali, due raccolte di libri, il Gutenberg Project, che contiene opere nel pubblico dominio, e la sezione Books3 di un dataset pubblicamente accessibile noto come ThePile (uno zibaldone di libri, sottotitoli di video di YouTube, trascrizioni del Parlamento Ue, email degli impiegati Enron prima del suo fallimento, e altre simili memorabilia), compilato dal gruppo di ricerca di EleutherAI (che si presenta come la versione open source di OpenAI), e usato per addestrare modelli linguistici di grandi dimensioni. Nel paper Meta scrive: “dimostriamo che è possibile addestrare modelli all'avanguardia utilizzando esclusivamente set di dati disponibili pubblicamente, senza ricorrere a set di dati proprietari e inaccessibili”. Cosa c’è dentro Books3 Bene, ma che libri conteneva esattamente Books3? È quello che si è chiesto il giornalista di The Atlantic, che ha prima recuperato ThePile, e poi, come in una serie di scatole cinesi, ha isolato ed estratto Books3, e infine ha usato i codici ISBN per individuare i libri. Insomma, un capolavoro. Così facendo è riuscito a identificare più di 170mila titoli, dopodiché li ha esaminati. La maggior parte, scrive, sono opere “piratate”, cioè coperte da diritto d’autore e aggiunte senza consenso, perlopiù pubblicate negli ultimi 20 anni. Un terzo sono di narrativa, due terzi di saggistica. Ci sono grandi e piccoli editori. Tra gli autori ci sono Elena Ferrante e Rachel Cusk, Haruki Murakami, Jonathan Franzen, Margaret Atwood. Ma anche 102 romanzi di L. Ron Hubbard (il fondatore di Scientology), 90 libri del pastore creazionista John F. MacArthur, opere di pseudo-storia del tipo gli alieni hanno costruito le piramidi ecc. Uno strumento per cercare dentro Books3 The Atlantic ha poi messo a disposizione uno strumento per permettere a chiunque di fare ricerche in questa raccolta. Ho trovato, oltre alla già citata Ferrante, Altai di Wu Ming, ovviamente molto Umberto Eco, Roberto Saviano, Melania Mazzucco, Antonio Scurati, Domenico Starnone, Nicola Lagioia, e questo solo per citare un po’ di nomi che ho volutamente cercato. Rifacciamo un altro passo indietro. Si dice che i contenuti per l’AI siano raccolti (scraped) da internet e da siti pubblicamente accessibili. Nel caso di Books3 i libri sono in realtà stati scaricati da un server bittorrent, scriveva mesi fa l’accademico Peter Schoppert. Ma Books3, almeno nell’intento del suo creatore, nasce per sostenere la ricerca AI open source in contrapposizione alla chiusura e segretezza di OpenAI e al suo monopolio. Così ha spiegato allo stesso The Atlantic lo sviluppatore Shawn Presser che ha assemblato la raccolta di libri. Open source AI contro OpenAI Dunque Books3 sarebbe stato creato per fornire agli sviluppatori indipendenti "dati di addestramento di livello OpenAI". E il suo stesso nome sarebbe un riferimento a un documento pubblicato da OpenAI nel 2020 che menzionava due "corpora di libri basati su Internet" chiamati Books1 e Books2. “Questo documento - scrive The Atlantic - è l'unica fonte primaria che fornisce indizi sul contenuto dei dati di addestramento di GPT(...)”. Si procede quindi a tentoni. Dalle informazioni raccolte dalla comunità di sviluppatori però si ipotizza che Books1 sia la produzione completa di Project Gutenberg (...). Mentre nessuno sa cosa ci sia dentro Books2. “Alcuni sospettano che provenga da raccolte di libri piratati, come Library Genesis, Z-Library e Bibliotik, che circolano attraverso la rete di file-sharing BitTorrent (Books3, come ha annunciato Presser dopo averlo creato, sarebbe "tutto Bibliotik")”. Ma si possono usare questi libri? Arrivati qua si aprirebbe il capitolo di tipo legale, ovvero è possibile o meno usare questi contenuti per addestrare AI? C’è chi sostiene che sia possibile sulla base della dottrina del fair use (e soprattutto sulla base dell’idea che gli strumenti di intelligenza artificiale generativa non replichino i libri su cui sono stati addestrati, ma producano nuove opere, e che non danneggino il mercato degli originali). E c’è chi non è d’accordo, come quegli scrittori, da Michael Chabon ad altri, che hanno avviato una class action contro Meta proprio per questo, perché i loro libri sono inclusi in Books3, poi usato per addestrare LLaMa. Non entro nel merito di questa discussione ora, ma lo stesso Alex Reisner (autore di questo bellissimo lavoro giornalistico su The Atlantic), che è sia un autore che un programmatore del mondo open source, coglie le complesse linee di frattura culturale dell’intera questione (open source contro Big Tech e in mezzo gli studiosi, gli scrittori, i creativi) che rimescolano un po’ le carte rispetto al passato. Lui stesso ha una posizione critica verso l’uso indiscriminato e non consensuale di questi testi. Comunque la si veda, e qualunque cosa verrà stabilita nei tribunali, sapere cosa c’è nei dataset è ora più che mai fondamentale. Ed è una questione assolutamente politica. ########################### Aggiungo i link presenti nel testo e andati perso nel copia / incolla dalla newsletter https://aicopyright.substack.com/p/has-your-book-been-used-to-train https://www.theatlantic.com/technology/archive/2023/09/books3-database-gener... https://aicopyright.substack.com/p/has-your-book-been-used-to-train https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-... Il giorno dom 1 ott 2023 alle ore 11:06 380° <g380@biscuolo.net> ha scritto:
Buongiorno Lorenzo,
"Lorenzo Albertini" <lorenzoalbertini.vr@gmail.com> writes:
§§ 54-64 della citazione in giudizio (facilmente reperibile , ad es. qui < https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwiD...
):
scusi ma non ho capito cosa intende aggiungere alla discussione con questi riferimenti estratti dalla citazione sopra indicata: potrebbe espandere il suo commento per favore?
[...]
piccola digressione quasi OT:
Le informazioni contenute nella presente comunicazione e nei documenti ad essa allegati potrebbero essere tutelate dal segreto professionale e sono comunque confidenziali e ad uso esclusivo del destinatario sopra indicato. Qualora la presente comunicazione non fosse destinata a Voi, Vi preghiamo di tener presente che la divulgazione, distribuzione o riproduzione di qualunque informazione contenuta nella presente comunicazione o nei documenti ad essa allegati sono vietate. Se avete ricevuto la presente comunicazione per errore, Vi preghiamo di volerci avvertire immediatamente e di distruggere quanto ricevuto senza leggerlo. Grazie per la collaborazione.
Mi scusi se faccio notare questa cosa prendendo il suo "disclaimer" come esempio, ne ho visti a quintalate e le assicuro che ovviamente non c'è nulla di personale...
...però questo tipo di "disclaimer" a mio modesto avviso (IANAL) evidenziano in modo plastico quanta confusione c'è in merito alla riservatezza e la _riproduzione_ delle informazioni contenute nelle comunicazioni.
Domanda scema: il fatto che in una lista pubblica io e lei utilizziamo - in modi assai diversi - larghe parti dei messaggi che riceviamo nelle nostre risposte è fair use o è vietato? :-D
...o forse il disclaimer è rivolto alla NSA?
[...]
Cordiali saluti, 380°
-- 380° (Giovanni Biscuolo public alter ego)
«Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché»
Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>. _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Caro Stefano, il tuo ragionamento è corretto. Aggiungo che la rimozione del DRM è già perseguibile come violazione del diritto d’autore, non solo nei paesi UE, ma anche in USA. Se l’opera non è protetta da DRM il discorso è un po’ più complicato: in UE, il contratto di licenza non può escludere certi usi consentiti, in particolare il text and data mining per scopi non commerciali. Può però escludere lo stesso utilizzo se per scopi commerciali e se l’uso è espressamente riservato. In USA non ci sono regole precise, ma la libertà contrattuale tende di solito a prevalere sulla disponibilità di eccezioni (fair use). Non è un caso che nella class action contro GitHub / Copilot i claim si basino interamente su violazione dei contratti di licenza (open source) e sulla rimozione dei DRM, anziché sulla violazione del copyright nel software utilizzato per addestrare l’algoritmo. Un caro saluto Maurizio On Fri, 29 Sep 2023 at 15:21, Stefano Quintarelli <stefano@quintarelli.it> wrote:
Ho una domanda per i giuristi (anzi, piu' di una)
per allenare un modello, ho bisogno di un file con la versione digitale di un testo. (cosnsidero ovviamente testi non PD, CC0, ecc.)
la versione digitale di un testo la posso ottenere da un ebook (gia' digitale), togliendo il probabile DRM. ma un ebook non e' unbene ma e' un servizio soggetto a licenza d'uso, quindi se non e' prevista nella licenza d'uso la facolta' di estrarre il testo digitale per allenarci un modello, mi sembra che ci sia gia' una violazione della licenza, per cui, credo, non possa essere usato come base di un allenamento, tanto piu' se il fine di tale allenamento e' commerciale (se vendo un servizio basato su quel modello).
se e' cosi', per allenare il mio modello devo allora prednere il testo digitale facendo scan/ocr di un testo cartaceo. ma cio' e' possibile, se non erro, solo per uso personale e non commerciale.
se questo e' corretto, non mi pare ci sia un modo per prendere un testo digitale senza infrangere una licenza d'uso/copyright
dove e' la fallacia del ragionamento ?
grazie, s.
On 29/09/23 15:00, Stefano Borroni Barale wrote:
Buongiorno lista,
L'idea che istruire un modello su dei testi coperti da copyright sia una violazione del suddetto copyright è altamente opinabile
Fin qui, ho l'impressione che tutti i legali in lista concorderanno.
ragionamento è in realtà abbastanza semplice: se istruirsi su un testo ne violasse il copyright, saremmo tutti dei criminali.
Ma siccome noi siamo umani e quello che produciamo non è - salvo i discorsi dei politici(*) - ontologicamente identico alla produzione di esseri tecnici non viventi, logica vuole che quanto si applica a noi non possa applicarsi a un LLM, tanto quanto la legge sul copyright non si applica pedissequamente all'utilizzo di testi umani per creare modelli linguistici.
Questo è il motivo per il quale tutti i tentativi di "proteggere via copyright" il prodotto di software generativi sono falliti miseramente, e con motivazioni scritte in sentenze; che per il diritto credo abbiano un peso assai maggiore del sito di CC.
La mia impressione è che la questione terrà impegnati legali, informatici, filosofi e società ancora moooooolto a lungo. SBB
(*) Come sanno bene i bambini degli anni '80 che hanno giocato con questo spassoso giocattolo: https://www.enricodalbosco.it/giochi/tubolario/
Di quei testi
non c'è fisicamente traccia all'interno dei modelli, non viene copiato niente. I modelli sono un'opera trasformativa di quei testi, non derivativa.
Lo argomenta molto bene Creative Commons: https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/
Detto questo, cito le parole di un altro autore, Jeff Jarvis:
https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5HMmeeVqg...
«I, for one, am not complaining about my books being in in large language model training sets. I write to enter ideas into public discourse. I prefer informed over ignorant AI. I believe it is fair use for anyone to read & use books for transformative work. In fact, I'd probably feel snubbed if my books were not there. I'm happy when they are in libraries. I'm fine that they're here.»
Fabio
Il giorno ven 29 set 2023 alle ore 07:52 Alberto Cammozzo via nexa nexa@server-nexa.polito.it ha scritto:
https://www.theguardian.com/australia-news/2023/sep/28/australian-books-trai...
Thousands of books from some of Australia’s most celebrated authors
have potentially been caught up in what Booker prize-winning novelist Richard Flanagan has called “the biggest act of copyright theft in history”.
The works have allegedly been pirated by the US-based Books3 dataset
and used to train generative AI for corporations such as Meta and Bloomberg.
Flanagan, who found 10 of his works, including the multi-international
award-winning 2013 novel The Narrow Road to the Deep North, on the Books3 dataset, told Guardian Australia he was deeply shocked by the discovery made several days ago.
“I felt as if my soul had been strip mined and I was powerless to stop
it,” he said in a statement.
“This is the biggest act of copyright theft in history.”
AI could ‘turbo-charge fraud’ and be monopolised by tech companies,
Andrew Leigh warns
The Australian Publishers Association confirmed to Guardian Australia
on Wednesday that as many as 18,000 fiction and nonfiction titles with Australian ISBNs (unique international standard book numbers) appeared to be affected by the copyright infringement, although it is not yet clear what proportion of these are Australian editions of internationally authored books.
“We’re still working through [the data] to work out the impact in
terms of Australian authors,” APA spokesperson Stuart Glover said.
“This is a massive legal and ethical challenge for the publishing
industry and for authors globally.”
A search tool published on Monday by US media platform The Atlantic
and uploaded by the US Authors Guild on Wednesday revealed the works of Peter Carey, Helen Garner, Kate Grenville, Anna Funder, Christos Tsiolkas and Thomas Keneally, as well as Flanagan and dozens of other high-profile Australian authors, were included in the pirated dataset containing more than 180,000 titles.
On Thursday, the Australian Society of Authors issued a statement
saying it was “horrified” to learn that the works of Australian writers were being used to train artificial intelligence without permission from the authors.
ASA chief executive, Olivia Lanchester, described the Books3 dataset
as piracy on an industrial scale.
“Authors appropriately feel outraged,” Lanchester said. “The fact is
this technology relies upon books, journals, essays written by authors, yet permission was not sought nor compensation granted.”
Lanchester said the Australian literary industry, while not objecting
per se to emerging technologies such as AI, was deeply concerned about the lack of transparency evident in the development and monetisation of AI by global tech companies.
“Turning a blind eye to the legitimate rights of copyright owners
threatens to diminish already precarious creative careers,” she said.
“The enrichment of a few powerful companies is at the cost of
thousands of individual creators. This is not how a fair market functions.”
Josephine Johnston, chief executive of Australia’s Copyright Agency,
described the Books3 development as “a free kick to big tech” at the expense of Australia’s creative and cultural life.
“We’re going to need greater transparency – how these tools have been
developed, trained, how they operate – before people can truly understand what their legal rights might be,” she said.
“We seem to be in this terrible position now where content owners –
remembering that the vast majority of them will be individual authors – may actually have to take out court cases to enforce their rights.”
Australian copyright law protects creators of original content from
data scraping.
Litigation in the US against ChatGPT creator OpenAI over use of
allegedly pirated book datasets, Books1 and Books2 (which do not appear to be affiliated with Books3) has already commenced.
In July, North American horror/fantasy writers Mona Awad (author of
Bunny) and Paul Tremblay (author of The Cabin at the End of the World) filed a lawsuit in a San Francisco federal court, alleging ChatGPT unlawfully digested their books as part of its AI training data.
On 28 August, OpenAI filed a motion to dismiss the lawsuit, arguing
that the authors “misconceive the scope of copyright, failing to take into account the limitations and exceptions (including fair use) that properly leave room for innovations like the large language models now at the forefront of artificial intelligence”.
On 19 September the Writers Guild and 17 of its members, including
bestselling novelists John Grisham, George RR Martin and Jodi Picoult, filed a complaint in a New York district court against OpenAI, seeking redress for “flagrant and harmful infringements” of guild members’ registered copyrights.
In a statement on its website, the guild says while it is aware that
companies such as Meta and Bloomberg have used the Books3 dataset to train their LLMs, it is not yet clear whether OpenAI is using Books3 to train its ChatGPT models GPT 3.5 or GPT 4.
Democracies face ‘truth decay’ as AI blurs fact and fiction, warns
head of Australia’s military
Guardian Australia has sought comment from OpenAI, which has yet to
officially respond to the guild’s complaint, and Meta.
On 4 September, US technology magazine Wired reported that a Danish
anti-piracy group called Rights Alliance had been told by Bloomberg that the company did not plan to train future versions of its BloombergGPT using Books3.
Bloomberg declined to respond to the Guardian’s queries.
The APA said the global nature of the issue would present significant
challenges in enforcement and prosecution, and has joined the authors’ society in calling for AI technologies to be regulated.
Consultation closed last month for a Department of Industry, Science
and Resources discussion paper on supporting responsible AI.
A parliamentary inquiry is under way examining the use of generative
artificial intelligence in the Australian education system.
Flanagan said it was up to the Australian government to act to protect
Australia’s writers.
“It has power and we do not,” he said.
“If it cares for our culture it must now stand up and fight for it.”
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
grazie e per quanto riguarda l'uso di testi generati facendo scansione ed OCR ? grazie!, s. On 29/09/23 19:58, Maurizio Borghi wrote:
Caro Stefano, il tuo ragionamento è corretto. Aggiungo che la rimozione del DRM è già perseguibile come violazione del diritto d’autore, non solo nei paesi UE, ma anche in USA. Se l’opera non è protetta da DRM il discorso è un po’ più complicato: in UE, il contratto di licenza non può escludere certi usi consentiti, in particolare il text and data mining per scopi non commerciali. Può però escludere lo stesso utilizzo se per scopi commerciali e se l’uso è espressamente riservato. In USA non ci sono regole precise, ma la libertà contrattuale tende di solito a prevalere sulla disponibilità di eccezioni (fair use). Non è un caso che nella class action contro GitHub / Copilot i claim si basino interamente su violazione dei contratti di licenza (open source) e sulla rimozione dei DRM, anziché sulla violazione del copyright nel software utilizzato per addestrare l’algoritmo. Un caro saluto Maurizio
On Fri, 29 Sep 2023 at 15:21, Stefano Quintarelli <stefano@quintarelli.it <mailto:stefano@quintarelli.it>> wrote:
Ho una domanda per i giuristi (anzi, piu' di una)
per allenare un modello, ho bisogno di un file con la versione digitale di un testo. (cosnsidero ovviamente testi non PD, CC0, ecc.)
la versione digitale di un testo la posso ottenere da un ebook (gia' digitale), togliendo il probabile DRM. ma un ebook non e' unbene ma e' un servizio soggetto a licenza d'uso, quindi se non e' prevista nella licenza d'uso la facolta' di estrarre il testo digitale per allenarci un modello, mi sembra che ci sia gia' una violazione della licenza, per cui, credo, non possa essere usato come base di un allenamento, tanto piu' se il fine di tale allenamento e' commerciale (se vendo un servizio basato su quel modello).
se e' cosi', per allenare il mio modello devo allora prednere il testo digitale facendo scan/ocr di un testo cartaceo. ma cio' e' possibile, se non erro, solo per uso personale e non commerciale.
se questo e' corretto, non mi pare ci sia un modo per prendere un testo digitale senza infrangere una licenza d'uso/copyright
dove e' la fallacia del ragionamento ?
grazie, s.
On 29/09/23 15:00, Stefano Borroni Barale wrote: > Buongiorno lista, > >> L'idea che istruire un modello su dei testi coperti da copyright sia una violazione del suddetto copyright è altamente opinabile > > Fin qui, ho l'impressione che tutti i legali in lista concorderanno. > >> ragionamento è in realtà abbastanza semplice: se istruirsi su un >> testo ne violasse il copyright, saremmo tutti dei criminali. > > Ma siccome noi siamo umani e quello che produciamo non è - salvo i discorsi dei politici(*) - ontologicamente identico alla produzione di esseri tecnici non viventi, logica vuole che quanto si applica a noi non possa applicarsi a un LLM, tanto quanto la legge sul copyright non si applica pedissequamente all'utilizzo di testi umani per creare modelli linguistici. > > Questo è il motivo per il quale tutti i tentativi di "proteggere via copyright" il prodotto di software generativi sono falliti miseramente, e con motivazioni scritte in sentenze; che per il diritto credo abbiano un peso assai maggiore del sito di CC. > > La mia impressione è che la questione terrà impegnati legali, informatici, filosofi e società ancora moooooolto a lungo. > SBB > > (*) Come sanno bene i bambini degli anni '80 che hanno giocato con questo spassoso giocattolo: https://www.enricodalbosco.it/giochi/tubolario/ <https://www.enricodalbosco.it/giochi/tubolario/> > > > Di quei testi >> non c'è fisicamente traccia all'interno dei modelli, non viene copiato >> niente. I modelli sono un'opera trasformativa di quei testi, non >> derivativa. >> >> Lo argomenta molto bene Creative Commons: >> https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/ <https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/> >> >> Detto questo, cito le parole di un altro autore, Jeff Jarvis: >> https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5HMmeeVqg... <https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5HMmeeVqg...> >> >> «I, for one, am not complaining about my books being in in large >> language model training sets. I write to enter ideas into public >> discourse. I prefer informed over ignorant AI. I believe it is fair >> use for anyone to read & use books for transformative work. In fact, >> I'd probably feel snubbed if my books were not there. I'm happy when >> they are in libraries. I'm fine that they're here.» >> >> Fabio >> >> Il giorno ven 29 set 2023 alle ore 07:52 Alberto Cammozzo via nexa >> nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> ha scritto: >> >>> https://www.theguardian.com/australia-news/2023/sep/28/australian-books-trai... <https://www.theguardian.com/australia-news/2023/sep/28/australian-books-trai...> >>> >>> Thousands of books from some of Australia’s most celebrated authors have potentially been caught up in what Booker prize-winning novelist Richard Flanagan has called “the biggest act of copyright theft in history”. >>> >>> The works have allegedly been pirated by the US-based Books3 dataset and used to train generative AI for corporations such as Meta and Bloomberg. >>> >>> Flanagan, who found 10 of his works, including the multi-international award-winning 2013 novel The Narrow Road to the Deep North, on the Books3 dataset, told Guardian Australia he was deeply shocked by the discovery made several days ago. >>> >>> “I felt as if my soul had been strip mined and I was powerless to stop it,” he said in a statement. >>> >>> “This is the biggest act of copyright theft in history.” >>> >>> AI could ‘turbo-charge fraud’ and be monopolised by tech companies, Andrew Leigh warns >>> >>> The Australian Publishers Association confirmed to Guardian Australia on Wednesday that as many as 18,000 fiction and nonfiction titles with Australian ISBNs (unique international standard book numbers) appeared to be affected by the copyright infringement, although it is not yet clear what proportion of these are Australian editions of internationally authored books. >>> >>> “We’re still working through [the data] to work out the impact in terms of Australian authors,” APA spokesperson Stuart Glover said. >>> >>> “This is a massive legal and ethical challenge for the publishing industry and for authors globally.” >>> >>> A search tool published on Monday by US media platform The Atlantic and uploaded by the US Authors Guild on Wednesday revealed the works of Peter Carey, Helen Garner, Kate Grenville, Anna Funder, Christos Tsiolkas and Thomas Keneally, as well as Flanagan and dozens of other high-profile Australian authors, were included in the pirated dataset containing more than 180,000 titles. >>> >>> On Thursday, the Australian Society of Authors issued a statement saying it was “horrified” to learn that the works of Australian writers were being used to train artificial intelligence without permission from the authors. >>> >>> ASA chief executive, Olivia Lanchester, described the Books3 dataset as piracy on an industrial scale. >>> >>> “Authors appropriately feel outraged,” Lanchester said. “The fact is this technology relies upon books, journals, essays written by authors, yet permission was not sought nor compensation granted.” >>> >>> Lanchester said the Australian literary industry, while not objecting per se to emerging technologies such as AI, was deeply concerned about the lack of transparency evident in the development and monetisation of AI by global tech companies. >>> >>> “Turning a blind eye to the legitimate rights of copyright owners threatens to diminish already precarious creative careers,” she said. >>> >>> “The enrichment of a few powerful companies is at the cost of thousands of individual creators. This is not how a fair market functions.” >>> >>> Josephine Johnston, chief executive of Australia’s Copyright Agency, described the Books3 development as “a free kick to big tech” at the expense of Australia’s creative and cultural life. >>> >>> “We’re going to need greater transparency – how these tools have been developed, trained, how they operate – before people can truly understand what their legal rights might be,” she said. >>> >>> “We seem to be in this terrible position now where content owners – remembering that the vast majority of them will be individual authors – may actually have to take out court cases to enforce their rights.” >>> >>> Australian copyright law protects creators of original content from data scraping. >>> >>> Litigation in the US against ChatGPT creator OpenAI over use of allegedly pirated book datasets, Books1 and Books2 (which do not appear to be affiliated with Books3) has already commenced. >>> >>> In July, North American horror/fantasy writers Mona Awad (author of Bunny) and Paul Tremblay (author of The Cabin at the End of the World) filed a lawsuit in a San Francisco federal court, alleging ChatGPT unlawfully digested their books as part of its AI training data. >>> >>> On 28 August, OpenAI filed a motion to dismiss the lawsuit, arguing that the authors “misconceive the scope of copyright, failing to take into account the limitations and exceptions (including fair use) that properly leave room for innovations like the large language models now at the forefront of artificial intelligence”. >>> >>> On 19 September the Writers Guild and 17 of its members, including bestselling novelists John Grisham, George RR Martin and Jodi Picoult, filed a complaint in a New York district court against OpenAI, seeking redress for “flagrant and harmful infringements” of guild members’ registered copyrights. >>> >>> In a statement on its website, the guild says while it is aware that companies such as Meta and Bloomberg have used the Books3 dataset to train their LLMs, it is not yet clear whether OpenAI is using Books3 to train its ChatGPT models GPT 3.5 or GPT 4. >>> >>> Democracies face ‘truth decay’ as AI blurs fact and fiction, warns head of Australia’s military >>> >>> Guardian Australia has sought comment from OpenAI, which has yet to officially respond to the guild’s complaint, and Meta. >>> >>> On 4 September, US technology magazine Wired reported that a Danish anti-piracy group called Rights Alliance had been told by Bloomberg that the company did not plan to train future versions of its BloombergGPT using Books3. >>> >>> Bloomberg declined to respond to the Guardian’s queries. >>> >>> The APA said the global nature of the issue would present significant challenges in enforcement and prosecution, and has joined the authors’ society in calling for AI technologies to be regulated. >>> >>> Consultation closed last month for a Department of Industry, Science and Resources discussion paper on supporting responsible AI. >>> >>> A parliamentary inquiry is under way examining the use of generative artificial intelligence in the Australian education system. >>> >>> Flanagan said it was up to the Australian government to act to protect Australia’s writers. >>> >>> “It has power and we do not,” he said. >>> >>> “If it cares for our culture it must now stand up and fight for it.” >>> >>> _______________________________________________ >>> nexa mailing list >>> nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> >>> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa <https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa> >> >> _______________________________________________ >> nexa mailing list >> nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> >> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa <https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa> > _______________________________________________ > nexa mailing list > nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> > https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa <https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa> _______________________________________________ nexa mailing list nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa <https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa>
È una riproduzione. In UE è permessa solo per scopo di text and data mining per ricerca senza finalità commerciali, oppure commerciali se l’autore non ha riservato il diritto. In USA si entra nel limbo del fair use, su cui nessuna corte di è ancora pronunciata. M. On Fri, 29 Sep 2023 at 20:03, Stefano Quintarelli <stefano@quintarelli.it> wrote:
grazie
e per quanto riguarda l'uso di testi generati facendo scansione ed OCR ?
grazie!, s.
On 29/09/23 19:58, Maurizio Borghi wrote:
Caro Stefano, il tuo ragionamento è corretto. Aggiungo che la rimozione del DRM è già perseguibile come violazione del diritto d’autore, non solo nei paesi UE, ma anche in USA. Se l’opera non è protetta da DRM il discorso è un po’ più complicato: in UE, il contratto di licenza non può escludere certi usi consentiti, in particolare il text and data mining per scopi non commerciali. Può però escludere lo stesso utilizzo se per scopi commerciali e se l’uso è espressamente riservato. In USA non ci sono regole precise, ma la libertà contrattuale tende di solito a prevalere sulla disponibilità di eccezioni (fair use). Non è un caso che nella class action contro GitHub / Copilot i claim si basino interamente su violazione dei contratti di licenza (open source) e sulla rimozione dei DRM, anziché sulla violazione del copyright nel software utilizzato per addestrare l’algoritmo. Un caro saluto Maurizio
On Fri, 29 Sep 2023 at 15:21, Stefano Quintarelli < stefano@quintarelli.it <mailto:stefano@quintarelli.it>> wrote:
Ho una domanda per i giuristi (anzi, piu' di una)
per allenare un modello, ho bisogno di un file con la versione digitale di un testo. (cosnsidero ovviamente testi non PD, CC0, ecc.)
la versione digitale di un testo la posso ottenere da un ebook (gia' digitale), togliendo il probabile DRM. ma un ebook non e' unbene ma e' un servizio soggetto a licenza d'uso, quindi se non e' prevista nella licenza d'uso la facolta' di estrarre il testo digitale per allenarci un modello, mi sembra che ci sia gia' una violazione della licenza, per cui, credo, non possa essere usato come base di un allenamento, tanto piu' se il fine di tale allenamento e' commerciale (se vendo un servizio basato su quel modello).
se e' cosi', per allenare il mio modello devo allora prednere il testo digitale facendo scan/ocr di un testo cartaceo. ma cio' e' possibile, se non erro, solo per uso personale e non commerciale.
se questo e' corretto, non mi pare ci sia un modo per prendere un testo digitale senza infrangere una licenza d'uso/copyright
dove e' la fallacia del ragionamento ?
grazie, s.
On 29/09/23 15:00, Stefano Borroni Barale wrote: > Buongiorno lista, > >> L'idea che istruire un modello su dei testi coperti da copyright sia una violazione del suddetto copyright è altamente opinabile > > Fin qui, ho l'impressione che tutti i legali in lista concorderanno. > >> ragionamento è in realtà abbastanza semplice: se istruirsi su un >> testo ne violasse il copyright, saremmo tutti dei criminali. > > Ma siccome noi siamo umani e quello che produciamo non è - salvo i discorsi dei politici(*) - ontologicamente identico alla produzione di esseri tecnici non viventi, logica vuole che quanto si applica a noi non possa applicarsi a un LLM, tanto quanto la legge sul copyright non si applica pedissequamente all'utilizzo di testi umani per creare modelli linguistici. > > Questo è il motivo per il quale tutti i tentativi di "proteggere via copyright" il prodotto di software generativi sono falliti miseramente, e con motivazioni scritte in sentenze; che per il diritto credo abbiano un peso assai maggiore del sito di CC. > > La mia impressione è che la questione terrà impegnati legali, informatici, filosofi e società ancora moooooolto a lungo. > SBB > > (*) Come sanno bene i bambini degli anni '80 che hanno giocato con questo spassoso giocattolo: https://www.enricodalbosco.it/giochi/tubolario/ <https://www.enricodalbosco.it/giochi/tubolario/> > > > Di quei testi >> non c'è fisicamente traccia all'interno dei modelli, non viene copiato >> niente. I modelli sono un'opera trasformativa di quei testi, non >> derivativa. >> >> Lo argomenta molto bene Creative Commons: >> https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/ < https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/> >> >> Detto questo, cito le parole di un altro autore, Jeff Jarvis: >>
https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5HMmeeVqg... < https://www.facebook.com/jeff.jarvis/posts/pfbid0LMFeqdTYoxnGHQAZwp5HMmeeVqg...
>> >> «I, for one, am not complaining about my books being in in large >> language model training sets. I write to enter ideas into public >> discourse. I prefer informed over ignorant AI. I believe it is
fair
>> use for anyone to read & use books for transformative work. In
fact,
>> I'd probably feel snubbed if my books were not there. I'm happy
when
>> they are in libraries. I'm fine that they're here.» >> >> Fabio >> >> Il giorno ven 29 set 2023 alle ore 07:52 Alberto Cammozzo via
nexa
>> nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it>
ha scritto:
>> >>>
https://www.theguardian.com/australia-news/2023/sep/28/australian-books-trai... < https://www.theguardian.com/australia-news/2023/sep/28/australian-books-trai...
>>> >>> Thousands of books from some of Australia’s most celebrated
authors have
potentially been caught up in what Booker prize-winning novelist
Richard Flanagan has
called “the biggest act of copyright theft in history”. >>> >>> The works have allegedly been pirated by the US-based Books3
dataset and used to
train generative AI for corporations such as Meta and Bloomberg. >>> >>> Flanagan, who found 10 of his works, including the
multi-international
award-winning 2013 novel The Narrow Road to the Deep North, on the
Books3 dataset,
told Guardian Australia he was deeply shocked by the discovery made
several days ago.
>>> >>> “I felt as if my soul had been strip mined and I was powerless
to stop it,” he
said in a statement. >>> >>> “This is the biggest act of copyright theft in history.” >>> >>> AI could ‘turbo-charge fraud’ and be monopolised by tech
companies, Andrew Leigh
warns >>> >>> The Australian Publishers Association confirmed to Guardian
Australia on
Wednesday that as many as 18,000 fiction and nonfiction titles with
Australian ISBNs
(unique international standard book numbers) appeared to be affected
by the copyright
infringement, although it is not yet clear what proportion of these
are Australian
editions of internationally authored books. >>> >>> “We’re still working through [the data] to work out the impact
in terms of
Australian authors,” APA spokesperson Stuart Glover said. >>> >>> “This is a massive legal and ethical challenge for the
publishing industry and
for authors globally.” >>> >>> A search tool published on Monday by US media platform The
Atlantic and uploaded
by the US Authors Guild on Wednesday revealed the works of Peter
Carey, Helen Garner,
Kate Grenville, Anna Funder, Christos Tsiolkas and Thomas Keneally,
as well as
Flanagan and dozens of other high-profile Australian authors, were
included in the
pirated dataset containing more than 180,000 titles. >>> >>> On Thursday, the Australian Society of Authors issued a
statement saying it was
“horrified” to learn that the works of Australian writers were being
used to train
artificial intelligence without permission from the authors. >>> >>> ASA chief executive, Olivia Lanchester, described the Books3
dataset as piracy on
an industrial scale. >>> >>> “Authors appropriately feel outraged,” Lanchester said. “The
fact is this
technology relies upon books, journals, essays written by authors,
yet permission was
not sought nor compensation granted.” >>> >>> Lanchester said the Australian literary industry, while not
objecting per se to
emerging technologies such as AI, was deeply concerned about the
lack of transparency
evident in the development and monetisation of AI by global tech
companies.
>>> >>> “Turning a blind eye to the legitimate rights of copyright
owners threatens to
diminish already precarious creative careers,” she said. >>> >>> “The enrichment of a few powerful companies is at the cost of
thousands of
individual creators. This is not how a fair market functions.” >>> >>> Josephine Johnston, chief executive of Australia’s Copyright
Agency, described
the Books3 development as “a free kick to big tech” at the expense
of Australia’s
creative and cultural life. >>> >>> “We’re going to need greater transparency – how these tools
have been developed,
trained, how they operate – before people can truly understand what
their legal rights
might be,” she said. >>> >>> “We seem to be in this terrible position now where content
owners – remembering
that the vast majority of them will be individual authors – may
actually have to take
out court cases to enforce their rights.” >>> >>> Australian copyright law protects creators of original content
from data scraping.
>>> >>> Litigation in the US against ChatGPT creator OpenAI over use of
allegedly pirated
book datasets, Books1 and Books2 (which do not appear to be
affiliated with Books3)
has already commenced. >>> >>> In July, North American horror/fantasy writers Mona Awad
(author of Bunny) and
Paul Tremblay (author of The Cabin at the End of the World) filed a
lawsuit in a San
Francisco federal court, alleging ChatGPT unlawfully digested their
books as part of
its AI training data. >>> >>> On 28 August, OpenAI filed a motion to dismiss the lawsuit,
arguing that the
authors “misconceive the scope of copyright, failing to take into
account the
limitations and exceptions (including fair use) that properly leave
room for
innovations like the large language models now at the forefront of
artificial
intelligence”. >>> >>> On 19 September the Writers Guild and 17 of its members,
including bestselling
novelists John Grisham, George RR Martin and Jodi Picoult, filed a
complaint in a New
York district court against OpenAI, seeking redress for “flagrant
and harmful
infringements” of guild members’ registered copyrights. >>> >>> In a statement on its website, the guild says while it is aware
that companies
such as Meta and Bloomberg have used the Books3 dataset to train
their LLMs, it is not
yet clear whether OpenAI is using Books3 to train its ChatGPT models
GPT 3.5 or GPT 4.
>>> >>> Democracies face ‘truth decay’ as AI blurs fact and fiction,
warns head of
Australia’s military >>> >>> Guardian Australia has sought comment from OpenAI, which has
yet to officially
respond to the guild’s complaint, and Meta. >>> >>> On 4 September, US technology magazine Wired reported that a
Danish anti-piracy
group called Rights Alliance had been told by Bloomberg that the
company did not plan
to train future versions of its BloombergGPT using Books3. >>> >>> Bloomberg declined to respond to the Guardian’s queries. >>> >>> The APA said the global nature of the issue would present
significant challenges
in enforcement and prosecution, and has joined the authors’ society
in calling for AI
technologies to be regulated. >>> >>> Consultation closed last month for a Department of Industry,
Science and
Resources discussion paper on supporting responsible AI. >>> >>> A parliamentary inquiry is under way examining the use of
generative artificial
intelligence in the Australian education system. >>> >>> Flanagan said it was up to the Australian government to act to
protect
Australia’s writers. >>> >>> “It has power and we do not,” he said. >>> >>> “If it cares for our culture it must now stand up and fight for
it.”
>>> >>> _______________________________________________ >>> nexa mailing list >>> nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> >>> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa <https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa> >> >> _______________________________________________ >> nexa mailing list >> nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> >> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa <https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa> > _______________________________________________ > nexa mailing list > nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> > https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa <https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa> _______________________________________________ nexa mailing list nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa <https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa>
Buongiorno Maurizio, Maurizio Borghi via nexa <nexa@server-nexa.polito.it> writes:
È una riproduzione. In UE è permessa solo per scopo di text and data mining per ricerca senza finalità commerciali, oppure commerciali se l’autore non ha riservato il diritto.
É corretto dire che l'articolo applicabile a questo aspetto è quello indicato da Lorenzo Albertini in questo thread? --8<---------------cut here---------------start------------->8--- art. 4 dir. Copyright 790 : ≪Articolo 4 Eccezioni o limitazioni ai fini dell'estrazione di testo e di dati 1. Gli Stati membri dispongono un'eccezione o una limitazione ai diritti di cui all'articolo 5, lettera a), e all'articolo 7, paragrafo 1, della direttiva 96/9/CE, all'articolo 2 della direttiva 2001/29/CE, all'articolo 4, paragrafo 1, lettere a) e b), della direttiva 2009/24/CE e all'articolo 15, paragrafo 1, della presente direttiva per le riproduzioni e le estrazioni effettuate da opere o altri materiali cui si abbia legalmente accesso ai fini dell'estrazione di testo e di dati. [...] 3. L'eccezione o la limitazione di cui al paragrafo 1 si applica a condizione che l'utilizzo delle opere e di altri materiali di cui a tale paragrafo non sia stato espressamente riservato dai titolari dei diritti in modo appropriato, ad esempio attraverso strumenti che consentano lettura automatizzata in caso di contenuti resi pubblicamente disponibili online. --8<---------------cut here---------------end--------------->8--- Se la risposta alla domanda sopra è sì, dove evince che l'estrazione di testo e dati sono consentiti solo per ricerca senza finalità commerciali? [1] Domanda di riserva: perché io, che sono informatico, non riesco a trovare un senso al paragrafo 3 nemmeno se giro il periodo un tre modi diversi?!? Cioè tipo: «gli strumenti che consentono la lettura automatizzata di contenuti resi pubblicamente disponibili online è un modo appropriato per condizionare espressamente l'utilizzo delle opere di cui al par. 1»? Avrebbe voglia di aiutarmi a capire, per cortesia? :-)
In USA si entra nel limbo del fair use, su cui nessuna corte di è ancora pronunciata.
"Don't ask, don't tell" :-O [...] Cordiali saluti, 380° [1] senza scopo commerciale, senza fini di lucro e compagnia cantante sono il *cavallo di troia* di motissime condizioni di utilizzo delle opere, che così vengono utilizzare per scopo di lucro /solo/ dai soliti noti. -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
participants (17)
-
380° -
Alberto Cammozzo -
Angelo Raffaele Meo -
Antonio -
Damiano Verzulli -
Fabio Alemagna -
GC F -
Giacomo Tesio -
Giancarlo Frosio -
Lorenzo Albertini -
M. Fioretti -
Maurizio Borghi -
mauro gorrino -
Rossana Morriello -
Stefano Borroni Barale -
Stefano Quintarelli -
Stefano Zacchiroli