AI Training is Copyright Infringement
Press Release: A computer scientist and a legal scholar shed light on the black box of processing steps in AI training - for the first time on this scale. The presentation of the interdisciplinary study “Copyright & Training of Generative AI - Technological and Legal Foundations” took place today in the European Parliament. In spring, the Copyright Initiative commissioned Prof. Dr. Tim W. Dornis (University of Hannover) in collaboration with Prof. Dr. Sebastian Stober (University of Magdeburg) with a tandem expert opinion on the technological and legal aspects of training generative AI models. Their interdisciplinary research provides urgently needed new insights into the technically necessary intermediate steps in the training of generative artificial intelligence. For the first time on this scale, a computer scientist and a legal scholar are jointly creating evidence regarding the processing steps in AI training. During the event, many open questions about protected materials were answered in a well-founded, reliable manner and in line with the current state of the art. The work of Prof. Dornis and Prof. Stober focuses on the copyright assessment of the processing of protected material in AI training: “As a closer look at the technology of generative AI models reveals, the training of such models is not a case of text and data mining. It is a case of copyright infringement – no exception applies under German and European copyright law,” says Prof. Dornis. Prof. Stober explains that “parts of the training data can be memorized in whole or in part by current generative models - LLMs and (latent) diffusion models - and can therefore be generated again with suitable prompts by end users and thus reproduced.” Axel Voss, MEP and host of today's event in the European Parliament, expressly thanks the scientists Dornis and Stober and is pleased that “the study not only proves that the training of Generative AI models is not covered by text and data mining, but that it also provides further important indications and suggestions for a better balance between the protection of human creativity and the promotion of AI innovation.” “This study is explosive because it proves that we are dealing with large-scale theft of intellectual property. The ball is now in the politicians' court to draw the necessary conclusions and finally put an end to this theft at the expense of journalists and other authors,” commented Hanna Möllers, legal advisor to the DJV and representative of the European Federation of Journalists (EFJ). Katharina Uppenbrink, Managing Director of the Initiative Urheberrecht, emphasizes: “It is a groundbreaking result if we now have proof that the reproduction of works by an AI model constitutes a copyright-relevant reproduction and, in addition, that making them available on the European Union market may infringe the right of making available to the public.” The composer and spokesperson for the Copyright Initiative, Matthias Hornschuh, comments: “There would be a new, profitable licensing market on the horizon, but no remuneration is flowing, while generative AI is preparing to replace those whose content it lives from in its own market. This jeopardizes professional knowledge work and cannot be in the interests of society, culture or the economy. All the better that the authors of our tandem study provide the technological and copyright basis for finally turning the legal consideration of generative artificial intelligence from its head to its feet.” Dornis, Tim W. and Stober, Sebastian, Copyright and training of generative AI models - technological and legal foundations (September 4, 2024). https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4946214 (in German) Please find below the downloads: The abstract can be found below and here (in English and German language): <https://urheber.info/media/pages/diskurs/ai-training-is-copyright-infringeme...> The executive summary: <https://urheber.info/media/pages/diskurs/ai-training-is-copyright-infringeme...> The presentation in Berlin will take place at the end of September. <https://urheber.info/diskurs/ai-training-is-copyright-infringement>
qui è utile richiamare Giraudo, Marco. «On Legal Bubbles: Some Thoughts on Legal Shockwaves at the Core of the Digital Economy». /Journal of Institutional Economics/ 18, fasc. 4 (agosto 2022): 587–604. https://doi.org/10.1017/S1744137421000473. Maurizio Il 06/09/24 00:02, Daniela Tafani ha scritto:
Press Release: A computer scientist and a legal scholar shed light on the black box of processing steps in AI training - for the first time on this scale.
The presentation of the interdisciplinary study “Copyright & Training of Generative AI - Technological and Legal Foundations” took place today in the European Parliament.
In spring, the Copyright Initiative commissioned Prof. Dr. Tim W. Dornis (University of Hannover) in collaboration with Prof. Dr. Sebastian Stober (University of Magdeburg) with a tandem expert opinion on the technological and legal aspects of training generative AI models. Their interdisciplinary research provides urgently needed new insights into the technically necessary intermediate steps in the training of generative artificial intelligence. For the first time on this scale, a computer scientist and a legal scholar are jointly creating evidence regarding the processing steps in AI training. During the event, many open questions about protected materials were answered in a well-founded, reliable manner and in line with the current state of the art.
The work of Prof. Dornis and Prof. Stober focuses on the copyright assessment of the processing of protected material in AI training:
“As a closer look at the technology of generative AI models reveals, the training of such models is not a case of text and data mining. It is a case of copyright infringement – no exception applies under German and European copyright law,” says Prof. Dornis. Prof. Stober explains that “parts of the training data can be memorized in whole or in part by current generative models - LLMs and (latent) diffusion models - and can therefore be generated again with suitable prompts by end users and thus reproduced.” Axel Voss, MEP and host of today's event in the European Parliament, expressly thanks the scientists Dornis and Stober and is pleased that
“the study not only proves that the training of Generative AI models is not covered by text and data mining, but that it also provides further important indications and suggestions for a better balance between the protection of human creativity and the promotion of AI innovation.” “This study is explosive because it proves that we are dealing with large-scale theft of intellectual property. The ball is now in the politicians' court to draw the necessary conclusions and finally put an end to this theft at the expense of journalists and other authors,” commented Hanna Möllers, legal advisor to the DJV and representative of the European Federation of Journalists (EFJ).
Katharina Uppenbrink, Managing Director of the Initiative Urheberrecht, emphasizes:
“It is a groundbreaking result if we now have proof that the reproduction of works by an AI model constitutes a copyright-relevant reproduction and, in addition, that making them available on the European Union market may infringe the right of making available to the public.” The composer and spokesperson for the Copyright Initiative, Matthias Hornschuh, comments:
“There would be a new, profitable licensing market on the horizon, but no remuneration is flowing, while generative AI is preparing to replace those whose content it lives from in its own market. This jeopardizes professional knowledge work and cannot be in the interests of society, culture or the economy. All the better that the authors of our tandem study provide the technological and copyright basis for finally turning the legal consideration of generative artificial intelligence from its head to its feet.” Dornis, Tim W. and Stober, Sebastian, Copyright and training of generative AI models - technological and legal foundations
(September 4, 2024).
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4946214
(in German)
Please find below the downloads:
The abstract can be found below and here (in English and German language): <https://urheber.info/media/pages/diskurs/ai-training-is-copyright-infringeme...> The executive summary:<https://urheber.info/media/pages/diskurs/ai-training-is-copyright-infringeme...> The presentation in Berlin will take place at the end of September.
<https://urheber.info/diskurs/ai-training-is-copyright-infringement>
------------------------------------------------------------------------ felicità del poco edith bruck ------------------------------------------------------------------------ Maurizio Lana Università del Piemonte Orientale Dipartimento di Studi Umanistici Piazza Roma 36 - 13100 Vercelli
sounds familiar... se non sbaglio fu Locke a postulare che i frutti della terra appartenevano a chi la lavorava, ponendo le basi ideologiche per l'appropriazione dei territori indiani da parte dei coloni. una massiccia appropriazione di valore da parte dei newcomers a scapito dei precedenti. ciao, s. Il 5 settembre 2024 21:02:50 UTC, Daniela Tafani <daniela.tafani@unipi.it> ha scritto:
Press Release: A computer scientist and a legal scholar shed light on the black box of processing steps in AI training - for the first time on this scale.
The presentation of the interdisciplinary study “Copyright & Training of Generative AI - Technological and Legal Foundations” took place today in the European Parliament.
In spring, the Copyright Initiative commissioned Prof. Dr. Tim W. Dornis (University of Hannover) in collaboration with Prof. Dr. Sebastian Stober (University of Magdeburg) with a tandem expert opinion on the technological and legal aspects of training generative AI models. Their interdisciplinary research provides urgently needed new insights into the technically necessary intermediate steps in the training of generative artificial intelligence. For the first time on this scale, a computer scientist and a legal scholar are jointly creating evidence regarding the processing steps in AI training. During the event, many open questions about protected materials were answered in a well-founded, reliable manner and in line with the current state of the art.
The work of Prof. Dornis and Prof. Stober focuses on the copyright assessment of the processing of protected material in AI training:
“As a closer look at the technology of generative AI models reveals, the training of such models is not a case of text and data mining. It is a case of copyright infringement – no exception applies under German and European copyright law,” says Prof. Dornis. Prof. Stober explains that “parts of the training data can be memorized in whole or in part by current generative models - LLMs and (latent) diffusion models - and can therefore be generated again with suitable prompts by end users and thus reproduced.” Axel Voss, MEP and host of today's event in the European Parliament, expressly thanks the scientists Dornis and Stober and is pleased that
“the study not only proves that the training of Generative AI models is not covered by text and data mining, but that it also provides further important indications and suggestions for a better balance between the protection of human creativity and the promotion of AI innovation.” “This study is explosive because it proves that we are dealing with large-scale theft of intellectual property. The ball is now in the politicians' court to draw the necessary conclusions and finally put an end to this theft at the expense of journalists and other authors,” commented Hanna Möllers, legal advisor to the DJV and representative of the European Federation of Journalists (EFJ).
Katharina Uppenbrink, Managing Director of the Initiative Urheberrecht, emphasizes:
“It is a groundbreaking result if we now have proof that the reproduction of works by an AI model constitutes a copyright-relevant reproduction and, in addition, that making them available on the European Union market may infringe the right of making available to the public.” The composer and spokesperson for the Copyright Initiative, Matthias Hornschuh, comments:
“There would be a new, profitable licensing market on the horizon, but no remuneration is flowing, while generative AI is preparing to replace those whose content it lives from in its own market. This jeopardizes professional knowledge work and cannot be in the interests of society, culture or the economy. All the better that the authors of our tandem study provide the technological and copyright basis for finally turning the legal consideration of generative artificial intelligence from its head to its feet.” Dornis, Tim W. and Stober, Sebastian, Copyright and training of generative AI models - technological and legal foundations
(September 4, 2024).
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4946214
(in German)
Please find below the downloads:
The abstract can be found below and here (in English and German language): <https://urheber.info/media/pages/diskurs/ai-training-is-copyright-infringeme...> The executive summary: <https://urheber.info/media/pages/diskurs/ai-training-is-copyright-infringeme...> The presentation in Berlin will take place at the end of September.
<https://urheber.info/diskurs/ai-training-is-copyright-infringement>
Studio commissionato da una lobby di parte che "sorprendentemente" fornisce prova che serve gli interessi di quella parte ("we now have proof that" - sic!). Al di là dei contenuti specifici, e siamo in molti con posizioni differenti o perlomeno più caute (e infatti, "This study challenges the prevailing European legal stance" e aggiungerei "internazionale"), ma qual'è il valore scientifico visto il contesto? Poi, aggiungerei, il fatto che l'intero rapporto sia redatto in tedesco non aiuta neppure l'accesso alla comunità internazionale per vagliare premesse, sviluppo del ragionamento e conclusioni. A una preliminare lettura tramite traduzione automatizzata di ToC e intro, non vendo riferimenti importanti alle questioni salienti, eg quali "dicotomia idea/espressione", forse la grundnorm del diritto d'autore, potenziale liceità della copia digitale intermedia per usi trasformativi, distinzione input e output (e se questo output finale violi o meno i diritti autoriali quale opera derivata), distinzione tra responsabilità delle piattaforma che addestra la macchina a produrre "infinite" potenzialità lecite e illecite e responsabilità dell'utente finale che fornisce alla macchina quei "suitable prompts" che conducono a generare materiali illeciti, circonvenendo tra l'altro gli strumenti tecnologici a tutela dei diritti autoriali che le piattaforme generative hanno implementato nella creazione dell'algoritmo. Comunque, "we now have proof"...e allora ci dimenticheremo dei tanti dubbi che la "prevailing legal stance" si pone... On Thu, Sep 5, 2024 at 10:02 PM Daniela Tafani <daniela.tafani@unipi.it> wrote:
Press Release: A computer scientist and a legal scholar shed light on the black box of processing steps in AI training - for the first time on this scale.
The presentation of the interdisciplinary study “Copyright & Training of Generative AI - Technological and Legal Foundations” took place today in the European Parliament.
In spring, the Copyright Initiative commissioned Prof. Dr. Tim W. Dornis (University of Hannover) in collaboration with Prof. Dr. Sebastian Stober (University of Magdeburg) with a tandem expert opinion on the technological and legal aspects of training generative AI models. Their interdisciplinary research provides urgently needed new insights into the technically necessary intermediate steps in the training of generative artificial intelligence. For the first time on this scale, a computer scientist and a legal scholar are jointly creating evidence regarding the processing steps in AI training. During the event, many open questions about protected materials were answered in a well-founded, reliable manner and in line with the current state of the art.
The work of Prof. Dornis and Prof. Stober focuses on the copyright assessment of the processing of protected material in AI training:
“As a closer look at the technology of generative AI models reveals, the training of such models is not a case of text and data mining. It is a case of copyright infringement – no exception applies under German and European copyright law,” says Prof. Dornis. Prof. Stober explains that “parts of the training data can be memorized in whole or in part by current generative models - LLMs and (latent) diffusion models - and can therefore be generated again with suitable prompts by end users and thus reproduced.” Axel Voss, MEP and host of today's event in the European Parliament, expressly thanks the scientists Dornis and Stober and is pleased that
“the study not only proves that the training of Generative AI models is not covered by text and data mining, but that it also provides further important indications and suggestions for a better balance between the protection of human creativity and the promotion of AI innovation.” “This study is explosive because it proves that we are dealing with large-scale theft of intellectual property. The ball is now in the politicians' court to draw the necessary conclusions and finally put an end to this theft at the expense of journalists and other authors,” commented Hanna Möllers, legal advisor to the DJV and representative of the European Federation of Journalists (EFJ).
Katharina Uppenbrink, Managing Director of the Initiative Urheberrecht, emphasizes:
“It is a groundbreaking result if we now have proof that the reproduction of works by an AI model constitutes a copyright-relevant reproduction and, in addition, that making them available on the European Union market may infringe the right of making available to the public.” The composer and spokesperson for the Copyright Initiative, Matthias Hornschuh, comments:
“There would be a new, profitable licensing market on the horizon, but no remuneration is flowing, while generative AI is preparing to replace those whose content it lives from in its own market. This jeopardizes professional knowledge work and cannot be in the interests of society, culture or the economy. All the better that the authors of our tandem study provide the technological and copyright basis for finally turning the legal consideration of generative artificial intelligence from its head to its feet.” Dornis, Tim W. and Stober, Sebastian, Copyright and training of generative AI models - technological and legal foundations
(September 4, 2024).
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4946214
(in German)
Please find below the downloads:
The abstract can be found below and here (in English and German language): < https://urheber.info/media/pages/diskurs/ai-training-is-copyright-infringeme...
The executive summary: < https://urheber.info/media/pages/diskurs/ai-training-is-copyright-infringeme...
The presentation in Berlin will take place at the end of September.
<https://urheber.info/diskurs/ai-training-is-copyright-infringement>
e daremo il benvenuto al "third enclosure movement" e l'ennesima vittoria del "copyright maximalism"... Giancarlo On Thu, Sep 5, 2024 at 11:57 PM GC F <gcfrosio@gmail.com> wrote:
Studio commissionato da una lobby di parte che "sorprendentemente" fornisce prova che serve gli interessi di quella parte ("we now have proof that" - sic!). Al di là dei contenuti specifici, e siamo in molti con posizioni differenti o perlomeno più caute (e infatti, "This study challenges the prevailing European legal stance" e aggiungerei "internazionale"), ma qual'è il valore scientifico visto il contesto? Poi, aggiungerei, il fatto che l'intero rapporto sia redatto in tedesco non aiuta neppure l'accesso alla comunità internazionale per vagliare premesse, sviluppo del ragionamento e conclusioni. A una preliminare lettura tramite traduzione automatizzata di ToC e intro, non vendo riferimenti importanti alle questioni salienti, eg quali "dicotomia idea/espressione", forse la grundnorm del diritto d'autore, potenziale liceità della copia digitale intermedia per usi trasformativi, distinzione input e output (e se questo output finale violi o meno i diritti autoriali quale opera derivata), distinzione tra responsabilità delle piattaforma che addestra la macchina a produrre "infinite" potenzialità lecite e illecite e responsabilità dell'utente finale che fornisce alla macchina quei "suitable prompts" che conducono a generare materiali illeciti, circonvenendo tra l'altro gli strumenti tecnologici a tutela dei diritti autoriali che le piattaforme generative hanno implementato nella creazione dell'algoritmo. Comunque, "we now have proof"...e allora ci dimenticheremo dei tanti dubbi che la "prevailing legal stance" si pone...
On Thu, Sep 5, 2024 at 10:02 PM Daniela Tafani <daniela.tafani@unipi.it> wrote:
Press Release: A computer scientist and a legal scholar shed light on the black box of processing steps in AI training - for the first time on this scale.
The presentation of the interdisciplinary study “Copyright & Training of Generative AI - Technological and Legal Foundations” took place today in the European Parliament.
In spring, the Copyright Initiative commissioned Prof. Dr. Tim W. Dornis (University of Hannover) in collaboration with Prof. Dr. Sebastian Stober (University of Magdeburg) with a tandem expert opinion on the technological and legal aspects of training generative AI models. Their interdisciplinary research provides urgently needed new insights into the technically necessary intermediate steps in the training of generative artificial intelligence. For the first time on this scale, a computer scientist and a legal scholar are jointly creating evidence regarding the processing steps in AI training. During the event, many open questions about protected materials were answered in a well-founded, reliable manner and in line with the current state of the art.
The work of Prof. Dornis and Prof. Stober focuses on the copyright assessment of the processing of protected material in AI training:
“As a closer look at the technology of generative AI models reveals, the training of such models is not a case of text and data mining. It is a case of copyright infringement – no exception applies under German and European copyright law,” says Prof. Dornis. Prof. Stober explains that “parts of the training data can be memorized in whole or in part by current generative models - LLMs and (latent) diffusion models - and can therefore be generated again with suitable prompts by end users and thus reproduced.” Axel Voss, MEP and host of today's event in the European Parliament, expressly thanks the scientists Dornis and Stober and is pleased that
“the study not only proves that the training of Generative AI models is not covered by text and data mining, but that it also provides further important indications and suggestions for a better balance between the protection of human creativity and the promotion of AI innovation.” “This study is explosive because it proves that we are dealing with large-scale theft of intellectual property. The ball is now in the politicians' court to draw the necessary conclusions and finally put an end to this theft at the expense of journalists and other authors,” commented Hanna Möllers, legal advisor to the DJV and representative of the European Federation of Journalists (EFJ).
Katharina Uppenbrink, Managing Director of the Initiative Urheberrecht, emphasizes:
“It is a groundbreaking result if we now have proof that the reproduction of works by an AI model constitutes a copyright-relevant reproduction and, in addition, that making them available on the European Union market may infringe the right of making available to the public.” The composer and spokesperson for the Copyright Initiative, Matthias Hornschuh, comments:
“There would be a new, profitable licensing market on the horizon, but no remuneration is flowing, while generative AI is preparing to replace those whose content it lives from in its own market. This jeopardizes professional knowledge work and cannot be in the interests of society, culture or the economy. All the better that the authors of our tandem study provide the technological and copyright basis for finally turning the legal consideration of generative artificial intelligence from its head to its feet.” Dornis, Tim W. and Stober, Sebastian, Copyright and training of generative AI models - technological and legal foundations
(September 4, 2024).
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4946214
(in German)
Please find below the downloads:
The abstract can be found below and here (in English and German language): < https://urheber.info/media/pages/diskurs/ai-training-is-copyright-infringeme...
The executive summary: < https://urheber.info/media/pages/diskurs/ai-training-is-copyright-infringeme...
The presentation in Berlin will take place at the end of September.
<https://urheber.info/diskurs/ai-training-is-copyright-infringement>
Salve Giancarlo, posso approfittare della tua competenza per un chiarimento? Cosa c'entra la
"dicotomia idea/espressione", forse la grundnorm del diritto d'autore
? Dentro un software programmato statisticamente non c'è alcuna mente che possa elaborare idee, solo un intricato sistema automatico di collage delle espressioni. Lo chiamano "machine learning" per ingannare coloro che non sanno come funziona quel tipo di software, ma non c'è nessuno che apprenda alcunché, nemmeno dentro una "rete neurale artificiale". Giacomo
La nozione dicotomia idea/espressione sta ad indicare che il diritto d'autore non protegge dati, idee, fatti storici, formule matematiche, etc ma solo "espressioni", quindi un processo di text-and-data-mining che è teso all'estrazione di dati, in quanto tali non oggetto di protezione autoriale, non dovrebbe a rigor di logica causare una violazione del diritto d'autore. Questo anche nel caso in cui per estrarre l'elemento improteggibile dato/idea si debba preliminarmente fare una copia (diritto esclusivo) di ciò che è proteggibile invece, l'"espressione" in cui è espressa l'idea/dato. Questa conclusione è palesemente accettata dalla giurisprudenza statunitense fin dai tempi del caso Baker v Selden (1884) e a seguito dell'affermazione della dottrina del fair use, non invece in diritto UE, dove pare prevalente l'opinione che una copia intermedia anche se effettuata per estrarre e utilizzare elementi non protetti dal diritto d'autore, quindi nel pubblico dominio, comunque violi tali diritti e sia fonte di responsabilità per violazione. Questa la ragione per cui in diritto EU abbiamo introdotto eccezioni e limitazioni specifiche per il text-and-data-mining. Sostenendo che la dicotomia/idea espressione sia la grundnorm del diritto d'autore, sostengo anche che qualsiasi conclusione che porti a identificare una violazione in processi di utilizzo di espressioni proteggibili per estrarre elementi improteggibili sia incompatibile con i principi generali e strutturali del diritto d'autore. Giancarlo On Fri, Sep 6, 2024 at 1:12 AM Giacomo Tesio <giacomo@tesio.it> wrote:
Salve Giancarlo,
posso approfittare della tua competenza per un chiarimento?
Cosa c'entra la
"dicotomia idea/espressione", forse la grundnorm del diritto d'autore
?
Dentro un software programmato statisticamente non c'è alcuna mente che possa elaborare idee, solo un intricato sistema automatico di collage delle espressioni. Lo chiamano "machine learning" per ingannare coloro che non sanno come funziona quel tipo di software, ma non c'è nessuno che apprenda alcunché, nemmeno dentro una "rete neurale artificiale".
Giacomo
Grazie Giancarlo, molto interessante, ma di nuovo non capisco cosa centri il data mining On Fri, 6 Sep 2024 01:45:14 +0100 GC F <gcfrosio@gmail.com> wrote:
in diritto EU abbiamo introdotto eccezioni e limitazioni specifiche per il text-and-data-mining.
Il data-mining è un processo di estrazione e rappresentazione di pattern, andamenti e correlazioni presenti in grandi quantità di dati in modo che siano comprensibili: parliamo di tecniche come la cluster analysis, il rilevamento delle anomalie, le regole di associazione etc... può anche includere l'uso di reti neurali artificiali, ma sempre al fine acquisire informazioni intellegibili sui dati analizzati e sui fenomeni che quei dati rappresentano. I software di cui parla l'articolo condiviso da Daniela non hanno NULLA a che fare con il data mining, anche secondo la definizione del Già nel 2001, Han e Kamber sottolineavano in "Data mining: concepts and techniques" (ISBN 978-1-55860-489-6) che la locuzione è fuorviante e che "data mining should have been more appropriately named as 'knowledge mining' which emphasis on the mining knowledge from large amount of data" chiarendo che "The overall goal of the data mining process is to extract knowledge from an existing data set and transform it into a human-understandable structure for further use." La stessa definizione di ‘text and data mining’ prevista dall'articolo 2 della direttiva (EU) 2019/790, riporta lo scopo che caratterizza queste tecniche, ovvero la produzione di informazione sui dati: ‘text and data mining’ means any automated analytical technique aimed at analysing text and data in digital form in order to generate information which includes but is not limited to patterns, trends and correlations; https://eur-lex.europa.eu/legal-content/EN/TXT/HTML/?uri=CELEX:32019L0790#d1... Il processo di programmazione statistica di un LLM o di qualsiasi altra "IA generativa" non comporta in alcun modo l'estrazione di conoscenza "human-understandable" sui testi e più in generale sui dati usati come sorgente. Ad esempio, i pesi che costituiscono GPT-4, non sono interpretabili dall'uomo e non rivelano alcunché su alcuna qualità dei testi utilizzati per programmarlo. Dunque di nuovo non mi è chiaro cosa centrino le limitazioni previste agli articoli 3 e 4 della direttiva suddetta, visto che le IA generative NON sono riconducibili in alcun modo al data mining.
Sostenendo che la dicotomia/idea espressione sia la grundnorm del diritto d'autore, sostengo anche che qualsiasi conclusione che porti a identificare una violazione in processi di utilizzo di espressioni proteggibili per estrarre elementi improteggibili sia incompatibile con i principi generali e strutturali del diritto d'autore.
Beh, è piuttosto tautologico che, se gli elementi estratti da un opera sono "improteggibili", non possono essere protetti. Tuttavia NON è ciò che avviene durante la programmazione statistica di un "AI generativa" che è semplicemente un'opera derivata dei dati sorgente non troppo dissimile da un jpeg o da uno zip danneggiato ma ancora utilizzabile. Giacomo
Caro Giacomo, Giacomo Tesio <giacomo@tesio.it> writes: [...]
La stessa definizione di ‘text and data mining’ prevista dall'articolo 2 della direttiva (EU) 2019/790, riporta lo scopo che caratterizza queste tecniche, ovvero la produzione di informazione sui dati:
‘text and data mining’ means any automated analytical technique aimed at analysing text and data in digital form in order to generate information which includes but is not limited to patterns, trends and correlations;
https://eur-lex.europa.eu/legal-content/EN/TXT/HTML/?uri=CELEX:32019L0790#d1...
Non capisco perché la parte "text mining" che del processo di c.d. "machine learning" non rientri tranquillamente nella definizione di "text and data mining" riportata sopra.
Il processo di programmazione statistica di un LLM o di qualsiasi altra "IA generativa" non comporta in alcun modo l'estrazione di conoscenza "human-understandable" sui testi e più in generale sui dati usati come sorgente.
e perché il ‘text and data mining’ definito sopra comporta l'estrazione di conoscenza "human-understandable" sui testi analizzati? il fatto che la definizione dica "includes but is not limited to patterns..." non è secondario
Ad esempio, i pesi che costituiscono GPT-4, non sono interpretabili dall'uomo e non rivelano alcunché su alcuna qualità dei testi utilizzati per programmarlo.
Dunque di nuovo non mi è chiaro cosa centrino le limitazioni previste agli articoli 3 e 4 della direttiva suddetta, visto che le IA generative NON sono riconducibili in alcun modo al data mining.
quindi il processo di "machine learning" a cosa sarebbe ricondicibile, secondo te? [...]
Tuttavia NON è ciò che avviene durante la programmazione statistica di un "AI generativa" che è semplicemente un'opera derivata dei dati sorgente
Il software (programmato statisticamente) è un'opera derivata dei testi (dati?) utilizzati per il "machine learning": ho capito bene? Per essere considerata opera derivata, è mio modestissimo parere che tale opera debba essere espressa in una forma (linguaggio) comprensibile agli umani, ma non mi pare proprio che il software programmato statisticamente (che è del tutto analogo al software binario) rientri in questa categoria.
non troppo dissimile da un jpeg o da uno zip danneggiato ma ancora utilizzabile.
...oppure ho capito male e tu non ti stai riferendo al software (binario) come opera derivata ma all'output dei sistem "AI generativi"? Ciao, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Caro Giacomo, caro 380°,
Tuttavia NON è ciò che avviene durante la programmazione statistica di un "AI generativa" che è semplicemente un'opera derivata dei dati sorgente
Il software (programmato statisticamente) è un'opera derivata dei testi (dati?) utilizzati per il "machine learning": ho capito bene?
Per essere considerata opera derivata, è mio modestissimo parere che tale opera debba essere espressa in una forma (linguaggio) comprensibile agli umani, ma non mi pare proprio che il software programmato statisticamente (che è del tutto analogo al software binario) rientri in questa categoria.
non troppo dissimile da un jpeg o da uno zip danneggiato ma ancora utilizzabile.
...oppure ho capito male e tu non ti stai riferendo al software (binario) come opera derivata ma all'output dei sistem "AI generativi"?
La questione che state discutendo è l'elemento che mi ha indotta a segnalarvi l'articolo. Ted Chiang l'ha posta sostenendo che ChatGPT sia come un certo tipo di fotocopiatrice: quello che produce è un "JPEG sfuocato del web", una "lossy compression" del web*, che potrebbe essermi utile, ad esempio, se stessi per perdere per sempre l'accesso a Internet e volessi salvare tutto il testo del web su un server privato, in uno spazio pari a un centesimo dell'originale. Con una simile compressione di gruppo, non potrei più avere accesso alle opere nella loro forma originale, ma potrei ottenerne, per interpolazione, delle approssimazioni, tramite queries dalla forma di domande (senza alcuna garanzia che il sistema sia in grado anche solo di indicare il titolo della singola opera originaria). A me pare che questo modo di concettualizzare la questione fornisca un buon punto di partenza per discuterne, dal punto di vista politico. Un saluto, Daniela *https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg...
mi pare che la violazione del diritto d'autore sia in origine. da dove sono presi i testi, senza violare tpm? Hanno scansionato e fatto ocr dei testi? Il 6 settembre 2024 12:09:18 UTC, Daniela Tafani <daniela.tafani@unipi.it> ha scritto:
Caro Giacomo, caro 380°,
Tuttavia NON è ciò che avviene durante la programmazione statistica di un "AI generativa" che è semplicemente un'opera derivata dei dati sorgente
Il software (programmato statisticamente) è un'opera derivata dei testi (dati?) utilizzati per il "machine learning": ho capito bene?
Per essere considerata opera derivata, è mio modestissimo parere che tale opera debba essere espressa in una forma (linguaggio) comprensibile agli umani, ma non mi pare proprio che il software programmato statisticamente (che è del tutto analogo al software binario) rientri in questa categoria.
non troppo dissimile da un jpeg o da uno zip danneggiato ma ancora utilizzabile.
...oppure ho capito male e tu non ti stai riferendo al software (binario) come opera derivata ma all'output dei sistem "AI generativi"?
La questione che state discutendo è l'elemento che mi ha indotta a segnalarvi l'articolo. Ted Chiang l'ha posta sostenendo che ChatGPT sia come un certo tipo di fotocopiatrice: quello che produce è un "JPEG sfuocato del web", una "lossy compression" del web*, che potrebbe essermi utile, ad esempio, se stessi per perdere per sempre l'accesso a Internet e volessi salvare tutto il testo del web su un server privato, in uno spazio pari a un centesimo dell'originale.
Con una simile compressione di gruppo, non potrei più avere accesso alle opere nella loro forma originale, ma potrei ottenerne, per interpolazione, delle approssimazioni, tramite queries dalla forma di domande (senza alcuna garanzia che il sistema sia in grado anche solo di indicare il titolo della singola opera originaria).
A me pare che questo modo di concettualizzare la questione fornisca un buon punto di partenza per discuterne, dal punto di vista politico.
Un saluto, Daniela
*https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg...
... se stessi per perdere per sempre l'accesso a Internet
Questa tua frase mi ha fatto pensare ad un film che ho visto di recente: "Falla girare 2 – Offline" dove un virus ha cancellato Internet ... Già, l'"Internet fatta a pezzi" (cit. Quintarelli/Bertola), dov'è finito quel Web strumento foriero di intelligenza collettiva? A post-verità, fake news, populismo, narcisismo, marketing commercial-politico, echo chamber, polarizzazione, ecc. mancava giusto una superChat antropomorfa che promette un Web 4.0 (o 5.0, boh, ho perso il conto) e che, grazie ad un'operazione di scissione che abbiamo imparato a conoscere nelle crisi d'impresa, si prepara all'enucleazione e alla successiva liquidazione della bad company (Internet 1.0) dopo averne, come un moderno Dracula, succhiatone il sangue. E' vero, Internet 1.0 (quella dei blog, dei siti personali, ecc.) è morta con l'avvento dei Social, ma è servita e serve tuttora per istruire gli LLM. Una volta completato l'addestramento, se ne potrà fare a meno. Gli LLM impareranno dagli utenti stessi delle chat. Rimarranno solo i Social, gli Oracoli, la SuperTelevisione e la Propaganda, pardon, l'Informazione. A. (scusate l'OT)
chissà che invece stavolta l'eterogenesi dei fini non giri a favore del Vero, del Bene e del Bello la Storia ha corsi e ricorsi, ma talvolta fa anche inversioni a U ma non bisogna limitarsi all'invettiva aspettando che a sterzare sia qualcun'altro, altrimenti non avremo alcuna rilevanza neanche a questo giro G. On Fri, 6 Sept 2024 at 17:01, Antonio <antonio@piumarossa.it> wrote:
... se stessi per perdere per sempre l'accesso a Internet
Questa tua frase mi ha fatto pensare ad un film che ho visto di recente: "Falla girare 2 – Offline" dove un virus ha cancellato Internet ...
Già, l'"Internet fatta a pezzi" (cit. Quintarelli/Bertola), dov'è finito quel Web strumento foriero di intelligenza collettiva? A post-verità, fake news, populismo, narcisismo, marketing commercial-politico, echo chamber, polarizzazione, ecc. mancava giusto una superChat antropomorfa che promette un Web 4.0 (o 5.0, boh, ho perso il conto) e che, grazie ad un'operazione di scissione che abbiamo imparato a conoscere nelle crisi d'impresa, si prepara all'enucleazione e alla successiva liquidazione della bad company (Internet 1.0) dopo averne, come un moderno Dracula, succhiatone il sangue. E' vero, Internet 1.0 (quella dei blog, dei siti personali, ecc.) è morta con l'avvento dei Social, ma è servita e serve tuttora per istruire gli LLM. Una volta completato l'addestramento, se ne potrà fare a meno. Gli LLM impareranno dagli utenti stessi delle chat. Rimarranno solo i Social, gli Oracoli, la SuperTelevisione e la Propaganda, pardon, l'Informazione.
A.
(scusate l'OT)
la Storia ha corsi e ricorsi, ma talvolta fa anche inversioni a U ma non bisogna limitarsi all'invettiva aspettando che a sterzare sia qualcun'altro, altrimenti non avremo alcuna rilevanza neanche a questo giro
Se c'è la volontà di cambiare, di sterzare, le professionalità, anche in questa lista, non mancano :) Basta un cenno e si parte. A parte costruire un clone di ChatGpt, per il resto possiamo mettere su di tutto. L'hanno fatto i francesi di Framasoft ( https://framasoft.org/it/manifest ) 23 anni fa, perché non seguire quell'esempio? A.
Io ci sono. Quando si parte? Che si fa? Il 6 Settembre 2024 18:45:35 UTC, Antonio <antonio@piumarossa.it> ha scritto:
la Storia ha corsi e ricorsi, ma talvolta fa anche inversioni a U ma non bisogna limitarsi all'invettiva aspettando che a sterzare sia qualcun'altro, altrimenti non avremo alcuna rilevanza neanche a questo giro
Se c'è la volontà di cambiare, di sterzare, le professionalità, anche in questa lista, non mancano :) Basta un cenno e si parte. A parte costruire un clone di ChatGpt, per il resto possiamo mettere su di tutto. L'hanno fatto i francesi di Framasoft ( https://framasoft.org/it/manifest ) 23 anni fa, perché non seguire quell'esempio?
A.
On Fri, 06 Sep 2024 21:51:39 +0000 Giacomo Tesio <giacomo@tesio.it> wrote:
Io ci sono. :)
Quando si parte? Anche subito
Che si fa? Si fa ;)
Si discute, certo, ma insieme si agisce. Le idee arrivano con il dialogo, con la dialettica. E dalle idee, i progetti ... La lista Nexa è un ottimo posto per discutere ma ovviamente non può andare bene per il resto. Servirebbe una lista "esecutiva", privata, in cui lo scambiarsi anche dieci mail al giorno, a persona, non sarebbe un problema (tanto ci sono i filtri dei client). Facciamo così, per evitare di inquinare la lista, chi vuole aggregarsi mandi una mail a Giacomo e me. Settembre è un ottimo mese per partire :) Antonio
Ciao 380°, On Fri, 06 Sep 2024 12:47:39 +0200 380° <g380@biscuolo.net> wrote:
Non capisco perché la parte "text mining" che del processo di c.d. "machine learning" non rientri tranquillamente nella definizione di "text and data mining" riportata sopra.
Perché il processo di "machine learning" (più propriamente programmazione statistica) usato per la realizzazione di un "AI generativa" produce matrici numeriche inintelligibili. Non a caso vengono definite "black box".
Il processo di programmazione statistica di un LLM o di qualsiasi altra "IA generativa" non comporta in alcun modo l'estrazione di conoscenza "human-understandable" sui testi e più in generale sui dati usati come sorgente.
e perché il ‘text and data mining’ definito sopra comporta l'estrazione di conoscenza "human-understandable" sui testi analizzati?
Perché quella definizione chiarisce che l'analisi effettuata costituisce data mining solo quando è effettuata "in order to generate information". Le matrici numeriche _generate_ da tali processi che costituiscono gli eseguibili di cui parliamo non veicolano alcuna informazione.
il fatto che la definizione dica "includes but is not limited to patterns..." non è secondario
Non secondario, ma subordinato (anche grammaticalmente) alla generazione di informazioni. D'altro canto, non parliamo di locuzioni inedite: persino Wikipedia è cristallina in merito a cosa costituisca il data mining: https://en.wikipedia.org/wiki/Data_mining
quindi il processo di "machine learning" a cosa sarebbe ricondicibile, secondo te?
Il processo di "machine learning" è un processo di compilazione costituito da una forma di compressione dati con perdita che produce una rappresentazione eseguibile da parte di una certa "architettura" (ovvero una macchina virtuale programmata allo scopo). La scelta delle tecniche e dei dati da utilizzare (il dataset sorgente, ma anche i valori iniziali delle matrici, gli hyperparameters etc..) costituisce invece l'attività di programmazione statistica operata da programmatori che si fanno pomposamente chiamare "data scientist".
Tuttavia NON è ciò che avviene durante la programmazione statistica di un "AI generativa" che è semplicemente un'opera derivata dei dati sorgente
Il software (programmato statisticamente) è un'opera derivata dei testi (dati?) utilizzati per il "machine learning": ho capito bene?
Sì. Esattamente come un binario eseguibile dall'architettura x86_64 è un'opera derivata dai sorgenti usati per compilarlo, una matrice eseguibile dall'architettura GPT-4 è un'opera derivata dei testi usati per realizzarla.
Per essere considerata opera derivata, è mio modestissimo parere che tale opera debba essere espressa in una forma (linguaggio) comprensibile agli umani, ma non mi pare proprio che il software programmato statisticamente (che è del tutto analogo al software binario) rientri in questa categoria.
Se così fosse, i binari compilati a partire da sorgenti proprietari non sarebbero protetti dal diritto d'autore. Sarei felicissimo di scoprirlo, ma ne dubito fortemente perché corrisponderebbe alla abolizione del copyright sul software. Verrebbe meno anche il copyleft e alcuni modelli di business che vi si basano, ma sarebbe comunque una vittoria.
non troppo dissimile da un jpeg o da uno zip danneggiato ma ancora utilizzabile.
...oppure ho capito male e tu non ti stai riferendo al software (binario) come opera derivata ma all'output dei sistem "AI generativi"?
Io sto parlando dei cosiddetti "modelli AI" ovvero le matrici eseguibili (binari nella memoria della GPU, ma la codifica è irrilevante...) che vengono eseguiti dalle macchine virtuali preposte (le cosiddette "architetture") a loro volta eseguite da GPU etc... Tali matrici sono oggetto del diritto d'autore di coloro che hanno scritto i testi da cui sono state compilate. Poi sì, come conseguenza, l'output calcolato dal LLM è necessariamente un'opera derivata dalla matrice che sta eseguendo e dunque sarà utilizzati durante la sua programmazione. soggetta al diritto d'autore di coloro che avevano scritto i testi E' una sorta di (ovvia?) proprietà transitiva. Naturalmente le matrici di cui parliamo (e gli output degli LLM) non sono SOLO opera derivata dai testi in questione perché ad esempio c'è anche un piccolo contributo del prompt (il cui peso è indicativamente pari al rapporto fra la sua lunghezza in byte e la lunghezza in byte di tutti i testi usati durante il processo di programmazione statistica, quindi trascurabile ma non nullo). Ma negare i diritti degli autori nella realizzazione delle matrici di cui parliamo è tecnicamente e logicamente infondato. Abolire il diritto d'autore VA BENISSIMO ! ! ! L'importante è che venga abolito per tutti, non solo per qualcuno. Giacomo
Ciao Giacomo, scusa ma faccio fatica a stare dietro a questo thread, mi sono "messo in pari" solo ora. Giacomo Tesio <giacomo@tesio.it> writes: [...]
Il software (programmato statisticamente) è un'opera derivata dei testi (dati?) utilizzati per il "machine learning": ho capito bene?
Sì.
Esattamente come un binario eseguibile dall'architettura x86_64 è un'opera derivata dai sorgenti usati per compilarlo, una matrice eseguibile dall'architettura GPT-4 è un'opera derivata dei testi usati per realizzarla.
OK grazie Giacomo, ora che ho compreso che a tuo giudizio l'"AI Training" implica violazione di copyright perché il "software programmato statiticamente impropriamente detto modello" (per usare le tue definizioni) è un'opera derivata dai testi protetti usati per realizzarlo... ...non te lo chiederò mai più :-) Quello in oggetto è un argomento ricorrente in questa lista, per esempio quasi un anno fa esatto ci fu questo thread: https://server-nexa.polito.it/pipermail/nexa/2023-September/051648.html nel quale tu, Giancarlo Frosio et al (io compreso) avete già _ampiamente_ esposto le vostre posizioni in merito; questo thread non sposta di una virgola quanto già detto all'epoca. Rileggendolo mi rendo conto che anche io comincio a essere un disco rotto, e me ne scuso: è inutile che io ripeta quanto già sostenuto più volte. Quello che ci tengo a ripetere, invece, è il quadro generale, direi folosofico, del copyright: https://server-nexa.polito.it/pipermail/nexa/2023-September/051674.html «The promise of a post-copyright world» Cioè: il copyright è una abberrazione giuridica e gli argomenti usati per sostenere che "AI Training is Copyright Infringement" non fanno altro che aumentare il livello di abberrazione. Ciao, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Un ultimo appunto, ad nauseam mi scuso, ma forse c'è una premessa errata in tutta questa diatriba: *l'argomentazione che il "software programmato statisticamente impropriamente detto modello" è un'opera derivata dai testi protetti usati per realizzarlo è ovvia, giuridicamente* (ogni fair use è potenzialmente un'opera derivata - altrimenti la questione della sua legittimità non si porrebbe neppure), *ma questo non implica che vi sia violazione dei diritti autoriali* se (1) l'utilizzazione dei testi protetti è trasformativa, anche se a fini commerciali (2) non ci sono effetti rilevanti sul mercato potenziale dell'opera protetta e (3) l'utilizzo ha un valore pubblico rilevante (fattore creato giurisprudenzialmente). Ci sono altri due fattori, la natura dell'opera protetta e la quantità e sostanzialità della porzione utilizzata, ma secondo giurisprudenza sono irrilevanti se l'uso è trasformativo. Nel valutare i fattori la giurisprudenza utilizza un approccio equity-base, ponderando il peso di ognuno per raggiungere una decisione finale e olistica sulla legittimità o meno dell'uso. Con tutti i caveat del caso, e le molteplici opinioni divergenti che possono sorgere in giurisprudenza e dottrina, in base alla casistica da *Baker v Selden* fino a *Google Books*, utilizzare innumerevoli contenuti protetti per creare un software/modello con le funzionalità di un LLM è un uso trasformativo che non ha un effetto sostitutivo sul mercato delle singole opere utilizzate. In questo contesto aggiungo che, a mio parere, (1) argomentare che c'è un mercato potenziale delle licenze per sviluppare il software è argomentazione circolare, poichè se l'uso è legittimo quel mercato non è potenziale; (2) sostenere che gli output del software generativo possono avere effetti sostitutivi sul mercato delle opere protette utilizzate è argomento ovviamente fallace perché il mercato di riferimento non può essere quello della creatività in generale, ma quello della singola opera utilizzata, altrimenti ogni uso anche trasformativo avrebbe sempre effetti sul mercato dell'opera. Se l'output generato è identico o sostanzialmente simile (nozioni tecniche in DA), allora avremo una violazione per quel che riguarda quello specifico output, che non ha utilizzato le opere protette in maniera trasformativa, ma questo non implica che utilizzare le opere protette per creare il software/modello che può generare innumerevoli output creativi non sia un uso trasformativo. Questa analisi, ovviamente, rileva in diritto statunitense. In diritto EU si tende a concludere invece che ogni riproduzione sia illegittima a meno che non esista una eccezione specifica. Ovviamente, eccezioni e limitazioni garantiscono certezza del diritto ma non flessibilità tecnologica, al contrario del modello fair use statunitense. Questa la ragione per cui si discute se l'eccezione per TDM, che pure è limitata da opt-out o ricerca senza fini di lucro, si applichi alla creazione di LLM. Ho già detto quel che penso circa la dicotomia idea(conoscenza)/espressione che dovrebbe servire sempre quale riferimento generale, anche in diritto europeo. Al di là del fatto che tutta la discussione specifica circa se un LLM sia diverso da TDM o da Google books non rileva comunque a mio parere perché l'esercizio è proprio quello di astrarre il principio rispetto alle tecnologie specifiche, e anche al netto di considerazioni fringe secondo cui non si possa predicare un processo di "apprendimento" nel machine learning/deep learning che fonda lo sviluppo di software/modelli creativi come LLM, posso solo notare che la ratio dell'introduzione delle eccezioni TDM nella direttiva 790/2019 è proprio da ritrovarsi nel tentativo di fornire certezza giuridica circa la legittimità di processi di sviluppo di IA, anche in ambito cross-border vista la poca armonizzazione comunitaria, per riempire il divario competitivo dell'industria IA europea rispetto a quella statunitense e cinese, che non sono sottoposte a norme autoriali così restrittive. Questo lo posso confermare con certezza poiché con i miei coautori Geiger e Bulayenko abbiamo redatto un rapporto commissionato dalla Commissione in materia e siamo stati coinvolti nel processo di discussione della norma con varie commissioni parlamentari. Che poi infine i nostri suggerimenti siano stati poco ascoltati e sia stata partorita una normativa insufficiente a garantire quella competitività che manca all'industria IA europea è altra storia... Giancarlo On Wed, Sep 11, 2024 at 10:21 AM 380° via nexa <nexa@server-nexa.polito.it> wrote:
Ciao Giacomo,
scusa ma faccio fatica a stare dietro a questo thread, mi sono "messo in pari" solo ora.
Giacomo Tesio <giacomo@tesio.it> writes:
[...]
Il software (programmato statisticamente) è un'opera derivata dei testi (dati?) utilizzati per il "machine learning": ho capito bene?
Sì.
Esattamente come un binario eseguibile dall'architettura x86_64 è un'opera derivata dai sorgenti usati per compilarlo, una matrice eseguibile dall'architettura GPT-4 è un'opera derivata dei testi usati per realizzarla.
OK grazie Giacomo, ora che ho compreso che a tuo giudizio l'"AI Training" implica violazione di copyright perché il "software programmato statiticamente impropriamente detto modello" (per usare le tue definizioni) è un'opera derivata dai testi protetti usati per realizzarlo...
...non te lo chiederò mai più :-)
Quello in oggetto è un argomento ricorrente in questa lista, per esempio quasi un anno fa esatto ci fu questo thread: https://server-nexa.polito.it/pipermail/nexa/2023-September/051648.html nel quale tu, Giancarlo Frosio et al (io compreso) avete già _ampiamente_ esposto le vostre posizioni in merito; questo thread non sposta di una virgola quanto già detto all'epoca.
Rileggendolo mi rendo conto che anche io comincio a essere un disco rotto, e me ne scuso: è inutile che io ripeta quanto già sostenuto più volte.
Quello che ci tengo a ripetere, invece, è il quadro generale, direi folosofico, del copyright:
https://server-nexa.polito.it/pipermail/nexa/2023-September/051674.html «The promise of a post-copyright world»
Cioè: il copyright è una abberrazione giuridica e gli argomenti usati per sostenere che "AI Training is Copyright Infringement" non fanno altro che aumentare il livello di abberrazione.
Ciao, 380°
-- 380° (Giovanni Biscuolo public alter ego)
«Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché»
Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
La τέχνη specifica è irrilevante. Il principio generale di cui si discute (dicotomia idea/espressione) fa riferimento all'estrazione di conoscenza non proteggibile, in qualsiasi forma, da espressioni proteggibili in base ai requisiti di proteggibilità del diritto d'autore. Che sia propriamente text-and-and-data mining o processo connesso, simile ma diverso, o alternativo è di rilevanza tangenziale. I principi di diritto sono strutturati per adattarsi all'evoluzione tecnologica. Dottrina e giurisprudenza svolgono questo ruolo, quando non intervenga una riforma legislativa, applicando principi e precedenti giurisprudenziali a nuova casistica per analogia. L'intera storia del diritto d'autore è un esempio di questo processo. Giancarlo On Fri, Sep 6, 2024 at 10:51 AM Giacomo Tesio <giacomo@tesio.it> wrote:
Grazie Giancarlo,
molto interessante, ma di nuovo non capisco cosa centri il data mining
On Fri, 6 Sep 2024 01:45:14 +0100 GC F <gcfrosio@gmail.com> wrote:
in diritto EU abbiamo introdotto eccezioni e limitazioni specifiche per il text-and-data-mining.
Il data-mining è un processo di estrazione e rappresentazione di pattern, andamenti e correlazioni presenti in grandi quantità di dati in modo che siano comprensibili: parliamo di tecniche come la cluster analysis, il rilevamento delle anomalie, le regole di associazione etc... può anche includere l'uso di reti neurali artificiali, ma sempre al fine acquisire informazioni intellegibili sui dati analizzati e sui fenomeni che quei dati rappresentano.
I software di cui parla l'articolo condiviso da Daniela non hanno NULLA a che fare con il data mining, anche secondo la definizione del
Già nel 2001, Han e Kamber sottolineavano in "Data mining: concepts and techniques" (ISBN 978-1-55860-489-6) che la locuzione è fuorviante e che "data mining should have been more appropriately named as 'knowledge mining' which emphasis on the mining knowledge from large amount of data" chiarendo che "The overall goal of the data mining process is to extract knowledge from an existing data set and transform it into a human-understandable structure for further use."
La stessa definizione di ‘text and data mining’ prevista dall'articolo 2 della direttiva (EU) 2019/790, riporta lo scopo che caratterizza queste tecniche, ovvero la produzione di informazione sui dati:
‘text and data mining’ means any automated analytical technique aimed at analysing text and data in digital form in order to generate information which includes but is not limited to patterns, trends and correlations;
https://eur-lex.europa.eu/legal-content/EN/TXT/HTML/?uri=CELEX:32019L0790#d1...
Il processo di programmazione statistica di un LLM o di qualsiasi altra "IA generativa" non comporta in alcun modo l'estrazione di conoscenza "human-understandable" sui testi e più in generale sui dati usati come sorgente.
Ad esempio, i pesi che costituiscono GPT-4, non sono interpretabili dall'uomo e non rivelano alcunché su alcuna qualità dei testi utilizzati per programmarlo.
Dunque di nuovo non mi è chiaro cosa centrino le limitazioni previste agli articoli 3 e 4 della direttiva suddetta, visto che le IA generative NON sono riconducibili in alcun modo al data mining.
Sostenendo che la dicotomia/idea espressione sia la grundnorm del diritto d'autore, sostengo anche che qualsiasi conclusione che porti a identificare una violazione in processi di utilizzo di espressioni proteggibili per estrarre elementi improteggibili sia incompatibile con i principi generali e strutturali del diritto d'autore.
Beh, è piuttosto tautologico che, se gli elementi estratti da un opera sono "improteggibili", non possono essere protetti.
Tuttavia NON è ciò che avviene durante la programmazione statistica di un "AI generativa" che è semplicemente un'opera derivata dei dati sorgente non troppo dissimile da un jpeg o da uno zip danneggiato ma ancora utilizzabile.
Giacomo
Caro Giancarlo, On Sun, 8 Sep 2024 13:46:50 +0100 GC F <gcfrosio@gmail.com> wrote:
La τέχνη specifica è irrilevante.
Non parliamo infatti di tecniche ma di finalità. Il data mining è definito dalla finalità di estrarre informazioni intellegibili da grandi volumi di dati, NON dal generare in output testi o immagini che appaiano plausibili ai profani della materia. Dunque le eccezioni specifiche per il data-mining non sono applicabili alle "AI generative", anche nei casi in cui alcune tecniche usate per la programmazione di questi software siano utilizzabili anche per il data mining. Attenzione però a non affermare che le AI generative siano "un processo connesso, simile ma diverso o alternativo" rispetto al data mining. Sarebbe grossolanamente sbagliato, evidenza di una assoluta ignoranza rispetto alla materia oggetto del discorso. Significherebbe affermare che non giò la τέχνη, ma la realtà stessa sia irrilevante. A quel punto non sarebbero gli LLM ad "allucinare", ma i giuristi. ;-) Cui prodest?
Che sia propriamente text-and-and-data mining o processo connesso, simile ma diverso, o alternativo è di rilevanza tangenziale. I principi di diritto sono strutturati per adattarsi all'evoluzione tecnologica. Dottrina e giurisprudenza svolgono questo ruolo, quando non intervenga una riforma legislativa, applicando principi e precedenti giurisprudenziali a nuova casistica per analogia.
Tangenziale? Solo chi non ha mai fatto né data mining né "training" di una "IA generativa" può immaginare l'esistenza di analogie fra le due attività. Non ce ne sono, anche quando si utilizzano gli stessi strumenti. Un po' come non ci sono analogie fra le norme applicabili ad un omicida e ad un fabbro che abbiano entrambi utilizzato un martello. Giacomo
Quel che conta è che si utilizzino espressioni proteggibili per creare/addestrare uno strumento che genera espressioni diverse e trasformative rispetto a quelle proteggibili utilizzate come input per l’addestramento. Anche se il processo di training AI si basa su riproduzioni meccaniche di opere nella loro interezza, questo non implica di per sé la violazione del diritto d'autore, se tale riproduzione è votata alla creazione di uno strumento che poi utilizzi quelle riproduzioni meccaniche a fini trasformativi. Ovviamente, come ho cercato di spiegare in precedenza, le posizioni in materia sono molteplici e divergenti, anche in base al sistema giuridico di riferimento. Se conoscesse un poco il dibattito si renderebbe conto che certe sue affermazioni sono forse "ingenue", come già è stato notato mi pare (eg "Anche se poi le aziende forniscono accesso a quelle opere derivate "a pezzetti", le opere sono state integralmente incluse nel processo di programmazione statistica (il "training" della "AI")"). La questione dell'applicazione della "dicotomia idea/espressione" al TDM è proprio relativa al fatto che per estrarre dati, non proteggibili, si debbano effettuare copie meccaniche integrali dell'espressione proteggibile in cui quei dati sono contenuti. Giancarlo On Sun, Sep 8, 2024 at 3:25 PM Giacomo Tesio <giacomo@tesio.it> wrote:
Caro Giancarlo,
On Sun, 8 Sep 2024 13:46:50 +0100 GC F <gcfrosio@gmail.com> wrote:
La τέχνη specifica è irrilevante.
Non parliamo infatti di tecniche ma di finalità.
Il data mining è definito dalla finalità di estrarre informazioni intellegibili da grandi volumi di dati, NON dal generare in output testi o immagini che appaiano plausibili ai profani della materia.
Dunque le eccezioni specifiche per il data-mining non sono applicabili alle "AI generative", anche nei casi in cui alcune tecniche usate per la programmazione di questi software siano utilizzabili anche per il data mining.
Attenzione però a non affermare che le AI generative siano "un processo connesso, simile ma diverso o alternativo" rispetto al data mining. Sarebbe grossolanamente sbagliato, evidenza di una assoluta ignoranza rispetto alla materia oggetto del discorso.
Significherebbe affermare che non giò la τέχνη, ma la realtà stessa sia irrilevante.
A quel punto non sarebbero gli LLM ad "allucinare", ma i giuristi. ;-)
Cui prodest?
Che sia propriamente text-and-and-data mining o processo connesso, simile ma diverso, o alternativo è di rilevanza tangenziale. I principi di diritto sono strutturati per adattarsi all'evoluzione tecnologica. Dottrina e giurisprudenza svolgono questo ruolo, quando non intervenga una riforma legislativa, applicando principi e precedenti giurisprudenziali a nuova casistica per analogia.
Tangenziale?
Solo chi non ha mai fatto né data mining né "training" di una "IA generativa" può immaginare l'esistenza di analogie fra le due attività.
Non ce ne sono, anche quando si utilizzano gli stessi strumenti.
Un po' come non ci sono analogie fra le norme applicabili ad un omicida e ad un fabbro che abbiano entrambi utilizzato un martello.
Giacomo
Scusate la domanda *molto* ingenua: non si potrebbe discutere di quanto associato all'output di un LLM partendo dal concetto di '"opera derivata" nel senso dei Creative Commons? https://it.wikipedia.org/wiki/Opera_derivata Il giorno dom 8 set 2024 alle ore 17:34 GC F <gcfrosio@gmail.com> ha scritto:
Quel che conta è che si utilizzino espressioni proteggibili per creare/addestrare uno strumento che genera espressioni diverse e trasformative rispetto a quelle proteggibili utilizzate come input per l’addestramento. Anche se il processo di training AI si basa su riproduzioni meccaniche di opere nella loro interezza, questo non implica di per sé la violazione del diritto d'autore, se tale riproduzione è votata alla creazione di uno strumento che poi utilizzi quelle riproduzioni meccaniche a fini trasformativi. Ovviamente, come ho cercato di spiegare in precedenza, le posizioni in materia sono molteplici e divergenti, anche in base al sistema giuridico di riferimento. Se conoscesse un poco il dibattito si renderebbe conto che certe sue affermazioni sono forse "ingenue", come già è stato notato mi pare (eg "Anche se poi le aziende forniscono accesso a quelle opere derivate "a pezzetti", le opere sono state integralmente incluse nel processo di programmazione statistica (il "training" della "AI")"). La questione dell'applicazione della "dicotomia idea/espressione" al TDM è proprio relativa al fatto che per estrarre dati, non proteggibili, si debbano effettuare copie meccaniche integrali dell'espressione proteggibile in cui quei dati sono contenuti.
Giancarlo
On Sun, Sep 8, 2024 at 3:25 PM Giacomo Tesio <giacomo@tesio.it> wrote:
Caro Giancarlo,
On Sun, 8 Sep 2024 13:46:50 +0100 GC F <gcfrosio@gmail.com> wrote:
La τέχνη specifica è irrilevante.
Non parliamo infatti di tecniche ma di finalità.
Il data mining è definito dalla finalità di estrarre informazioni intellegibili da grandi volumi di dati, NON dal generare in output testi o immagini che appaiano plausibili ai profani della materia.
Dunque le eccezioni specifiche per il data-mining non sono applicabili alle "AI generative", anche nei casi in cui alcune tecniche usate per la programmazione di questi software siano utilizzabili anche per il data mining.
Attenzione però a non affermare che le AI generative siano "un processo connesso, simile ma diverso o alternativo" rispetto al data mining. Sarebbe grossolanamente sbagliato, evidenza di una assoluta ignoranza rispetto alla materia oggetto del discorso.
Significherebbe affermare che non giò la τέχνη, ma la realtà stessa sia irrilevante.
A quel punto non sarebbero gli LLM ad "allucinare", ma i giuristi. ;-)
Cui prodest?
Che sia propriamente text-and-and-data mining o processo connesso, simile ma diverso, o alternativo è di rilevanza tangenziale. I principi di diritto sono strutturati per adattarsi all'evoluzione tecnologica. Dottrina e giurisprudenza svolgono questo ruolo, quando non intervenga una riforma legislativa, applicando principi e precedenti giurisprudenziali a nuova casistica per analogia.
Tangenziale?
Solo chi non ha mai fatto né data mining né "training" di una "IA generativa" può immaginare l'esistenza di analogie fra le due attività.
Non ce ne sono, anche quando si utilizzano gli stessi strumenti.
Un po' come non ci sono analogie fra le norme applicabili ad un omicida e ad un fabbro che abbiano entrambi utilizzato un martello.
Giacomo
In realtà Giancarlo ho ben chiaro il dibattito in corso, gli interessi in gioco, le "strane alleanze" e i fiumi di soldi che stanno inquinando questo dibattito. E sono rassegnato al divorzio dalla realtà che tutto ciò comporta. Tuttavia, da informatico più interessato allo stato di diritto che ai soldi in questione non posso che descrivere i software cui il dibattito fa riferimento. Il 8 Settembre 2024 15:34:15 UTC, GC F ha scritto:
Quel che conta è che...
Bene, finalmente concordiamo che ogni riferimento al data mining è infondato e fuorviante.
si utilizzino espressioni proteggibili per creare/addestrare uno strumento
Ecco quando su parla di "AI training" si parla del processo di programmazione statistica attraverso cui si ottiene un software. Questo software è un opera derivata dai dataset sorgenti (e da pochi altri dati decisi dai "data scientist"). Ancor prima che questo software venga eseguito e produca output che riproduca in tutto o in parte un'opera usata per programmarlo, la sua realizzazione deve rispettare i diritti degli autori di tutte le opere che costituiscono il dataset sorgente. Questi autori possono aver ceduto il diritto di creare quel software come opera derivata dalle proprie opere (come fanno i giornalisti o i romanzieri che lavorano come "chatbot helper") e in tal caso siamo tutti contenti. Tuttavia, per creare un'opera derivata dalle loro (come il software in questione) tale cessione è necessaria nei termini del diritto d'autore.
Anche se il processo di training AI si basa su riproduzioni meccaniche di opere nella loro interezza, questo non implica di per sé la violazione del diritto d'autore, se tale riproduzione è votata alla creazione di uno strumento che poi utilizzi quelle riproduzioni meccaniche a fini trasformativi.
Temo che questo passaggio evidenzi un malinteso di fondo: non stiamo discutendo della legittimità di creare un dataset contenente copie di testi coperti dal diritto d'autore, ne della loro copia in memoria durante il processo impropriamente chiamato "training". Stiamo parlando del processo di creazione di un'opera derivata (il "modello").
certe sue affermazioni sono forse "ingenue" [...] (eg "Anche se poi le aziende forniscono accesso a quelle opere derivate "a pezzetti", le opere sono state integralmente incluse nel processo di programmazione statistica (il "training" della "AI")").
Beh, più che ingenuo, direi che distinguere fra software e output del software è ovvio. Mi pare invece incredibile che li si possa confondere e mi chiedo come sia possibile nel 2024 una confusione tanto evidente. In questo però potrei essere "ingenuo", in effetti.
La questione dell'applicazione della "dicotomia idea/espressione" al TDM è proprio relativa al fatto che per estrarre dati, non proteggibili, si debbano effettuare copie meccaniche integrali dell'espressione proteggibile in cui quei dati sono contenuti.
Sennonché non stiamo parlando di dette copie, ma del software che ne viene compilato. Sia chiaro: se il processo di compilazione / compressione lossy cancella il diritto degli autori a me va benissimo! L'importante è che valga anche per i binari x86_64 di Microsoft, per gli mp4 ottenuti dai film Disney, etc... Giacomo
Si, ma l'uso del materiale per creare il software che poi genera a sua volta è a fini trasformativi! Il materiale non è usato per il suo valore espressivo, quindi la creazione del software/modello non ha effetti sul valore di mercato dell'opera originale utilizzata - non la sostituisce. Si potrebbe discutere se quegli effetti sostitutivi ci siano nel contesto della produzione degli output di quel modello, ma è altra questione - e io direi di no in base alla mia interpretazione di nozioni quali ad esempio "effect of the use on the potential market for the work" nella clausola fair use o nozioni come "conflicting with normal exploitation of the work" e "prejudice legitimate interests" nel three-step-test di Berna. Questa è la mia argomentazione. Ve ne sono altre plausibili. Legga *Google Books* e quel che viene prima. Lei è estenuante. Non è necessario rispondere a tutto, ripetutamente, discutendo affermazioni che lei assume appartengano al suo interlocutore senza che questo sia il caso, sviluppando argomentazioni che sono per la maggior parte irrilevanti rispetto a quel che il suo interlocutore dice e costantemente lasciar intendere che il suo interlocutore non comprende la tecnologia che lei invece ben comprende, anche se poi quella comprensione profonda è irrilevante ai fini della discussione. Il mio riferimento precedente alla τέχνη era un'allusione a un dibattito millenario. Non si può ridurre tutto alla τέχνη; bisognerebbe saper astrarre... Giancarlo On Sun, Sep 8, 2024 at 6:05 PM Giacomo Tesio <giacomo@tesio.it> wrote:
In realtà Giancarlo ho ben chiaro il dibattito in corso, gli interessi in gioco, le "strane alleanze" e i fiumi di soldi che stanno inquinando questo dibattito.
E sono rassegnato al divorzio dalla realtà che tutto ciò comporta.
Tuttavia, da informatico più interessato allo stato di diritto che ai soldi in questione non posso che descrivere i software cui il dibattito fa riferimento.
Il 8 Settembre 2024 15:34:15 UTC, GC F ha scritto:
Quel che conta è che...
Bene, finalmente concordiamo che ogni riferimento al data mining è infondato e fuorviante.
si utilizzino espressioni proteggibili per creare/addestrare uno strumento
Ecco quando su parla di "AI training" si parla del processo di programmazione statistica attraverso cui si ottiene un software.
Questo software è un opera derivata dai dataset sorgenti (e da pochi altri dati decisi dai "data scientist").
Ancor prima che questo software venga eseguito e produca output che riproduca in tutto o in parte un'opera usata per programmarlo, la sua realizzazione deve rispettare i diritti degli autori di tutte le opere che costituiscono il dataset sorgente.
Questi autori possono aver ceduto il diritto di creare quel software come opera derivata dalle proprie opere (come fanno i giornalisti o i romanzieri che lavorano come "chatbot helper") e in tal caso siamo tutti contenti.
Tuttavia, per creare un'opera derivata dalle loro (come il software in questione) tale cessione è necessaria nei termini del diritto d'autore.
Anche se il processo di training AI si basa su riproduzioni meccaniche di opere nella loro interezza, questo non implica di per sé la violazione del diritto d'autore, se tale riproduzione è votata alla creazione di uno strumento che poi utilizzi quelle riproduzioni meccaniche a fini trasformativi.
Temo che questo passaggio evidenzi un malinteso di fondo: non stiamo discutendo della legittimità di creare un dataset contenente copie di testi coperti dal diritto d'autore, ne della loro copia in memoria durante il processo impropriamente chiamato "training".
Stiamo parlando del processo di creazione di un'opera derivata (il "modello").
certe sue affermazioni sono forse "ingenue" [...] (eg "Anche se poi le aziende forniscono accesso a quelle opere derivate "a pezzetti", le opere sono state integralmente incluse nel processo di programmazione statistica (il "training" della "AI")").
Beh, più che ingenuo, direi che distinguere fra software e output del software è ovvio.
Mi pare invece incredibile che li si possa confondere e mi chiedo come sia possibile nel 2024 una confusione tanto evidente.
In questo però potrei essere "ingenuo", in effetti.
La questione dell'applicazione della "dicotomia idea/espressione" al TDM è proprio relativa al fatto che per estrarre dati, non proteggibili, si debbano effettuare copie meccaniche integrali dell'espressione proteggibile in cui quei dati sono contenuti.
Sennonché non stiamo parlando di dette copie, ma del software che ne viene compilato.
Sia chiaro: se il processo di compilazione / compressione lossy cancella il diritto degli autori a me va benissimo!
L'importante è che valga anche per i binari x86_64 di Microsoft, per gli mp4 ottenuti dai film Disney, etc...
Giacomo
Caro Giancarlo, Mi spiace averti stancato, per cui non ti tedierò con le ovvie differenze fra un LLM (che è una compressione lossy eseguibile dei testi sorgente) e Google Books (che è una semplice interfaccia web su _estratti_ di quei testi). Tuttavia credo sia importante chiarire un aspetto che le tue considerazioni riportano alla mente Il 8 Settembre 2024 18:13:43 UTC, GC F ha scritto:
Il materiale non è usato per il suo valore espressivo,
se così fosse Microsoft & friends non starebbero pagando scrittori e giornalisti per scrivere testi che nessuno leggerà mai! Lo fanno proprio perché sanno benissimo che il loro software non contiene idee ma espressioni. SOLO espressioni. Se l'uso delle espressioni originali negli LLM fosse "trasformativo", la presenza di espressioni prodotte in output da altri LLM nei dataset sorgente non sarebbe un problema. Invece il problema del "model collapse" deriva proprio dal fatto che l'output di un LLM non ha alcun "valore espressivo", contrariamente alle opere originali.
quindi la creazione del software/modello non ha effetti sul valore di mercato dell'opera originale utilizzata - non la sostituisce.
Non stiamo parlando del valore di mercato di un'opera, ma del valore di mercato dei diritti di sfruttamento ad essa connessi. In particolare del valore di mercato del diritto a creare opere derivate (l'LLM). Questo diritto può essere ceduto per un corrispettvo che chi programma LLM non sta pagando. Se lo pagasse, il valore di mercato di quel diritto di sfruttamento economico dell'opera aumenterebbe notevolmente, perché le varie aziende che producono LLM si contenderebbero il diritto di creare LLM derivati dalle opere migliori. Lo vedi bene nell'articolo citato da Antonio in un altro thread, dove i diritti su articoli che nessuno leggerà mai e che dunque non avrebbero alcun valore di mercato, acquisiscono un valore comparabile a quello corrisposto da un giornale che li pubblica.
Si potrebbe discutere se quegli effetti sostitutivi ci siano nel contesto della produzione degli output di quel modello, ma è altra questione
Vero, è un'altra questione: i modelli delle "AI generative" sono archivi compressi (con perdita di informazioni). Non sostituiscono una singola opera. Sono surrogati di tutte le opere usate per programmarli e di ciascuna di esse. Surrogati di qualità variabile, ma pur sempre surrogati. Come una jpeg compressa di una serie di dipinti affiancati sarebbe un surrogato di tutti i dipinti inclusi e di ciascuno. I loro output però sono evidenti surrogati per le opere da cui derivano. Se così non fosse, non ci sarebbero decine di pubblicazioni scientifiche che li riportano, citando articoli mai scritti che gli autori non hanno nemmeno provato ad acquistare (con buona pace della favola delle peer review). E ricorderai anche tu il caso dell'avvocato che presentò al giudice un documento pieno di riferimenti giurisprudenziali inesistenti perché prodotto con un LLM. Riferimenti giurisprudenziali a testi che lui non aveva nemmeno provato a comprare, accontentandosi del surrogato fornito dal LLM. D'altronde chi usa le "AI generative" per "generare" contenuti non può proprio acquistare le opere originali da cui quei contenuti sono tratti, neənche volendo. Non solo perché a volte si tratta di chat o mail private, testi inediti etc... ma perché gli LLM non sono in grado di fornire i riferimenti corretti (anche quando ne forniscono di esistenti) proprio per come funzionano.
Il mio riferimento precedente alla τέχνη era un'allusione a un dibattito millenario. Non si può ridurre tutto alla τέχνη;
Perché, la Giurisprudenza non è essa stessa un'arte? Giacomo PS: non sentirti in alcun modo obbligato a rispondere se non ti va... e se preferisci possiamo continuare in privato.
Buongiorno Giancarlo, GC F <gcfrosio@gmail.com> writes: [...]
Sostenendo che la dicotomia/idea espressione sia la grundnorm del diritto d'autore, sostengo anche che qualsiasi conclusione che porti a identificare una violazione in processi di utilizzo di espressioni proteggibili per estrarre elementi improteggibili sia incompatibile con i principi generali e strutturali del diritto d'autore.
Per quello che conta anche io sono convinto che è giuridicamente /inconsistente/ sostenere che il c.d. "AI Training" sia "Copyright Infringement", in qualsiasi modo si tenti di dimostrarlo (abbiamo le prove: con questo prompt su due milioni l'output è uguale alla tal opera per 25 parole consecutive!) Io questa la ritengo una battaglia persa in partenza (e anche una battaglia stremamente fuorviante), piuttosto, come ho scritto poco fa in lista, devo dire che sono sinceramente stupito che le molte lobby degli editori non siano (ancora?) riuscite a far estendere il "diritto di copia privata" a streaming e cloud-storage, per poi proseguire con l'estenderlo ai "servizi AI basati su machine learning" [...] Saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Ciao Giacomo, scusa se mi permetto di rispondere anche io a questa tua ingenua (?) considerazione Giacomo Tesio <giacomo@tesio.it> writes: [...]
Cosa c'entra la
"dicotomia idea/espressione", forse la grundnorm del diritto d'autore
?
Dentro un software programmato statisticamente non c'è alcuna mente che possa elaborare idee, solo un intricato sistema automatico di collage delle espressioni. Lo chiamano "machine learning" per ingannare coloro che non sanno come funziona quel tipo di software, ma non c'è nessuno che apprenda alcunché, nemmeno dentro una "rete neurale artificiale".
Il fatto che nel software "non c'è alcuna mente che possa elaborare idee" non cancella il fatto che per giudicare se esista violazione del diritto d'autore nell'output di tale software debba essere verificato che l'espressione sia _plagio_. Sul significato "dicotomia idea/espressione" credo sia tutto chiarissimo, no? Che una persona utilizzi la penna o ChatGPT per ottenere l'espressione di una idea, idea poi si (ri)formerà in modo autonomo nella mente di chi LEGGE, non cambia la natura dell'output: è una espressione di una idea (di chi scrive o chi legge). La grundnorm del diritto d'autore vuole che non siano tutelate le idee (l'universo è stato generato dal Big Bang) ma la loro _specifica_ forma espressiva (che deve avere catatteristiche di originalità). Poi sì, ci sono tutti i tecnicismi in merito alla differenza tra il "fair use" di scuola statunitense e quello più arzigogoloso di scuola europea... ma che noia Saluti, 380°. -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Buongiorno, «E io pago!» (cit.) Executive summary: una associazione di sindacati di autori tedesca ha commissionato un _dubbio_ studio giuridico nel _disperato_ tentativo di avere una pezza d'appoggio per andare a fare la questua, ops... si dice lobbing, nei confronti delle aziende BigTech attuali e future. Invece di percorrere questa /proibitiva/ strada del "AI Training is Copyright Infringement", suggerisco una rapida e comoda soluzione a tutti i portatori di interesse coinvolti (quindi pochissimi, perché tutti gli altri PAGANO e basta): perché non chiedete di estendere anche alle aziende di "servizi AI", il "diritto di copia privata" stabilito nella EU, quello che viene corrisposto dalle aziende produttrici di smartphone, tablet, pendrive, cd, hd ecc. a fronte della possibilità che un privato cittadino possa effettuare copie di opere tutelate su uno di tali supporti fisici?!? Chiedete un millesimo di EUR a parola generata, dai! :-D Però c'è un problemino: faccio sommessamente notare che - se mi sbaglio mi corrigerete - il "diritto di copia privata" NON si applica allo streaming (tipo a Netflix) e nemmeno allo storage "cloud"... quindi suggerisco anche di darsi molto da fare per estendere anche a loro l'obolo, perché ci sono un sacco di soldi da fare. Avanti avvocati, c'è un sacco di lavoro, ne vale la pena! Per approfondimenti sul "diritto di copia privata" si veda: https://biblioteche.cultura.gov.it/export/sites/dgbid/it/documenti/2020-Magg... A titolo informativo, giusto per capire di quanti soldi stiamo parlando, dello studio sopra (pubblicato a Maggio 2020) riporto solo questo dato: --8<---------------cut here---------------start------------->8--- Nell’anno 2017 il compenso pro-capite [5] raccolto in Italia è stato inferiore rispetto a tutti gli altri paesi europei in esame dov’è presente la copia privata. L’incidenza media pro-capite del compenso di copia privata sulla totalità della popolazione è pari a circa € 2,1 a fronte di una media europea – dei paesi ove è presente la copia privata - pari a € 3,40, con picchi di € 4,70 ed € 4,00 rispettivamente in Francia e Germania. (Figura 7). [5] Compenso pro-capite inteso come rapporto tra il totale dei compensi incassati nel Paese ed il totale della popolazione. --8<---------------cut here---------------end--------------->8--- (pag 18. del PDF) La stima della popolazione italiana 2017 è di 60 milioni e 494mila persone, quindi circa 127 milioni di euro all'anno da spartirsi solo in Italia. Messa in altri termini, la Fig. 8 a pag 19 dello studio di cui sopra dice che nel 2015 in Italia il "diritto di copia" incideva per lo 0.8% sulla sola vendita degli apparecchi (mentre la media FR+DE+NL era del 1.3%)... una piccolissima TASSA, insomma :-O Poi, su come vengono effettivamente ripartiti i diritti d'autore e quelli secondari mi piacerebbe trovare qualche "bilancio" ufficiale che spieghi quanto prende ciascun titolare da ciascuna "societa di collecting"... ma su questo c'è una cappa impenetrabile. Daniela Tafani <daniela.tafani@unipi.it> writes: [...]
In spring, the Copyright Initiative commissioned
"Copyright Initiative" è l'impropria traduzione del nome tedesco dell'associazione "Initiative Urheberrecht", il cui scopo è: --8<---------------cut here---------------start------------->8--- represents the interests of approximately 140,000 authors and performing artists in the fields of composition, orchestra, journalism, film and television, photography, documentary film, fiction and non-fiction, design, illustration, visual arts, drama, dance, game development and many more. Together we create an ambitious culture, high-quality education, enjoyable entertainment, independent journalism and lively discourse, contribute to the diversity of opinions and democracy and establish an internationally strong creative location that is also of great economic importance: in 2019, the industry contributed 3.1 percent of Germany's gross domestic product (GDP). With the collaboration of 44 guilds and unions, Initiative Urheberrecht is the representative platform for all branches of creative work. We actively support the interests of all authors and performing artists and fight for fair copyright legislation in Germany and Europe. --8<---------------cut here---------------end--------------->8--- (via https://urheber.info/about-us) è una /specie/ di SIAE tedesca, con la differenza che in italia la SIAE ha il monopolio de-facto della gestione degli aspetti dello sfruttamento economico del diritto d'autore. le sparate tipo «170 billion euros in turnover; 1,7 million workers» mi riportano alla mente certe campagne di "marketing anti pirateria" della BSA degli anni 2000 nelle quali sparavono cifre ad-minchiam sulle presunte perdine economiche derivanti dalla diffusione del software /piratato/... sembra passato un secolo eppure eta ieri. [...]
For the first time on this scale, a computer scientist and a legal scholar are jointly creating evidence regarding the processing steps in AI training.
Ollà, che evidenze /inoppugnabili/! «Avremmo potuto stupirvi con effetti speciali...» [...]
“As a closer look at the technology of generative AI models reveals, the training of such models is not a case of text and data mining. It is a case of copyright infringement
il nocciolo della questione è questo e solo questo: data mining o NON data mining? giova rivcordare che fino a ieri, prima di tutto questo putiferio insopportabile intorno alla AI-vs-copyright, qualsiasi tentativo di far passare il data mining (di opere "tutelate" da copyright) è caduto nel vuoto. ...ma ogni occasione è buona per riproporre la minestra riscaldata. [...]
“parts of the training data
data? Quindi sono espressioni originali (le uniche tutelabili) o "dati"? Mettetevi d'accordo, perché giuridicamente c'è un abisso. [1]
can be memorized in whole or in part by current generative models - LLMs and (latent) diffusion models - and can therefore be generated again with suitable prompts by end users and thus reproduced.”
Sì ma per quante occorrenze di parole/pixel/note?!?! Quando scatta il plagio? Per quanti "suitable prompts" si ottiene "la copia" dei dati di input, rispetto a tutti gli ennemila prompt utilizzabili? [...]
“This study is explosive because it proves that we are dealing with large-scale theft of intellectual property.
Boom! Giochiamo a chi la spara più grossa? OK allora giochiamo. Quelli di "Initiative Urheberrecht" sanno benissimo (ma lo sa anche ci sta leggendo, vero?!?) che IN TEORIA l'obolo _deve_ andare al TITOLARE dei diritti autore [2]: come si fa a determinare quali sono i titolari dei diritti dei vari pezzi riprodotti nell'output di un LLM?!? Mi dicono dalla regia che il processo di /compressione/ dell'informazione effettuato da LLM e simili non è reversibile... ma io sono ignorante. E poi: 1. quale algoritmo usiamo per la suddivisione degli oboli? 2. cosa ne facciamo dei diritti connessi? Nel caso della "musica" la situazione in italia e sommariamente descritta qui: https://www.icompany.it/iblog/la-musica-attuale/696-facciamo-ordine-diritti-... Ecco perché suggerisco sommessamente ai "paladini" del diritto d'autore di concentrarsi più sui diritti secondari che su quelli principali di sfruttamento economico delle opere... il "diritto di copia privata" è quello che fa per voi: dovete trovare qualcuno ben introdotto in quei meccanismi ben oliati che metta una buona parolina anche per voi. [...]
The composer and spokesperson for the Copyright Initiative, Matthias Hornschuh, comments:
“There would be a new, profitable licensing market on the horizon, but no remuneration is flowing,
eccolo qui il succo del messaggio: c'è PROFUMO di soldi, vogliamo la nostra fettina! [...] 'sta minestra è talmente riscaldata che è diventata rancida. Saluti, 380° [1] tra l'altro gli sviluppatori degli LLM et similia potrebbero perfino sostenere di avere il diritto d'autore (sui generis) dei database :-O [2] per questo in italia tutti coloro che effettuano pubbliche rappresentazioni di opere tutelate da copyright devono compilare il FAMIGERATO borderò (spettacoli musicali, teatrali, cinema)... oh ci sarebbe così tanto da dire sulla raccolta degli oboli! -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
On 05/09/24 23:02, Daniela Tafani wrote:
Axel Voss, MEP and host of today's event in the European Parliament, expressly thanks the scientists Dornis and Stober and is pleased that
“the study not only proves that the training of Generative AI models is not covered by text and data mining, but that it also provides further important indications and suggestions for a better balance between the protection of human creativity and the promotion of AI innovation.” “This study is explosive because it proves that we are dealing with large-scale theft of intellectual property. The ball is now in the politicians' court to draw the necessary conclusions and finally put an end to this theft at the expense of journalists and other authors,” commented Hanna Möllers, legal advisor to the DJV and representative of the European Federation of Journalists (EFJ).
Axel Voss (https://en.wikipedia.org/wiki/Axel_Voss) citato qui sopra è uno dei più accaniti sostenitori della direttiva copyright del 2019, censorship machine (https://en.wikipedia.org/wiki/Directive_on_Copyright_in_the_Digital_Single_M...) compresa. Cito la citazione che riporta wikipedia: "this directive is an important step towards correcting a situation which has allowed a few companies to earn huge sums of money without properly remunerating the thousands of creatives and journalists whose work they depend on" Axel Voss non è un nemico dei monopoli intellettuali e dei loro banchetti. Semplicemente desidera inasprire il copyright perché i monopolisti tradizionali - che sono gli editori i quali si fanno cedere il copyright dagli autori - ne ricevano qualche briciola. *Dove i SAlAMI copiano alla lettera*, basta il copyright così com'è. Dove i SALAMI rimescolano, bisognerebbe cambiare il copyright estendendo a tutte le espressioni delle idee (recensioni, riassunti umani e no etc.) la stessa disciplina che si applica, secondo me incoerentemente (slide 22: https://zenodo.org/records/11163103), alle traduzioni. Con il risultato che i detentori del copyright (cioè per lo più gli editori) potrebbero sequestrare buona parte del dibattito pubblico sulle "loro" opere, come avviene con le traduzioni. Ed è poco rilevante che Qui potete leggere di un paio di sequestri famosi, e catastrofici per l'uso pubblico della ragione. In uno dei due la posta in gioco era informare il pubblico statunitense delle idee di Hitler https://btfp.sp.unipi.it/dida/kant_7/index.xhtml#idm181 L'idea di curare i monopoli, de iure o de facto, inasprendoli ed estendendoli può apparire plausibile solo a chi già, come Axel Voss, li apprezza. Le critiche di Doctorow (https://pluralistic.net/2024/03/13/hey-look-over-there/#lets-you-and-he-figh...) mi sembrano ben fondate. Oltre tutto, un copyright così inasprito ed esteso non impedirebbe affatto agli editori di offrire i "propri" testi, a pagamento, per il confezionamento di SALAMI. Soprattutto per gli editori scientifici commerciali, che ricevono i loro testi gratis, sarebbe - ed è già - un affarone. "Bullies want you to think they're on your side". A presto, MCP
Tutto questo parlare di SALAMI mi ha fatto venire in mente un motto di spirito che si ascolta talvolta ai tavoli di progettazione: "fare il maiale dalla salsiccia", cioè ricostruire il modello originale dai dati di cui si dispone. Si tratta ovviamente di un paradosso, perché certi processi di trasformazione sono irreversibili. L'analogia tra i LLM e i dati (immagini, testi) compressi con o senza perdita è totalmente fuorviante, perché nei miliardi di parametri di una rete neurale non si può ricavare all'inverso il dataset di training, né se ne può leggere in chiaro alcun frammento. La costruzione di un LLM sembra appunto un processo di trasformazione irreversibile. Quando un LLM 'rigurgita' un frammento (ma questo è un evento eccezionale) lo fa comunque in un processo generativo non deterministico in cui quel frammento diviene temporaneamente "attrattore" in forza delle "tracce mnestiche" che ha prodotto nei parametri, cioè qualche cifra decimale nelle gigantesche matrici del modello. Ecco in omaggio, a tal proposito, un articoletto <https://ilmanifesto.it/e-se-chatgpt-fosse-un-autore-del-new-york-times/r/6sO...> che scrissi a suo tempo per Il Manifesto. La causa NYT vs OpenAI sta andando avanti, e credo che al momento vi siano grandi team di informatici e legali che stanno analizzando a fondo la questione. A riguardo, possiamo esprimere le nostre opinioni e le nostre fantasie, ma credo che sarebbe ragionevole attendere e nel frattempo studiare. Una cosa però è certa: plagio o non plagio, i LLM estraggono (e rivendono) valore da ciò che ingeriscono, sia al momento del training, sia dinamicamente con tecniche di *retrieval augmented generation*. Tuttavia, la situazione non è del tutto nuova: Google è già dovuta venire a patti per il suo Google News Showcase. Il problema politico resta sempre quello della giusta remunerazione del lavoro creativo, che le leggi sul copyright, anche se rese più stringenti, non credo risolverebbero. G. On Sun, 8 Sept 2024 at 10:33, Maria Chiara Pievatolo < mariachiara.pievatolo@unipi.it> wrote:
On 05/09/24 23:02, Daniela Tafani wrote:
Axel Voss, MEP and host of today's event in the European Parliament, expressly thanks the scientists Dornis and Stober and is pleased that
“the study not only proves that the training of Generative AI models is not covered by text and data mining, but that it also provides further important indications and suggestions for a better balance between the protection of human creativity and the promotion of AI innovation.” “This study is explosive because it proves that we are dealing with large-scale theft of intellectual property. The ball is now in the politicians' court to draw the necessary conclusions and finally put an end to this theft at the expense of journalists and other authors,” commented Hanna Möllers, legal advisor to the DJV and representative of the European Federation of Journalists (EFJ).
Axel Voss (https://en.wikipedia.org/wiki/Axel_Voss) citato qui sopra è uno dei più accaniti sostenitori della direttiva copyright del 2019, censorship machine ( https://en.wikipedia.org/wiki/Directive_on_Copyright_in_the_Digital_Single_M...)
compresa. Cito la citazione che riporta wikipedia:
"this directive is an important step towards correcting a situation which has allowed a few companies to earn huge sums of money without properly remunerating the thousands of creatives and journalists whose work they depend on"
Axel Voss non è un nemico dei monopoli intellettuali e dei loro banchetti. Semplicemente desidera inasprire il copyright perché i monopolisti tradizionali - che sono gli editori i quali si fanno cedere il copyright dagli autori - ne ricevano qualche briciola.
*Dove i SAlAMI copiano alla lettera*, basta il copyright così com'è.
Dove i SALAMI rimescolano, bisognerebbe cambiare il copyright estendendo a tutte le espressioni delle idee (recensioni, riassunti umani e no etc.) la stessa disciplina che si applica, secondo me incoerentemente (slide 22: https://zenodo.org/records/11163103), alle traduzioni. Con il risultato che i detentori del copyright (cioè per lo più gli editori) potrebbero sequestrare buona parte del dibattito pubblico sulle "loro" opere, come avviene con le traduzioni. Ed è poco rilevante che Qui potete leggere di un paio di sequestri famosi, e catastrofici per l'uso pubblico della ragione. In uno dei due la posta in gioco era informare il pubblico statunitense delle idee di Hitler https://btfp.sp.unipi.it/dida/kant_7/index.xhtml#idm181
L'idea di curare i monopoli, de iure o de facto, inasprendoli ed estendendoli può apparire plausibile solo a chi già, come Axel Voss, li apprezza. Le critiche di Doctorow ( https://pluralistic.net/2024/03/13/hey-look-over-there/#lets-you-and-he-figh...)
mi sembrano ben fondate.
Oltre tutto, un copyright così inasprito ed esteso non impedirebbe affatto agli editori di offrire i "propri" testi, a pagamento, per il confezionamento di SALAMI. Soprattutto per gli editori scientifici commerciali, che ricevono i loro testi gratis, sarebbe - ed è già - un affarone.
"Bullies want you to think they're on your side".
A presto, MCP
On 08/09/24 12:31, Guido Vetere wrote:
Quando un LLM 'rigurgita' un frammento (ma questo è un evento eccezionale) lo fa comunque in un processo generativo non deterministico in cui quel frammento diviene temporaneamente "attrattore" in forza delle "tracce mnestiche" che ha prodotto nei parametri, cioè qualche cifra decimale nelle gigantesche matrici del modello.
Non ho tempo di continuare una discussione su un articolo che non condivido. Propongo però due domande come esercizio per il lettore: 1. se uno studente componesse una tesi di laurea con i SALAMI che la sua università ha acquistato da qualche oligopolista dell'editoria scientifica commerciale e che gli sono stati raccomandati dall'università stessa e dal venditore come strumento per migliorare il suo lavoro creativo. se nella sua tesi (pubblicata dopo la discussione nell'archivio del suo ateneo) ci fossero *riproduzioni letterali* di pezzi di articoli usciti in riviste di detto oligopolista e usati come dati di addestramento potremmo accusarlo a ragione di aver violato il copyright (diritto morale dell'autore compreso) oppure potrebbe discolparsi dicendo che le riproduzioni sono (un raro) esito di un processo generativo non deterministico? 2. se la risposta alla domanda fosse "sì", e lo studente ne subisse la conseguenze, questi avrebbe titolo a rivalersi su chi gli ha offerto i SALAMI presentandoli come strumenti per migliorare il suo lavoro creativo? A presto, MCP (*) Per non influenzare chi avesse tempo di rispondere non dico come tratterei un laureando che scoprissi a fare le cose di cui in (1), soprattutto se questi sostenesse che i SALAMI da lui usati stanno in una bolla giuridica rispetto alla normativa vigente a partire dai regolamenti di ateneo.
potremmo accusarlo a ragione di aver violato il copyright (diritto
morale dell'autore compreso) oppure potrebbe discolparsi dicendo che le riproduzioni sono (un raro) esito di un processo generativo non deterministico? in ogni caso lo studente non avrebbe presentato un elaborato originale: per me conterebbe questo, non la mancata remunerazione dei diritti d'autore. il problema vero è che, proprio per la loro abilità ricombinatoria, i SALAMI mettono in crisi i sistemi antiplagiarismo che funzionavano così bene fino a qualche anno fa bisognerà rassegnarsi all'idea di far appassionare gli studenti alla ricerca e alla cultura :-) G. On Sun, 8 Sept 2024 at 13:47, Maria Chiara Pievatolo < mariachiara.pievatolo@unipi.it> wrote:
On 08/09/24 12:31, Guido Vetere wrote:
Quando un LLM 'rigurgita' un frammento (ma questo è un evento eccezionale) lo fa comunque in un processo generativo non deterministico in cui quel frammento diviene temporaneamente "attrattore" in forza delle "tracce mnestiche" che ha prodotto nei parametri, cioè qualche cifra decimale nelle gigantesche matrici del modello.
Non ho tempo di continuare una discussione su un articolo che non condivido. Propongo però due domande come esercizio per il lettore:
1. se uno studente componesse una tesi di laurea con i SALAMI che la sua università ha acquistato da qualche oligopolista dell'editoria scientifica commerciale e che gli sono stati raccomandati dall'università stessa e dal venditore come strumento per migliorare il suo lavoro creativo.
se nella sua tesi (pubblicata dopo la discussione nell'archivio del suo ateneo) ci fossero *riproduzioni letterali* di pezzi di articoli usciti in riviste di detto oligopolista e usati come dati di addestramento
potremmo accusarlo a ragione di aver violato il copyright (diritto morale dell'autore compreso) oppure potrebbe discolparsi dicendo che le riproduzioni sono (un raro) esito di un processo generativo non deterministico?
2. se la risposta alla domanda fosse "sì", e lo studente ne subisse la conseguenze, questi avrebbe titolo a rivalersi su chi gli ha offerto i SALAMI presentandoli come strumenti per migliorare il suo lavoro creativo?
A presto, MCP
(*) Per non influenzare chi avesse tempo di rispondere non dico come tratterei un laureando che scoprissi a fare le cose di cui in (1), soprattutto se questi sostenesse che i SALAMI da lui usati stanno in una bolla giuridica rispetto alla normativa vigente a partire dai regolamenti di ateneo.
Salve Guido, On Sun, 8 Sep 2024 12:31:14 +0200 Guido Vetere wrote:
L'analogia tra i LLM e i dati (immagini, testi) compressi con o senza perdita è totalmente fuorviante, perché nei miliardi di parametri di una rete neurale non si può ricavare all'inverso il dataset di training, né se ne può leggere in chiaro alcun frammento.
credo che potresti trarre giovamento da un ripasso sugli algoritmi di compressione lossy, perché sembra sfuggirti che anche da un jpeg fortemente compresso non puoi ricavare l'immagine originale: Qui trovi un esempio: https://upload.wikimedia.org/wikipedia/commons/3/3c/TulipanoJPEG10.jpg Non c'è alcun modo di ricostruire la sequenza di byte che costituiva l'immagine originale. E' vero, non si tratta di una semplice analogia: stiamo letteralmente parlando di sistemi di compressione lossy (seppur eseguibili).
Quando un LLM 'rigurgita' un frammento (ma questo è un evento eccezionale) lo fa comunque in un processo generativo non deterministico in cui quel frammento diviene temporaneamente "attrattore" in forza delle "tracce mnestiche" che ha prodotto nei parametri, cioè qualche cifra decimale nelle gigantesche matrici del modello.
Ma scappelate a destra o a sinistra? :-) Suvvia, non servono supercazzole su Nexa: ci sono migliaia di esempi di LLM che restituiscono frammenti più o meno vasti di opere riconoscibili attribuendole a persone inesistenti e magari con licenze inesistenti. La mia preferita è questa https://peertube.opencloud.lu/w/eW497u3UYXmQwcQu9LYEDR Ma Microsoft stessa non ne faceva mistero nel paper pubblicato all'indomani del lancio di GitHub CopyALot, cercando disperatamente di antropomorfizzare il software per giustificare le palesi violazioni https://github.blog/ai-and-ml/github-copilot/github-copilot-research-recitat... Quanto si tratti di "eventi eccezionali" è ben noto: esistono diversi studi che dimostrano la facilità con cui è possibile tirar fuori record presenti nei dataset di "training" (il primo che mi torna in mente: https://arxiv.org/abs/2012.07805 ). In qualsiasi caso, sarai d'accordo con me che, per essere tirati fuori, quei record devono essere presenti dentro il LLM, seppur codificati in forma non leggibile. Quindi che piaccia o meno ad editori e a chi li sviluppa, gli LLM rimangono rappresentazioni compresse dei dataset utilizzati durante il "training", compressione lossy ed eseguibile, ma pur sempre di compressione / compilazione dei dataset sorgenti si tratta. Giacomo
Suvvia, non servono supercazzole su Nexa: ci sono migliaia di esempi di LLM che restituiscono frammenti più o meno vasti di opere riconoscibili attribuendole a persone inesistenti e magari con licenze inesistenti
Tesio, se vuole risposte di merito da me, provi a formulare le sue osservazioni in modo educato, magari si faccia aiutare da un SALAME :-) G. On Sun, 8 Sept 2024 at 15:35, Giacomo Tesio <giacomo@tesio.it> wrote:
Salve Guido,
On Sun, 8 Sep 2024 12:31:14 +0200 Guido Vetere wrote:
L'analogia tra i LLM e i dati (immagini, testi) compressi con o senza perdita è totalmente fuorviante, perché nei miliardi di parametri di una rete neurale non si può ricavare all'inverso il dataset di training, né se ne può leggere in chiaro alcun frammento.
credo che potresti trarre giovamento da un ripasso sugli algoritmi di compressione lossy, perché sembra sfuggirti che anche da un jpeg fortemente compresso non puoi ricavare l'immagine originale:
Qui trovi un esempio:
https://upload.wikimedia.org/wikipedia/commons/3/3c/TulipanoJPEG10.jpg
Non c'è alcun modo di ricostruire la sequenza di byte che costituiva l'immagine originale.
E' vero, non si tratta di una semplice analogia: stiamo letteralmente parlando di sistemi di compressione lossy (seppur eseguibili).
Quando un LLM 'rigurgita' un frammento (ma questo è un evento eccezionale) lo fa comunque in un processo generativo non deterministico in cui quel frammento diviene temporaneamente "attrattore" in forza delle "tracce mnestiche" che ha prodotto nei parametri, cioè qualche cifra decimale nelle gigantesche matrici del modello.
Ma scappelate a destra o a sinistra? :-)
Suvvia, non servono supercazzole su Nexa: ci sono migliaia di esempi di LLM che restituiscono frammenti più o meno vasti di opere riconoscibili attribuendole a persone inesistenti e magari con licenze inesistenti.
La mia preferita è questa https://peertube.opencloud.lu/w/eW497u3UYXmQwcQu9LYEDR
Ma Microsoft stessa non ne faceva mistero nel paper pubblicato all'indomani del lancio di GitHub CopyALot, cercando disperatamente di antropomorfizzare il software per giustificare le palesi violazioni
https://github.blog/ai-and-ml/github-copilot/github-copilot-research-recitat...
Quanto si tratti di "eventi eccezionali" è ben noto: esistono diversi studi che dimostrano la facilità con cui è possibile tirar fuori record presenti nei dataset di "training" (il primo che mi torna in mente: https://arxiv.org/abs/2012.07805 ).
In qualsiasi caso, sarai d'accordo con me che, per essere tirati fuori, quei record devono essere presenti dentro il LLM, seppur codificati in forma non leggibile.
Quindi che piaccia o meno ad editori e a chi li sviluppa, gli LLM rimangono rappresentazioni compresse dei dataset utilizzati durante il "training", compressione lossy ed eseguibile, ma pur sempre di compressione / compilazione dei dataset sorgenti si tratta.
Giacomo
Ciao Maria Chiara, riporto il subject al valore iniziale perché non ho molto da aggiungere sugli interessi rappresentati da Axel Voss: le norme su copyright, brevetti e segreti industriali sono intrinsecamente oscurantiste, e rallentano il progresso culturale e tecnologico dell'umanità vietando alla maggioranza delle persone di conoscere e/o ragionare liberamente sulle informazioni che i dati cui vengono applicate rappresentano. Detto questo, l'eccitazione di Axel Voss dipende dalla stessa ignoranza informatica di coloro che si strappano le vesti di fronte ad uno studio che afferma una semplice ovvietà tecnica: le "AI generative" sono opere derivate meccanicamente delle opere utilizzate per programmarle statisticamente e di cui, come spiegavo in una mail precedente costituiscono l'eseguibile compilato per una determinata architettura. On Sun, 8 Sep 2024 10:33:05 +0200 Maria Chiara Pievatolo wrote:
Dove i SALAMI rimescolano, bisognerebbe cambiare il copyright estendendo a tutte le espressioni delle idee (recensioni, riassunti umani e no etc.) la stessa disciplina che si applica, secondo me incoerentemente (slide 22: https://zenodo.org/records/11163103), alle traduzioni.
Non serve: il copyright com'è protegge già gli eseguibili compilati a partire da testi chiamati "codice sorgente", senza bisogno di alcuna modifica alla normativa o alcuna estensione alla sua interpretazione. Anche il processo di compilazione di un comune software scritto in C è un processo di compressione particolarmente evidente laddove non vi siano molte dipendenze esterne. Ad esempio, il kernel di linux versione 5.10 è un testo da quasi un gigabyte. Compresso in tar.xz [1] occupa circa 115 Mega (un fattore di compressione senza perdita di informazione di 8 a 1, circa) mentre una volta compilato occupa circa 7 megabyte (un fattore di compressione CON perdita di informazione di oltre 100 volte). L'eseguibile che i fautori delle "AI generative" chiamano impropriamente "modello" subisce una compressione concettualmente analoga attraverso il processo di compilazione dei dataset sorgenti. Non è dunque necessario modificare il diritto d'autore per riconoscere i "modelli AI" (le matrici eseguibili da quelle macchine virtuali) come opere derivate dai testi sorgenti. Anche se poi le aziende forniscono accesso a quelle opere derivate "a pezzetti", le opere sono state integralmente incluse nel processo di programmazione statistica (il "training" della "AI"). In altri termini, il "modello" deriva dalla totalità di ciascun opera usata per la sua programmazione, nonché dalla totalità di TUTTE le opere utilizzate (pubblicamente note, o meno). Ciò rende inapplicabili ai modelli le eccezioni che permettono di citare piccoli frammenti di un opera in un'altra. Dunque, indipendentemente dall'articolo e dalle ragioni di chi l'ha scritto, affermare che "AI Training is Copyright Infringement" significa semplicemente prendere atto di come funziona il processo in questione e ciò che produce (il "modello"). Microsoft stessa non nega la natura di opera derivata dei LLM (pur tentando disperatamente di giustificarla). Ad esempio in "Elephant never forget..." [2] i suoi ricercatori scrivono: "This investigation reveals that LLMs have memorized many popular tabular datasets verbatim". Dunque nessun bisogno di estendere o rafforzare il diritto d'autore: basta applicare le norme vigenti anche a chi approfitta dell'ignoranza altrui per sottrarvisi attraverso software che pochi comprendono (anzitutto fra coloro che ne parlano) Giacomo [1] https://cdn.kernel.org/pub/linux/kernel/v5.x/linux-5.10.225.tar.x [2] https://arxiv.org/abs/2404.06209
Microsoft stessa non nega la natura di opera derivata dei LLM (pur tentando disperatamente di giustificarla). Ad esempio in "Elephant never forget..." [2] i suoi ricercatori scrivono: "This investigation reveals that LLMs have memorized many popular tabular datasets
verbatim". per completezza, riporto un passaggio seguente del suddetto articolo: Research has also shown that memorization occurs if an LLM sees a text repeatedly during training (Carlini et al., 2022b; Biderman et al., 2023). Because of this, *memorization can be seen as an extreme case of training data contamination* where a dataset is not only seen during training but repeated within the training set so often that the LLM becomes able to consistently generate it. La memorizzazione, insomma, è un caso degenere. Infatti, si applicano usualmente tecniche di filtering per deduplicare i passaggi che occorrono molte volte nei dataset di training, magari proprio perché gli umani li hanno plagiarizzati molte volte :-) Cheers, G. On Sun, 8 Sept 2024 at 15:48, Giacomo Tesio <giacomo@tesio.it> wrote:
Ciao Maria Chiara,
riporto il subject al valore iniziale perché non ho molto da aggiungere sugli interessi rappresentati da Axel Voss: le norme su copyright, brevetti e segreti industriali sono intrinsecamente oscurantiste, e rallentano il progresso culturale e tecnologico dell'umanità vietando alla maggioranza delle persone di conoscere e/o ragionare liberamente sulle informazioni che i dati cui vengono applicate rappresentano.
Detto questo, l'eccitazione di Axel Voss dipende dalla stessa ignoranza informatica di coloro che si strappano le vesti di fronte ad uno studio che afferma una semplice ovvietà tecnica: le "AI generative" sono opere derivate meccanicamente delle opere utilizzate per programmarle statisticamente e di cui, come spiegavo in una mail precedente costituiscono l'eseguibile compilato per una determinata architettura.
On Sun, 8 Sep 2024 10:33:05 +0200 Maria Chiara Pievatolo wrote:
Dove i SALAMI rimescolano, bisognerebbe cambiare il copyright estendendo a tutte le espressioni delle idee (recensioni, riassunti umani e no etc.) la stessa disciplina che si applica, secondo me incoerentemente (slide 22: https://zenodo.org/records/11163103), alle traduzioni.
Non serve: il copyright com'è protegge già gli eseguibili compilati a partire da testi chiamati "codice sorgente", senza bisogno di alcuna modifica alla normativa o alcuna estensione alla sua interpretazione.
Anche il processo di compilazione di un comune software scritto in C è un processo di compressione particolarmente evidente laddove non vi siano molte dipendenze esterne. Ad esempio, il kernel di linux versione 5.10 è un testo da quasi un gigabyte. Compresso in tar.xz [1] occupa circa 115 Mega (un fattore di compressione senza perdita di informazione di 8 a 1, circa) mentre una volta compilato occupa circa 7 megabyte (un fattore di compressione CON perdita di informazione di oltre 100 volte).
L'eseguibile che i fautori delle "AI generative" chiamano impropriamente "modello" subisce una compressione concettualmente analoga attraverso il processo di compilazione dei dataset sorgenti.
Non è dunque necessario modificare il diritto d'autore per riconoscere i "modelli AI" (le matrici eseguibili da quelle macchine virtuali) come opere derivate dai testi sorgenti.
Anche se poi le aziende forniscono accesso a quelle opere derivate "a pezzetti", le opere sono state integralmente incluse nel processo di programmazione statistica (il "training" della "AI"). In altri termini, il "modello" deriva dalla totalità di ciascun opera usata per la sua programmazione, nonché dalla totalità di TUTTE le opere utilizzate (pubblicamente note, o meno). Ciò rende inapplicabili ai modelli le eccezioni che permettono di citare piccoli frammenti di un opera in un'altra.
Dunque, indipendentemente dall'articolo e dalle ragioni di chi l'ha scritto, affermare che "AI Training is Copyright Infringement" significa semplicemente prendere atto di come funziona il processo in questione e ciò che produce (il "modello").
Microsoft stessa non nega la natura di opera derivata dei LLM (pur tentando disperatamente di giustificarla). Ad esempio in "Elephant never forget..." [2] i suoi ricercatori scrivono: "This investigation reveals that LLMs have memorized many popular tabular datasets verbatim".
Dunque nessun bisogno di estendere o rafforzare il diritto d'autore: basta applicare le norme vigenti anche a chi approfitta dell'ignoranza altrui per sottrarvisi attraverso software che pochi comprendono (anzitutto fra coloro che ne parlano)
Giacomo
[1] https://cdn.kernel.org/pub/linux/kernel/v5.x/linux-5.10.225.tar.x
Vedi Guido, Il 8 Settembre 2024 14:24:00 UTC, Guido Vetereha scritto:
Research has also shown that memorization occurs if an LLM sees a text repeatedly during training (Carlini et al., 2022b; Biderman et al., 2023). Because of this, *memorization can be seen as an extreme case of training data contamination* where a dataset is not only seen during training but repeated within the training set so often that the LLM becomes able to consistently generate it.
La memorizzazione, insomma, è un caso degenere.
Sembra un caso degenere perché immagini un'intelligenza artificiale che impara. Nonappena comprendi che si tratta semplicemente di un software programmato statisticamente, ti appare del tutto ovvio e normale che i dati più frequenti subiscano una perdita minore durante il processo di compressione.
Infatti, si applicano usualmente tecniche di filtering per deduplicare i passaggi che occorrono molte volte nei dataset di training
E nonostante ciò gli LLM continuano a sputarli fuori. La differenza non sta nella loro "memorizzazione" da parte del LLM, ma nella nostra capacità di riconoscerli nell'output nonostante gli errori di decompressione. Un po' come avvenne per i sorgenti GPL di Quake III sparati in output da GitHub Copilot: li abbiamo riconosciuti perché sono famosi, non perché Microsoft si è dimenticata di deduplicare i fork di Quake su GitHub! Giacomo
Caro Tesio, apprezzo il tono e dunque rispondo. Sembra un caso degenere perché immagini un'intelligenza artificiale che
impara.
Fin dai tempi del povero Rosenblatt (morì giovane in un incidente) e dal suo percettrone, l'umanità intera ha immaginato una 'intelligenza artificiale che impara' (machine learning). Su cosa cosa significhi 'imparare' per gli umani e per le macchine si sono versati fiumi di inchiostro, non credo sia il caso di dilungarsi qui. Comunque, chiarisco che sono tra quelli che negano decisamente qualsiasi analogia tra l'apprendistato linguistico umano e i SALAMI. Chomsky aveva ragione contro il distribuzionalismo negli anni '50, e continua ad avere ragione oggi sui LLM (su tante altre cose aveva torto, ma tralasciamo). Nonappena comprendi che si tratta semplicemente di un software programmato
statisticamente
Confesso che trovo la tua idea che un LLM sia un 'compilato' dei dataset di training molto interessante, però non mi convince per due motivi: 1) Come la mettiamo col lavoro umano di supervisione e rinforzo (cfr. l'articolo del Guardian riportato oggi qui) che ha un'importanza cruciale per il comportamento a run-time? Tra l'altro, è proprio qui che si trova il grande vantaggio competitivo dei monopolisti. 2) Come la mettiamo con la generazione aumentata dal retrieval (RAG)? Supponi che un grande produttore abbia generato un foundation model con dataset acquisiti legalmente (bastano le briciole di quello che hanno in tasca) e lo abbia poi istruito col lavoro di dipendenti regolari. Quel modello, anche di dimensioni ridotte (es. 70B) sarebbe in grado di fare cose molto utili, ad esempio question answering, interpolando dati che non sono nel training set, ma in database esterni sui quali viene a run-time operata una ricerca. Suggerisco di stare molto attenti alle false analogie, perché ci danno l'illusione di riportare l'ignoto al noto (la produzione di software in questo caso) ma talvolta offuscano la comprensione delle cose. Regards, G. On Sun, 8 Sept 2024 at 16:45, Giacomo Tesio <giacomo@tesio.it> wrote:
Vedi Guido,
Il 8 Settembre 2024 14:24:00 UTC, Guido Vetereha scritto:
Research has also shown that memorization occurs if an LLM sees a text repeatedly during training (Carlini et al., 2022b; Biderman et al., 2023). Because of this, *memorization can be seen as an extreme case of training data contamination* where a dataset is not only seen during training but repeated within the training set so often that the LLM becomes able to consistently generate it.
La memorizzazione, insomma, è un caso degenere.
Sembra un caso degenere perché immagini un'intelligenza artificiale che impara.
Nonappena comprendi che si tratta semplicemente di un software programmato statisticamente, ti appare del tutto ovvio e normale che i dati più frequenti subiscano una perdita minore durante il processo di compressione.
Infatti, si applicano usualmente tecniche di filtering per deduplicare i passaggi che occorrono molte volte nei dataset di training
E nonostante ciò gli LLM continuano a sputarli fuori.
La differenza non sta nella loro "memorizzazione" da parte del LLM, ma nella nostra capacità di riconoscerli nell'output nonostante gli errori di decompressione.
Un po' come avvenne per i sorgenti GPL di Quake III sparati in output da GitHub Copilot: li abbiamo riconosciuti perché sono famosi, non perché Microsoft si è dimenticata di deduplicare i fork di Quake su GitHub!
Giacomo
Confesso che trovo la tua idea che un LLM sia un 'compilato' dei dataset di training molto interessante, però non mi convince per due motivi:
A me invece convince :) Prendo a prestito llama.cpp (già citato in passato). Per "produrre" una chat, una delle linee di comando possibile è questa: ./llama-cli -m ggml-model-q4_0.gguf -c 512 -b 1024 -n 256 --keep 48 -r "User:" -f prompt.txt llama-cli è la "virtual machine" suggerita da Giacomo, può essere benissimo open source e infatti nella maggior parte dei casi lo è. Si occupa dell'inference, in soldoni, effettua i calcoli matriciali e poco altro. I numeretti che seguono -c, -b, -n, ecc. sono i parametri del model, poco da dire. I "pesi" sono tutti dentro il file ggml-model-q4_0.gguf. Questo file è il "compilato". E di questo file non si conosce pressoché nulla sul suo processo di creazione. Deriva dai dati di training e (spesso) dal lavoro umano di taggatura, ma nel dettaglio nessuno (tranne gli autori) sa come sia stato realizzato. A.
On Sun, 8 Sep 2024 17:12:23 +0200 Guido Vetere wrote:
Su cosa cosa significhi 'imparare' per gli umani e per le macchine si sono versati fiumi di inchiostro, non credo sia il caso di dilungarsi qui.
Direi piuttosto che fiumi di inchiostro sono stati versati per giustificare la ridefinizione di termini come "imparare" e "apprendere" affinché possano essere applicati alle macchine. Più interessante sarebbe riflettere sugli obbiettivi di queste ridefinizioni: se si sia trattato di nobilitare le macchine o di alienare le persone. Le "sperimentazioni" sulle "AI" a scuola avvalorano la seconda ipotesi.
Nonappena comprendi che si tratta semplicemente di un software programmato statisticamente
Confesso che trovo la tua idea che un LLM sia un 'compilato' dei dataset di training molto interessante
Non lo è, in realtà: è ovvia. Con la sua semplicità, ridicolizza la favola delle "intelligenze artificiali" al rasoio di Occam. Per chi ha creduto in quella favola però può essere una interessante doccia fredda.
però non mi convince per due motivi: 1) Come la mettiamo col lavoro umano di supervisione e rinforzo (cfr. l'articolo del Guardian riportato oggi qui) che ha un'importanza cruciale per il comportamento a run-time? Tra l'altro, è proprio qui che si trova il grande vantaggio competitivo dei monopolisti.
Quel lavoro è parte del processo di programmazione statistica che non coincide con la sola compilazione del dataset iniziale, ma include la scelta degli hyper parameter, la scelta del dataset iniziale, la scelta della dimensione del vocabolario, la scelta del processo di programmazione, la scelta dei valori iniziali, la supervisione etc... La taggatura, i testi utilizzati per eventuali fine-tuning etc... aumentano il dataset sorgente, come file aggiunti a uno zip dopo la sua creazione. Rimane il fatto che alla fine del processo di compilazione ottieni matrici che costituiscono una compressione lossy eseguibile del dataset.
2) Come la mettiamo con la generazione aumentata dal retrieval (RAG)? Supponi che un grande produttore abbia generato un foundation model con dataset acquisiti legalmente (bastano le briciole di quello che hanno in tasca) e lo abbia poi istruito col lavoro di dipendenti regolari. Quel modello, anche di dimensioni ridotte (es. 70B) sarebbe in grado di fare cose molto utili, ad esempio question answering, interpolando dati che non sono nel training set, ma in database esterni sui quali viene a run-time operata una ricerca.
Non vi vedo alcuna differenza con un altro software proprietario che si colleghi ad un database esterno. L'output di questo ipotetico LLM conterrebbe frammenti dei testi usati per programmarlo combinati con pezzi dei dati presenti sul db. Se chi ha realizzato LLM aveva comprato dagli autori il diritto di progrannare l'LLM a partire dalle loro opere e chi usa l'LLM dispone dei diritti necessari ad accedere al database, dal punto di vista del copyright non ci sono problemi. Se poi parliamo di sicurezza informatica o della qualità degli output è tutta un'altra questione.
Suggerisco di stare molto attenti alle false analogie, perché ci danno l'illusione di riportare l'ignoto al noto ma talvolta offuscano la comprensione delle cose.
Bravo! Sono anni che lo dico! False analogie con le reti neurali, l'intelligenza o l'apprendimento servono solo a buttare fumo negli occhi a chi non comprende il funzionamento questi software. Se non fosse tragico, sarebbe ridicolo. È decisamente ora di ritornare con i piedi per terra. Perché Guido, qui stiamo parlando di software. Niente di più e niente di meno. E il software si programma, non si "allena". Giacomo
On Sun, Sep 08, 2024 at 04:24:00PM +0200, Guido Vetere wrote:
La memorizzazione, insomma, è un caso degenere. Infatti, si applicano usualmente tecniche di filtering per deduplicare i passaggi che occorrono molte volte nei dataset di training, magari proprio perché gli umani li hanno plagiarizzati molte volte :-)
Esatto, questo è un punto pratico molto importante che spesso si perde (anche su questa lista) nelle discussioni sul tema della "recitation" (restituzione di "lunghi" passaggi presenti nel training dataset da parte di un LLM). La recitation è assolutamente *possibile* come caso degenere, come sottolinea Guido. La frequenza dipende da proprietà statistiche del training dataset, che chi mette sul mercato un LLM può controllare (ma spesso fa, perché molto costoso). Quello che invece regolarmente fanno attori come GitHub con Copilot è di aggiungere a valle della generazione con gli LLM dei filtri basati su tecniche di code clone detection e anti-plagio, che sono molto efficaci e relativamente poco costose. Se una sequenza troppo lunga è presente sia nell'output che nel training dataset, l'output viene buttato via e rigenerato, fino a quando non si ottiene un output senza recitation. Tutto questo non ci aiuta nel dibattito sul decidere se un LLM sia o meno un opera derivata dei suoi training input. Ne tantomeno ci aiuta nei casi più complicati nei quali in cui l'output contiene parti del training dataset, ma non in sequenze verbatim. Ma in termini di impatto sulla società dei *prodotti* basati su LLM, le cose sono cambiate parecchio su questi punti dai primi studi empirici su quanto gli LLM (commercializzati) possano ripetere verbatim i loro input o meno. È il motivo per cui Microsoft si senza abbastanza sicura di tutto questo da offrire garanzie legali in termini di violazione del diritto d'autore quando si usa la suite Copilot. (Non a caso lo fa *solo* se l'utente non ha disabilitato il filtering a valle di cui parlavo sopra.) A presto -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'
On Mon, Sep 9, 2024 at 11:15 AM Stefano Zacchiroli <zack@upsilon.cc> wrote:
Tutto questo non ci aiuta nel dibattito sul decidere se un LLM sia o meno un opera derivata dei suoi training input.
A me personalmente piacerebbe capire *perché*, prima di pensare a *se*, un LLM dovrebbe essere un'opera derivata dal dataset di addestramento. Ovvero, avendo come obiettivo la diffusione della conoscenza, è collettivamente positivo per la società pensare che opere di creatività debbano essere coperte da diritti esclusivi nuovi (o estensione di quelli vecchi --diritto d'autore, marchi, ecc) prima di poter essere trasformate in token e passati in pasto all'addestramento automatico?
Caro Stefano, On Mon, 9 Sep 2024 11:33:44 +0200 Stefano Maffulli wrote:
A me personalmente piacerebbe capire *perché*, prima di pensare a *se*, un LLM dovrebbe essere un'opera derivata dal dataset di addestramento.
La realtà può non piacerci, ma rimane pur sempre reale. Un LLM è un'opera derivata dai dataset utilizzati durante la sua programmazione. Una volta compreso questo (piuttosto ovvio) concetto, possiamo ragionare se le normative vigenti vadano modificate a vantaggio delle grandi aziende che vogliono sfruttare gratuitamente tali opere per produrre software opachi che ne riproducono gli interessi ovunque vengono eseguiti, o meno.
Ovvero, avendo come obiettivo la diffusione della conoscenza, è collettivamente positivo per la società pensare che opere di creatività debbano essere coperte da diritti esclusivi nuovi (o estensione di quelli vecchi --diritto d'autore, marchi, ecc) prima di poter essere trasformate in token e passati in pasto all'addestramento automatico?
Non sono certo di comprendere cosa tu intenda con questa frase. Esimere dal rispetto della Legge chi usa proxy software per violare i diritti altrui è deleterio sia per le vittime che per la società. D'altro canto, nessuno vuole impedire, ad esempio, la creazione di software come GitHub CopyALot: l'importante è che tali software e i software che includono i loro output rispettino i diritti degli autori che hanno contribuito alla loro creazione e le licenze che li veicolano. Ad esempio, Microsoft potrebbe riprogrammare un servizio come GitHub Copilot utilizzando esclusivamente i sorgenti di cui detiene il copyright (e quelli in pubblico dominio). In questo modo nessuno (eccetto Microsoft) avrebbe diritto di lamentarsi per l'inclusione di tali sorgenti in altri software, proprietari o meno. Microsoft invece vuole violare liberamente il copyright altrui, ma si guarda bene dall'automatizzare la violazione del proprio! Cui prodest? (questa volta rispondere è proprio facile... ;-) In qualunque caso non serve né estendere ne comprimere il diritto d'autore, basta applicarlo come viene applicato a qualsiasi altro software compilato a partire da testi. Giacomo
Salve Stefano, On Mon, 9 Sep 2024 10:56:06 +0200 Stefano Zacchiroli wrote:
La recitation è assolutamente *possibile* [...] La frequenza dipende da proprietà statistiche del training dataset [...] Quello che invece regolarmente fanno attori come GitHub con Copilot è di aggiungere a valle della generazione con gli LLM dei filtri basati su tecniche di code clone detection e anti-plagio [...] Microsoft si sente abbastanza sicura di tutto questo da offrire garanzie legali in termini di violazione del diritto d'autore quando si usa la suite Copilot. (Non a caso lo fa *solo* se l'utente non ha disabilitato il filtering a valle di cui parlavo sopra.)
[...]
Tutto questo non ci aiuta nel dibattito sul decidere se un LLM sia o meno un opera derivata dei suoi training input.
Non mi è chiaro il passaggio logico. Sappiamo tutti che gli output degli LLM includono stralci delle opere utilizzati per programmarli. Sappiamo tutti che la frequenza di questi stralci dipende dalle proprietà statistiche del dataset costituito da tali opere. Sappiamo addirittura che Microsoft & friends post-processano gli output degli LLM per escludere tali testi con tecniche anti plagio. Come altro potremmo interpretare questi fatti se non riconoscendo che il LLM è un opera derivata (un eseguibili prodotto attraverso un processo di compressione con perdita) dei testi utilizzati per programmarlo? Perché adottare filtri anti-plagio se le opere non fossero codificate (pur in formato compresso con perdita) nelle matrici che costituiscono l'LLM e di conseguenza nell'output che questi producono? Direi al contrario che i fatti elencati *dimostrino* come le "AI generative" siano opere derivate delle opere utilizzate per programmarle. La necessità di filtri anti-plagio dimostra gli innumerevoli plagi avvenuti a monte, durante la realizzazione del "modello". O forse intendi che tutto questo non ci aiuta nel dibattito perché risponde alla questione al di la di ogni ragionevole dubbio? O ancora che non aiuta chi vuole che il dibattito continui per evitare (o rimandare) gli obblighi connessi alle licenze copyleft? O ancora che non aiuta chi vuole che il dibattito continui per evitare di rispettare la normativa vigente pagando agli autori delle opere il diritto di creare opere derivate? Giacomo
Quando un essere umano studia da un libro, più libri, apprende non solo il senso dei contenuti, e non solo è in grado di fare connessioni tra ciò che ha appreso dai singoli libri, ma il più delle volte può anche recitare interi passaggi di quei libri, sia essendone consapevole - quando voglia effettuare una citazione - sia a volte in modo involontario, semplicemente perché è ciò che gli viene naturale fare nel ricordare ciò che ha appreso. Dal punto di vista semantico, non vi è alcuna differenza sostanziale con ciò che fa un LLM, e onestamente trovo che non ci sia alcuna antropomorfizzazione nell'usare termini come "apprendere" per riferirsi ad un algoritmo, per due ordini di motivi: 1) Non solo gli umani apprendono, bensì tutti gli esseri viventi. 2) Esistono definizioni di "apprendimento" che sono basate puramente sui concetti derivati dalla teoria dell'informazione (o, equivalentemente, dalla termodinamica statistica) e non richiedono affatto che ad apprendere sia un essere vivente, men che meno senziente, men che meno umano. La domanda conseguente dunque è: un essere umano viola il copyright apprendendo dai testi da cui studia? La risposta è "no", ergo non vi è ragione alcuna di sostenere che qualunque altro soggetto che effettui un apprendimento stia violando il copyright, a meno di non voler espandere il concetto di copyright fino a coprire ambiti che fino ad ora gli erano preclusi. A tal proposito, questo è quel che ne pensa Creative Commons: «this method of using image-text combinations to train the AI model has an inherently transformative purpose from the original images and should support a finding of fair use. While these images were originally created for their aesthetic value, their purpose for the AI model is only as data. For the AI, these image-text pairs are only representations of how text and images relate. What the images are does not matter for the model — they are only data to teach the model about statistical relationships between elements of the images and not pieces of art.» «This is similar to how Google used digital copies of print books to create Google Books, a practice that was challenged in Author’s Guild v. Google (Google Books). In this case, the Second Circuit Court of Appeals found that Google’s act of digitizing and storing copies of thousands of print books to create a text searchable database was fair use. The court wrote that Google’s purpose was different from the purpose of the original authors because Google was not using the books for their content. Indeed, the content did not really matter to Google; rather the books were like pieces of data that were necessary to build Google’s book database.» « it is also similar to how search engine operator Arriba Soft used copies of images in its search engine, which was litigated in Kelly v. Arriba Soft. In this case, a photographer, Leslie Kelly, sued the operator of a search engine, Arriba Soft, for copying and displaying copies of her photographs as thumbnails to users. The court, however, disagreed that this constituted copyright infringement. Instead, the court held that this use served a different and transformative purpose from the original purpose because Arriba Soft only copied Kelly’s photographs to enable its search engine to function and not because of their aesthetic value.» https://creativecommons.org/2023/02/17/fair-use-training-generative-ai/ Fabio
Salve Fabio, On Mon, 9 Sep 2024 12:45:09 +0200 Fabio Alemagna wrote:
Quando un essere umano studia da un libro [...]
La domanda conseguente dunque è: un essere umano viola il copyright apprendendo dai testi da cui studia?
Anzitutto, un essere umano è soggetto di diritti, un software no. Dunque, in un ragionamento giuridico, paragonarlo ad un software è "not even wrong", oltre che alienante ed offensivo. In qualunque caso GPT-4 non ha appreso nulla dai testi usati per la sua programmazione. Questi testi includono migliaia di teoremi matematici, di manuali scolastici di matematica etc... che GPT-4 può produrre facilmente in output, ma che non comprende e non sa applicare: ``` We find that ChatGPT can be used most successfully [...] as a mathematical search engine and knowledge base interface. GPT-4 can additionally be used for undergraduate-level mathematics but fails on graduate-level difficulty. Contrary to many positive reports in the media about GPT-4 and ChatGPT's exam-solving abilities (a potential case of selection bias), their overall mathematical performance is well below the level of a graduate student. Hence, if your goal is to use ChatGPT to pass a graduate-level math exam, you would be better off copying from your average peer! ``` https://arxiv.org/abs/2301.13867 Funziona un po' meglio come motore di ricerca perché è un archivio compresso (anche) dei testi matematici compilati al suo interno, ma non ha una mente che possa comprendere quei testi e dunque non è in grado di applicare le informazioni che vi sono espresse.
1) Non solo gli umani apprendono, bensì tutti gli esseri viventi.
Cosa che un software non è.
2) Esistono definizioni di "apprendimento" [...]
Non ne dubito! Ridefinire termini di uso comune è fondamentale per generare il genere di profonda confusione che spinge qualcuno a credere di parlare con "intelligenze artificiali".
A tal proposito, questo è quel che ne pensa Creative Commons:
Indignor quandoque bonus dormitat Homerus! Nunquam non miror: https://creativecommons.org/support-cc/ Giacomo
Il giorno mar 10 set 2024 alle ore 01:14 Giacomo Tesio <giacomo@tesio.it> ha scritto:
Salve Fabio,
On Mon, 9 Sep 2024 12:45:09 +0200 Fabio Alemagna wrote:
Quando un essere umano studia da un libro [...]
La domanda conseguente dunque è: un essere umano viola il copyright apprendendo dai testi da cui studia?
Anzitutto, un essere umano è soggetto di diritti, un software no.
Gli umani che scrivono il software hanno diritti, e doveri. Del resto, suppongo tu non ritenga che sia il software responsabile dell'eventuale violazione del copyright, ma gli umani che lo hanno scritto, dico bene?
Dunque, in un ragionamento giuridico, paragonarlo ad un software è "not even wrong", oltre che alienante ed offensivo.
"alienante e offensivo" sono tue valutazioni strettamente personali che fanno leva su emozioni e esulano l'ambito del discorso. Qui parliamo in punta di diritto, e diritto, non di cosa ti offenda. Restando sulla questione del copyright, la domanda resta: se l'umano può liberamente citare passaggi di libri, consapevolmente o meno, senza essere accusato di aver violato il copyright *durante l'apprendimento*, per quale ragione se a farlo è un algoritmo le cose cambiano? Puoi motivarlo tecnicamente, in punta di diritto?
In qualunque caso GPT-4 non ha appreso nulla dai testi usati per la sua programmazione. [...]
"nulla" significa zero, assenza completa.
Contrary to many positive reports in the media about GPT-4 and ChatGPT's exam-solving abilities (a potential case of selection bias), their overall mathematical performance is well below the level of a graduate student.
Lì c'è scritto "below the level", ma non c'è scritto "zero". Non puoi affermare che non ha appreso niente, per la semplice ragione che qualcosa la sa fare, anche se non abbastanza. Io trovo che sia scientificamente interessante e persino strabiliante che un algoritmo che non è stato esplicitamente istruito per saper far di conto, riesca a far di conto entro una certa misura, semplicemente per essere stato allenato su tomi che spiegano come si fa di conto. Mi sembra, del resto, esattamente quello che succede quando qualcuno vuole insegnare a te a saper far di conto: ti spiega come si fa, un certo numero di volte, e così tu, poco a poco, impari, non per questo evitando errori tutte le volte, a meno che tu non ti trovi all'estremità destra della gaussiana. Ti dirò di più: una buona porzione di esseri umani in esistenza sa far di conto meno di quanto riesca a ChatGPT, nonostante gli sia stato spiegato come fare, più e più volte.
1) Non solo gli umani apprendono, bensì tutti gli esseri viventi.
Cosa che un software non è.
È irrilevante. Si sta parlando del termine "antropomorfizzazione", che si applica esclusivamente agli umani. È quindi semanticamente errato parlare di "antropomorfizzazione" se si vuole criticare l'uso del termine "apprendere" quando riferito agli algoritmi.
2) Esistono definizioni di "apprendimento" [...]
Non ne dubito!
Ridefinire termini di uso comune è fondamentale per generare il genere di profonda confusione che spinge qualcuno a credere di parlare con "intelligenze artificiali".
Non c'è un complotto atto a voler confondere la gente e spingerla a credere di parlare con intelligenze artificiali, è la semplice e naturale ricerca di astrazione, il ricavare generiche, eleganti e semplici regole che siano minimamente sufficienti a descrivere la realtà. Se posso descrivere "apprendimento" senza far riferimento a concetti indefinibili come "coscienza" e "umanità", allora vuol dire che "coscienza" e "umanità" non sono necessari per definire "apprendimento". Rasoio di Occam.
A tal proposito, questo è quel che ne pensa Creative Commons:
Indignor quandoque bonus dormitat Homerus! Nunquam non miror: https://creativecommons.org/support-cc/
Sorry, ma devi fare di più che provare a gettare discredito sull'interlocutore, per smentirne le tesi, esposte tecnicamente e in punta di diritto. Fabio
Caro Fabio, ho riflettuto a lungo se risponderti, perché non mi piace perdere tempo e non mi sembri interessato a comprendere come funzionano i software di cui parliamo. Non so perché, ma mi sembra evidente. Tuttavia, rispondendo a Duccio, mi sono reso conto che subite la stessa confusione ("anfibolia"? :-D) e la lettura del paper potrebbe svelare ad entrambi la dinamica dell' "imitation game" che OpenAI & friends stanno "giocando". On Tue, 10 Sep 2024 12:07:53 Fabio Alemagna <falemagn@gmail.com> wrote:
Io trovo che sia scientificamente interessante e persino strabiliante che un algoritmo che non è stato esplicitamente istruito per saper far di conto, riesca a far di conto entro una certa misura, semplicemente per essere stato allenato su tomi che spiegano come si fa di conto.
Commentavi questo articolo: https://arxiv.org/pdf/2301.13867 Leggiamo come è composto il dataset con cui hanno testato le "competenze matematiche" dei LLM di OpenAI (pagina 4): - books that are widely used in universities to teach upper undergraduate or first-year graduate courses in a degree in mathematics - math.stackexchange.com, a collection of books, and the MATH dataset - the book Problem-Solving Strategies, that is often used to prepare for mathematical competitions - il dataset di https://arxiv.org/abs/1912.01412 che contiene decine di esercizi... e le soluzioni. Leggi con calma e rifletti: non noti niente? Questi ricercatori NON hanno sottoposto a ChatGPT e GPT-4 problemi inediti, ma problemi tratti da eserciziari disponibili in rete. Ora, se immagini una qualche "intelligenza artificiale" alle prese con tutti questi problemi, è ragionevole trovare i risultati sintetizzati nell'abstract che avevo citato "strabilianti" [1]. Ma se hai chiaro il processo di compilazione / compressione dei testi sorgente che produce il LLM, trovi quei risultati piuttosto ovvi: il LLM ha prodotto in output le soluzioni codificate nelle matrici eseguibili. Quale delle due spiegazioni passa il rasoio di Occam? 1. ChatGPT "è intelligente ma non si impegna" 2. ChatGPT è un archivio compresso eseguibile che contiene i problemi che gli sono stati sottposti ed ha "autocompletato" i problemi, con le soluzioni che li seguivano? Che tu, Duccio e molti altri che non comprendono come funzionano questi software programmati staticamente, vi facciate ingannare da questo "imitation game" è purtroppo prevedibile e previsto. L'enorme quantità di testi compressi dentro GPT-4 (alcuni dei quali mai pubblicati, come quelli prodotti dai giornalisti che fanno i "chatbot helper" per arrotondare) rende estremamente improbabile che un estratto venga servito a qualcuno che lo possa riconoscere. In questo caso però, questo è proprio ciò che è successo! E che 8 ricercatori universitari non si siano accorti di aver dimostrato il plagio [2] di decine di manuali sotto copyright [3] rende _evidente_ quanti DANNI la favola della "intelligenza artificiale", del "machine learning", delle "allucinazioni" e stronzate varie stia facendo alla ricerca informatica e al progresso dell'umanità. E nota che non si tratta di persone impreparate. Ma le parole che usiamo per descrivere la realtà determinano il nostro modo di intepretarla. Non fatevi ingannare: l'intelligenza artificiale non esiste. Le macchine non imparano, non hanno allucinazioni e non funzionano assolutamente come un essere umano. Urge cambiare linguaggio. Giacomo [1] non potevi scegliere un termine più appropriato! :-D https://www.etimo.it/?term=strabiliare [2] spacciando ChatGPT come una "intelligenza artificiale _generativa_" si/gli intesta la paternità delle soluzioni, sottraendola agli autori https://it.wikipedia.org/wiki/Plagio_(diritto_d'autore) [3] per altro, in un modo che esclude l'applicabilità del fair use negli USA, come ci ha spiegato benissimo Giancarlo qui https://server-nexa.polito.it/pipermail/nexa/2024-September/053236.html perché ChatGPT diventa un surrogato gratuito di quegli stessi testi, riducendone il valore di mercato
Salto a pie' pari il solito pippone su quanto tu sappia le cose e quanto gli altri non le capiscano o vogliano capire. Il giorno gio 12 set 2024 alle ore 03:40 Giacomo Tesio <giacomo@tesio.it> ha scritto:
Io trovo che sia scientificamente interessante e persino
strabiliante che un algoritmo che non è stato esplicitamente
istruito per saper far di conto, riesca a far di conto entro una certa misura, semplicemente per essere stato allenato su tomi che spiegano come si fa di conto.
Commentavi questo articolo: https://arxiv.org/pdf/2301.13867
No, commentavo questa tua affermazione:
In qualunque caso GPT-4 non ha appreso nulla dai testi usati per la sua programmazione.
Che tu ora cerchi di spostare il discorso altrove non sorprende, è quello che fai abitualmente.
Questi ricercatori NON hanno sottoposto a ChatGPT e GPT-4 problemi inediti,
Si che lo hanno fatto, è letteralmente scritto nell'abstract. «We investigate the mathematical capabilities [...] by testing them on publicly available datasets, AS WELL AS HAND-CRAFTED ONES.» Fabio
Fabio, non mi piace infierire ma... li leggi gli articoli che proponi? O ti basta che l'abstract possa essere (mal)interpretato per confermare le tue opinioni? On Fri, 20 Sep 2024 15:35:47 +0200 Fabio Alemagna wrote:
Questi ricercatori NON hanno sottoposto a ChatGPT e GPT-4 problemi inediti,
Si che lo hanno fatto, è letteralmente scritto nell'abstract.
«We investigate the mathematical capabilities [...] by testing them on publicly available datasets, AS WELL AS HAND-CRAFTED ONES.»
Per favore, leggi con più attenzione e meno pregiudizi. I ricercatori NON hanno proposto alcun problema inedito a ChatGPT e GPT-4 e i prompt "hand-crafted" appartengono solo a tre categorie: - Definition Retrieval - Named Theorem Proof Completion - Reverse Definition Retrival Si tratta del subdataset Search-Engine-Aspects in cui verificano (indovina un po'?) proprio il fatto che LLM come un archivio compresso da cui estrarre contenuti attinenti. Infatti, TUTTI i problemi forniti in input ChatGPT e GPT4 sono stati tratti da testi disponibili online da anni. Controlla tu stesso: https://github.com/friederrr/GHOSTS Come spiegato nell'appendice B2 dell'articolo, ogni record JSON del dataset contiene un attributo `ref` il cui valore indica "where the prompt was originally taken from" e che può essere vuoto "if the question was formulated by the authors and no authoritative source was plausible". I soli prompt inediti, con `ref: ""`, sono quelli di ricerca. Dunque, ripeto: questi ricercatori NON hanno sottoposto a ChatGPT e GPT-4 alcun problema inedito, ma solo problemi tratti da eserciziari disponibili in rete. Testi che sono stati usati per la sua programmazione statistica. Mi dispiace deluderti, ma GPT-4 non ha davvero appreso nulla dai testi usati per la sua programmazione. Ne produce stralci variamente corrotti in output perché li contiene in forma compressa (lossy). Niente di più e niente di meno. Non sono gli LLM ad avere le allucinazioni, ma coloro che gli attribuiscono una qualche forma di intelligenza. Giacomo
On 08/09/24 15:48, Giacomo Tesio wrote:
L'eseguibile che i fautori delle "AI generative" chiamano impropriamente "modello" subisce una compressione concettualmente analoga attraverso il processo di compilazione dei dataset sorgenti.
Ti segnalo uno studio sulla possibilità di mantenere la pubblicità delle licenze Share Alike/Copyleft, presente nel materiale usato come training data,in "developing AI models, deploying AI systems, and using AI output": https://openfuture.eu/wp-content/uploads/2024/06/Share-Alike-and-ML-Report-F... L'articolo è scritto da autori assai più simpatetici ai valori della cultura libera di quelli che rispondono ai non disinteressati committenti (https://urheber.info/about-us) dello studio elogiato da Voss. Cito da pagina 15: ...this broad approach in the EU raises the question of whether electronic changes to a computer file containing a work that result in adaptation or conversion of the file to a desirable format could similarly involve an act of reproduction, which would be different and separate from the mere act of copying data. While CJEU jurisprudence points in this direction, the Canadian Supreme Court has reached a different conclusion for such acts. Hence, the issue has not been settled yet. If the issue is brought before the CJEU, the Court may refrain from extending the Canvas approach to file conversions for TDM purposes. Whether copyright-relevant acts of reproduction take place during stage five is not as straightforward to ascertain. Although the applicable copyright principles are easy to explain, the model exists as a separate artefact: normally operating independently from its training pipeline.41 It does not seem to retrieve the contents of the training dataset when generating outputs during the exploitation phase. Hence, it can be argued that the artefact exists and operates independently from the copyright-protected data that have been used as training resources in the preceding steps one to four – data that could include ‘licensed material’ triggering CLSA obligations. Following this line of argument, ***the artefact can be described as a giant collection of data points and vectors that have been derived from the training material***. It can also be assumed that the artefact is unlikely to contain copyright-protected traces of works that were used for training.42 The adoption of this perspective leads to the conclusion that the creation of the trained model at stage five breaks the link with CLSA licensing obligations that may rest on training resources. If the artefact as such does not contain copyright-protected traces of CLSA works used for training purposes, copyright law does not offer tools for enforcing CLSA conditions: relevant acts of reproduction are sought in vain. Si tratta di una dottrina diffusa (come mostrano i riferimenti in nota, che meritano di essere letti). Se vai avanti nella lettura vedrai che gli autori riconoscono eccezioni solo quando l'artefact (così chiamano il modello) contiene in effetti frammenti letterali. Collezionare non testi e immagine copiate, ma "data points and vectors that have been derived from training materials" viola il diritto d'autore? Certo, se uso l'analogia delle traduzioni e applico il diritto d'autore di Kant (che nega alla traduzione il carattere di opera derivata), una traduzione, anche a calco, è un'espressione diversa che va attribuito interamente al traduttore, sebbene "derivi" da un'opera altrui. Quando traduco, anche meccanicamente, un testo, magari scrivendo la mia versione in una qualche forma compressa, violo il diritto d'autore - almeno se applico in modo coerente, come secondo me non fa il copyright vigente, la distinzione fra idea ed espressione? Ho una risposta, ma ci devo pensare. Per il momento preferisco un approccio pragmatico (e kantiano) che riguarda solo gli atti di comunicazione al pubblico: uno studente che si fa fare la tesi dai SALAMI viola il diritto d'autore (oltre che le norme, dai regolamenti di ateneo in su, che gli richiederebbero di produrre farina del suo sacco) se il testo che ha fatto proprio contiene frammenti letterali non correttamente attribuiti? E se viene scoperto e sanzionato, può denunciare per truffa chi ha gli offerto i SALAMI come strumenti di lavoro creativo? Buonanotte, NCP
uno studente che si fa fare la tesi dai SALAMI viola il diritto d'autore (oltre che le norme, dai regolamenti di ateneo in su, che gli richiederebbero di produrre farina del suo sacco) se il testo che ha fatto proprio contiene frammenti letterali non correttamente attribuiti? E se viene scoperto e sanzionato, può denunciare per truffa chi ha gli offerto i SALAMI come
strumenti di lavoro creativo? per le ragioni che si sono qui illustrate, è ben difficile che un salame rigurgiti (oddio che immagine) un frammento verbatim così lungo da violare il copyright. dunque se lo si vuole denunciare per violazione del copyright lo si deve fare 'a prescindere' come direbbe Totò. è quello che ha fatto NYT con OpenAI, will see, ma vogliamo scommettere su come andrà a finire? quanto allo studente, è altresì difficile che si riesca a dimostrare che la sua tesi è una salamata, a meno che non sia così stupido da lasciare intatto il testo generato ma tutti hanno imparato a copiare le versioni al liceo, no? almeno quello .. verosimilmente, lo studente userà il salame, volta per volta, su specifici argomenti della sua tesi sintesi, sinossi, indicazioni bibliografiche, ecc se è uno studente scrupoloso, andrà a verificare, confronterà i risultati con la bibliografia del corso, farà altre ricerche, ci metterà del suo, ecc. si potrà comunque valutare la qualità del lavoro, e in seduta, se ci sono magagne concettuali, verranno fuori non so tu, ma io in genere riesco a capire chi ha fatto un buon lavoro di ricerca, salame o non salame cheers, G. On Sun, 8 Sept 2024 at 22:59, Maria Chiara Pievatolo < mariachiara.pievatolo@unipi.it> wrote:
On 08/09/24 15:48, Giacomo Tesio wrote:
L'eseguibile che i fautori delle "AI generative" chiamano impropriamente "modello" subisce una compressione concettualmente analoga attraverso il processo di compilazione dei dataset sorgenti.
Ti segnalo uno studio sulla possibilità di mantenere la pubblicità delle licenze Share Alike/Copyleft, presente nel materiale usato come training data,in "developing AI models, deploying AI systems, and using AI output":
https://openfuture.eu/wp-content/uploads/2024/06/Share-Alike-and-ML-Report-F...
L'articolo è scritto da autori assai più simpatetici ai valori della cultura libera di quelli che rispondono ai non disinteressati committenti (https://urheber.info/about-us) dello studio elogiato da Voss. Cito da pagina 15:
...this broad approach in the EU raises the question of whether electronic changes to a computer file containing a work that result in adaptation or conversion of the file to a desirable format could similarly involve an act of reproduction, which would be different and separate from the mere act of copying data. While CJEU jurisprudence points in this direction, the Canadian Supreme Court has reached a different conclusion for such acts. Hence, the issue has not been settled yet. If the issue is brought before the CJEU, the Court may refrain from extending the Canvas approach to file conversions for TDM purposes.
Whether copyright-relevant acts of reproduction take place during stage five is not as straightforward to ascertain. Although the applicable copyright principles are easy to explain, the model exists as a separate artefact: normally operating independently from its training pipeline.41 It does not seem to retrieve the contents of the training dataset when generating outputs during the exploitation phase. Hence, it can be argued that the artefact exists and operates independently from the copyright-protected data that have been used as training resources in the preceding steps one to four – data that could include ‘licensed material’ triggering CLSA obligations. Following this line of argument, ***the artefact can be described as a giant collection of data points and vectors that have been derived from the training material***. It can also be assumed that the artefact is unlikely to contain copyright-protected traces of works that were used for training.42 The adoption of this perspective leads to the conclusion that the creation of the trained model at stage five breaks the link with CLSA licensing obligations that may rest on training resources. If the artefact as such does not contain copyright-protected traces of CLSA works used for training purposes, copyright law does not offer tools for enforcing CLSA conditions: relevant acts of reproduction are sought in vain.
Si tratta di una dottrina diffusa (come mostrano i riferimenti in nota, che meritano di essere letti). Se vai avanti nella lettura vedrai che gli autori riconoscono eccezioni solo quando l'artefact (così chiamano il modello) contiene in effetti frammenti letterali.
Collezionare non testi e immagine copiate, ma "data points and vectors that have been derived from training materials" viola il diritto d'autore?
Certo, se uso l'analogia delle traduzioni e applico il diritto d'autore di Kant (che nega alla traduzione il carattere di opera derivata), una traduzione, anche a calco, è un'espressione diversa che va attribuito interamente al traduttore, sebbene "derivi" da un'opera altrui. Quando traduco, anche meccanicamente, un testo, magari scrivendo la mia versione in una qualche forma compressa, violo il diritto d'autore - almeno se applico in modo coerente, come secondo me non fa il copyright vigente, la distinzione fra idea ed espressione?
Ho una risposta, ma ci devo pensare.
Per il momento preferisco un approccio pragmatico (e kantiano) che riguarda solo gli atti di comunicazione al pubblico: uno studente che si fa fare la tesi dai SALAMI viola il diritto d'autore (oltre che le norme, dai regolamenti di ateneo in su, che gli richiederebbero di produrre farina del suo sacco) se il testo che ha fatto proprio contiene frammenti letterali non correttamente attribuiti? E se viene scoperto e sanzionato, può denunciare per truffa chi ha gli offerto i SALAMI come strumenti di lavoro creativo?
Buonanotte, NCP
participants (13)
-
380° -
Antonio -
Daniela Tafani -
Fabio Alemagna -
Franco Marra -
GC F -
Giacomo Tesio -
Guido Vetere -
Maria Chiara Pievatolo -
maurizio lana -
Stefano Maffulli -
Stefano Quintarelli -
Stefano Zacchiroli