uno studente che si fa fare la tesi dai SALAMI viola il diritto d'autore (oltre che le norme, dai regolamenti di ateneo in su, che gli richiederebbero di produrre farina del suo sacco) se il testo che ha fatto proprio contiene frammenti letterali non correttamente attribuiti? E se viene scoperto e sanzionato, può denunciare per truffa chi ha gli offerto i SALAMI come
strumenti di lavoro creativo? per le ragioni che si sono qui illustrate, è ben difficile che un salame rigurgiti (oddio che immagine) un frammento verbatim così lungo da violare il copyright. dunque se lo si vuole denunciare per violazione del copyright lo si deve fare 'a prescindere' come direbbe Totò. è quello che ha fatto NYT con OpenAI, will see, ma vogliamo scommettere su come andrà a finire? quanto allo studente, è altresì difficile che si riesca a dimostrare che la sua tesi è una salamata, a meno che non sia così stupido da lasciare intatto il testo generato ma tutti hanno imparato a copiare le versioni al liceo, no? almeno quello .. verosimilmente, lo studente userà il salame, volta per volta, su specifici argomenti della sua tesi sintesi, sinossi, indicazioni bibliografiche, ecc se è uno studente scrupoloso, andrà a verificare, confronterà i risultati con la bibliografia del corso, farà altre ricerche, ci metterà del suo, ecc. si potrà comunque valutare la qualità del lavoro, e in seduta, se ci sono magagne concettuali, verranno fuori non so tu, ma io in genere riesco a capire chi ha fatto un buon lavoro di ricerca, salame o non salame cheers, G. On Sun, 8 Sept 2024 at 22:59, Maria Chiara Pievatolo < mariachiara.pievatolo@unipi.it> wrote:
On 08/09/24 15:48, Giacomo Tesio wrote:
L'eseguibile che i fautori delle "AI generative" chiamano impropriamente "modello" subisce una compressione concettualmente analoga attraverso il processo di compilazione dei dataset sorgenti.
Ti segnalo uno studio sulla possibilità di mantenere la pubblicità delle licenze Share Alike/Copyleft, presente nel materiale usato come training data,in "developing AI models, deploying AI systems, and using AI output":
https://openfuture.eu/wp-content/uploads/2024/06/Share-Alike-and-ML-Report-F...
L'articolo è scritto da autori assai più simpatetici ai valori della cultura libera di quelli che rispondono ai non disinteressati committenti (https://urheber.info/about-us) dello studio elogiato da Voss. Cito da pagina 15:
...this broad approach in the EU raises the question of whether electronic changes to a computer file containing a work that result in adaptation or conversion of the file to a desirable format could similarly involve an act of reproduction, which would be different and separate from the mere act of copying data. While CJEU jurisprudence points in this direction, the Canadian Supreme Court has reached a different conclusion for such acts. Hence, the issue has not been settled yet. If the issue is brought before the CJEU, the Court may refrain from extending the Canvas approach to file conversions for TDM purposes.
Whether copyright-relevant acts of reproduction take place during stage five is not as straightforward to ascertain. Although the applicable copyright principles are easy to explain, the model exists as a separate artefact: normally operating independently from its training pipeline.41 It does not seem to retrieve the contents of the training dataset when generating outputs during the exploitation phase. Hence, it can be argued that the artefact exists and operates independently from the copyright-protected data that have been used as training resources in the preceding steps one to four – data that could include ‘licensed material’ triggering CLSA obligations. Following this line of argument, ***the artefact can be described as a giant collection of data points and vectors that have been derived from the training material***. It can also be assumed that the artefact is unlikely to contain copyright-protected traces of works that were used for training.42 The adoption of this perspective leads to the conclusion that the creation of the trained model at stage five breaks the link with CLSA licensing obligations that may rest on training resources. If the artefact as such does not contain copyright-protected traces of CLSA works used for training purposes, copyright law does not offer tools for enforcing CLSA conditions: relevant acts of reproduction are sought in vain.
Si tratta di una dottrina diffusa (come mostrano i riferimenti in nota, che meritano di essere letti). Se vai avanti nella lettura vedrai che gli autori riconoscono eccezioni solo quando l'artefact (così chiamano il modello) contiene in effetti frammenti letterali.
Collezionare non testi e immagine copiate, ma "data points and vectors that have been derived from training materials" viola il diritto d'autore?
Certo, se uso l'analogia delle traduzioni e applico il diritto d'autore di Kant (che nega alla traduzione il carattere di opera derivata), una traduzione, anche a calco, è un'espressione diversa che va attribuito interamente al traduttore, sebbene "derivi" da un'opera altrui. Quando traduco, anche meccanicamente, un testo, magari scrivendo la mia versione in una qualche forma compressa, violo il diritto d'autore - almeno se applico in modo coerente, come secondo me non fa il copyright vigente, la distinzione fra idea ed espressione?
Ho una risposta, ma ci devo pensare.
Per il momento preferisco un approccio pragmatico (e kantiano) che riguarda solo gli atti di comunicazione al pubblico: uno studente che si fa fare la tesi dai SALAMI viola il diritto d'autore (oltre che le norme, dai regolamenti di ateneo in su, che gli richiederebbero di produrre farina del suo sacco) se il testo che ha fatto proprio contiene frammenti letterali non correttamente attribuiti? E se viene scoperto e sanzionato, può denunciare per truffa chi ha gli offerto i SALAMI come strumenti di lavoro creativo?
Buonanotte, NCP