Re: [nexa] AI Training is Copyright Infringement

Sept. 9, 2024

      ...
uno studente che si
fa fare la tesi dai SALAMI viola il diritto d'autore (oltre che le
norme, dai regolamenti di ateneo in su, che gli richiederebbero di
produrre farina del suo sacco) se il testo che ha fatto proprio contiene
frammenti letterali non correttamente attribuiti? E se viene scoperto e
sanzionato, può denunciare per truffa chi ha gli offerto i SALAMI come
strumenti di lavoro creativo?

per le ragioni che si sono qui illustrate, è ben difficile che un salame
rigurgiti (oddio che immagine) un frammento verbatim così lungo da violare
il copyright.
dunque se lo si vuole denunciare per violazione del copyright lo si deve
fare 'a prescindere' come direbbe Totò.
è quello che ha fatto NYT con OpenAI, will see, ma vogliamo scommettere su
come andrà a finire?
quanto allo studente, è altresì difficile che si riesca a dimostrare che la
sua tesi è una salamata, a meno che non sia così stupido da lasciare
intatto il testo generato
ma tutti hanno imparato a copiare le versioni al liceo, no? almeno quello ..
verosimilmente, lo studente userà il salame, volta per volta, su specifici
argomenti della sua tesi
sintesi, sinossi, indicazioni bibliografiche, ecc
se è uno studente scrupoloso, andrà a verificare, confronterà i risultati
con la bibliografia del corso, farà altre ricerche, ci metterà del suo, ecc.
si potrà comunque valutare la qualità del lavoro, e in seduta, se ci sono
magagne concettuali, verranno fuori
non so tu, ma io in genere riesco a capire chi ha fatto un buon lavoro di
ricerca, salame o non salame

cheers,
G.

On Sun, 8 Sept 2024 at 22:59, Maria Chiara Pievatolo <
mariachiara.pievatolo@unipi.it> wrote:
...
On 08/09/24 15:48, Giacomo Tesio wrote:
...
L'eseguibile che i fautori delle "AI generative" chiamano impropriamente
"modello" subisce una compressione concettualmente analoga attraverso
il processo di compilazione dei dataset sorgenti.
Ti segnalo uno studio sulla possibilità di mantenere la pubblicità delle
licenze Share Alike/Copyleft, presente nel materiale usato come training
data,in "developing AI models, deploying AI systems, and using AI output":
https://openfuture.eu/wp-content/uploads/2024/06/Share-Alike-and-ML-Report-F...
L'articolo è scritto da autori assai più simpatetici ai valori della
cultura libera di quelli che rispondono ai non disinteressati
committenti (https://urheber.info/about-us) dello studio elogiato da
Voss. Cito da pagina 15:
...this broad approach in the EU raises the question of whether
electronic changes to a computer file containing a work that result in
adaptation or conversion of the file to a desirable format could
similarly involve an act of reproduction, which would be different and
separate from the mere act of copying data. While CJEU jurisprudence
points in this direction, the Canadian Supreme Court has reached a
different conclusion for such acts. Hence, the issue has not been
settled yet. If the issue is brought before the CJEU, the Court may
refrain from extending the Canvas approach to file conversions for TDM
purposes.
Whether copyright-relevant acts of reproduction take place during stage
five is not as straightforward to ascertain. Although the applicable
copyright principles are easy to explain, the model exists as a separate
artefact: normally operating independently from its training pipeline.41
It does not seem to retrieve the contents of the training dataset when
generating outputs during the exploitation phase. Hence, it can be
argued that the artefact exists and operates independently from the
copyright-protected data that have been used as training resources in
the preceding steps one to four – data that could include ‘licensed
material’ triggering CLSA obligations. Following this line of argument,
***the artefact can be described as a giant collection of data points
and vectors that have been derived from the training material***. It can
also be assumed that the artefact is unlikely to contain
copyright-protected traces of works that were used for training.42 The
adoption of this perspective leads to the conclusion that the creation
of the trained model at stage five breaks the link with CLSA licensing
obligations that may rest on training resources. If the artefact as such
does not contain copyright-protected traces of CLSA works used for
training purposes, copyright law does not offer tools for enforcing CLSA
conditions: relevant acts of reproduction are sought in vain.
Si tratta di una dottrina diffusa (come mostrano i riferimenti in nota,
che meritano di essere letti). Se vai avanti nella lettura vedrai che
gli autori riconoscono eccezioni solo quando l'artefact (così chiamano
il modello) contiene in effetti frammenti letterali.
Collezionare non testi e immagine copiate, ma "data points and vectors
that have been derived from training materials" viola il diritto d'autore?
Certo, se uso l'analogia delle traduzioni e applico il diritto d'autore
di Kant (che nega alla traduzione il carattere di opera derivata), una
traduzione, anche a calco, è un'espressione  diversa che va attribuito
interamente al traduttore, sebbene "derivi" da un'opera altrui. Quando
traduco, anche meccanicamente, un testo,  magari scrivendo la mia
versione in una qualche forma compressa, violo il diritto d'autore -
almeno se applico in modo coerente, come secondo me non fa il copyright
vigente, la distinzione fra idea ed espressione?
Ho una risposta, ma ci devo pensare.
Per il momento preferisco un approccio pragmatico (e kantiano) che
riguarda solo gli atti di comunicazione al pubblico: uno studente che si
fa fare la tesi dai SALAMI viola il diritto d'autore (oltre che le
norme, dai regolamenti di ateneo in su, che gli richiederebbero di
produrre farina del suo sacco) se il testo che ha fatto proprio contiene
frammenti letterali non correttamente attribuiti? E se viene scoperto e
sanzionato, può denunciare per truffa chi ha gli offerto i SALAMI come
strumenti di lavoro creativo?
Buonanotte,
NCP

Re: [nexa] AI Training is Copyright Infringement

Guido Vetere