Re: [nexa] AI Training is Copyright Infringement

Sept. 8, 2024

      Si, ma l'uso del materiale per creare il software che poi genera a sua
volta è a fini trasformativi! Il materiale non è usato per il suo valore
espressivo, quindi la creazione del software/modello non ha effetti sul
valore di mercato dell'opera originale utilizzata - non la sostituisce. Si
potrebbe discutere se quegli effetti sostitutivi ci siano nel contesto
della produzione degli output di quel modello, ma è altra questione - e io
direi di no in base alla mia interpretazione di nozioni quali ad esempio
"effect of the use on the potential market for the work" nella clausola
fair use o nozioni come "conflicting with normal exploitation of the work"
e "prejudice legitimate interests" nel three-step-test di Berna. Questa è
la mia argomentazione. Ve ne sono altre plausibili. Legga *Google Books* e
quel che viene prima.

Lei è estenuante. Non è necessario rispondere a tutto, ripetutamente,
discutendo affermazioni che lei assume appartengano al suo interlocutore
senza che questo sia il caso, sviluppando argomentazioni che sono per la
maggior parte irrilevanti rispetto a quel che il suo interlocutore dice e
costantemente lasciar intendere che il suo interlocutore non comprende la
tecnologia che lei invece ben comprende, anche se poi quella comprensione
profonda è irrilevante ai fini della discussione.

Il mio riferimento precedente alla τέχνη era un'allusione a un dibattito
millenario. Non si può ridurre tutto alla τέχνη; bisognerebbe saper
astrarre...

Giancarlo

On Sun, Sep 8, 2024 at 6:05 PM Giacomo Tesio <giacomo@tesio.it> wrote:
...
In realtà Giancarlo ho ben chiaro il dibattito in corso, gli interessi in
gioco,
le "strane alleanze" e i fiumi di soldi che stanno inquinando questo
dibattito.
E sono rassegnato al divorzio dalla realtà che tutto ciò comporta.
Tuttavia, da informatico più interessato allo stato di diritto che ai
soldi in questione
non posso che descrivere i software cui il dibattito fa riferimento.
Il 8 Settembre 2024 15:34:15 UTC, GC F ha scritto:
...
Quel che conta è che...
Bene, finalmente concordiamo che ogni riferimento al data mining è
infondato e fuorviante.
...
si utilizzino espressioni proteggibili per
creare/addestrare uno strumento
Ecco quando su parla di "AI training" si parla del processo di
programmazione statistica
attraverso cui si ottiene un software.
Questo software è un opera derivata dai dataset sorgenti (e da pochi altri
dati decisi
dai "data scientist").
Ancor prima che questo software venga eseguito e produca output che
riproduca in
tutto o in parte un'opera usata per programmarlo, la sua realizzazione
deve rispettare
i diritti degli autori di tutte le opere che costituiscono il dataset
sorgente.
Questi autori possono aver ceduto il diritto di creare quel software come
opera derivata
dalle proprie opere (come fanno i giornalisti o i romanzieri che lavorano
come "chatbot helper")
e in tal caso siamo tutti contenti.
Tuttavia, per creare un'opera derivata dalle loro (come il software in
questione) tale
cessione è necessaria nei termini del diritto d'autore.
...
Anche se il processo di training AI si basa su
riproduzioni meccaniche di opere nella loro interezza, questo non implica
di per sé la violazione del diritto d'autore, se tale riproduzione è
votata
alla creazione di uno strumento che poi utilizzi quelle riproduzioni
meccaniche a fini trasformativi.
Temo che questo passaggio evidenzi un malinteso di fondo: non stiamo
discutendo della
legittimità di creare un dataset contenente copie di testi coperti dal
diritto d'autore, ne della
loro copia in memoria durante il processo impropriamente chiamato
"training".
Stiamo parlando del processo di creazione di un'opera derivata (il
"modello").
...
certe sue affermazioni sono forse "ingenue" [...] (eg "Anche se poi le
aziende
forniscono accesso a quelle opere derivate "a pezzetti", le opere sono
state integralmente incluse nel processo di programmazione statistica (il
"training" della "AI")").
Beh, più che ingenuo, direi che distinguere fra software e output del
software è ovvio.
Mi pare invece incredibile che li si possa confondere e mi chiedo come sia
possibile
nel 2024 una confusione tanto evidente.
In questo però potrei essere "ingenuo", in effetti.
...
La questione dell'applicazione della "dicotomia
idea/espressione" al TDM è proprio relativa al fatto che per estrarre
dati,
non proteggibili, si debbano effettuare copie meccaniche integrali
dell'espressione proteggibile in cui quei dati sono contenuti.
Sennonché non stiamo parlando di dette copie, ma del software che ne viene
compilato.
Sia chiaro: se il processo di compilazione / compressione lossy cancella
il diritto
degli autori a me va benissimo!
L'importante è che valga anche per i binari x86_64 di Microsoft, per gli
mp4 ottenuti dai film Disney,
etc...
Giacomo