Un ultimo appunto, ad nauseam mi scuso, ma forse c'è una premessa errata in tutta questa diatriba: l'argomentazione che il "software programmato statisticamente impropriamente detto modello" è un'opera derivata dai testi protetti usati per realizzarlo è ovvia, giuridicamente (ogni fair use è potenzialmente un'opera derivata - altrimenti la questione della sua legittimità non si porrebbe neppure), ma questo non implica che vi sia violazione dei diritti autoriali se (1) l'utilizzazione dei testi protetti è trasformativa, anche se a fini commerciali (2) non ci sono effetti rilevanti sul mercato potenziale dell'opera protetta e (3) l'utilizzo ha un valore pubblico rilevante (fattore creato giurisprudenzialmente). Ci sono altri due fattori, la natura dell'opera protetta e la quantità e sostanzialità della porzione utilizzata, ma secondo giurisprudenza sono irrilevanti se l'uso è trasformativo. Nel valutare i fattori la giurisprudenza utilizza un approccio equity-base, ponderando il peso di ognuno per raggiungere una decisione finale e olistica sulla legittimità o meno dell'uso. Con tutti i caveat del caso, e le molteplici opinioni divergenti che possono sorgere in giurisprudenza e dottrina, in base alla casistica da Baker v Selden fino a Google Books, utilizzare innumerevoli contenuti protetti per creare un software/modello con le funzionalità di un LLM è un uso trasformativo che non ha un effetto sostitutivo sul mercato delle singole opere utilizzate. In questo contesto aggiungo che, a mio parere, (1) argomentare che c'è un mercato potenziale delle licenze per sviluppare il software è argomentazione circolare, poichè se l'uso è legittimo quel mercato non è potenziale; (2) sostenere che gli output del software generativo possono avere effetti sostitutivi sul mercato delle opere protette utilizzate è argomento ovviamente fallace perché il mercato di riferimento non può essere quello della creatività in generale, ma quello della singola opera utilizzata, altrimenti ogni uso anche trasformativo avrebbe sempre effetti sul mercato dell'opera. Se l'output generato è identico o sostanzialmente simile (nozioni tecniche in DA), allora avremo una violazione per quel che riguarda quello specifico output, che non ha utilizzato le opere protette in maniera trasformativa, ma questo non implica che utilizzare le opere protette per creare il software/modello che può generare innumerevoli output creativi non sia un uso trasformativo.

Questa analisi, ovviamente, rileva in diritto statunitense. In diritto EU si tende a concludere invece che ogni riproduzione sia illegittima a meno che non esista una eccezione specifica. Ovviamente, eccezioni e limitazioni garantiscono certezza del diritto ma non flessibilità tecnologica, al contrario del modello fair use statunitense. Questa la ragione per cui si discute se l'eccezione per TDM, che pure è limitata da opt-out o ricerca senza fini di lucro, si applichi alla creazione di LLM. Ho già detto quel che penso circa la dicotomia idea(conoscenza)/espressione che dovrebbe servire sempre quale riferimento generale, anche in diritto europeo. Al di là del fatto che tutta la discussione specifica circa se un LLM sia diverso da TDM o da Google books non rileva comunque a mio parere perché l'esercizio è proprio quello di astrarre il principio rispetto alle tecnologie specifiche, e anche al netto di considerazioni fringe secondo cui non si possa predicare un processo di "apprendimento" nel machine learning/deep learning che fonda lo sviluppo di software/modelli creativi come LLM, posso solo notare che la ratio dell'introduzione delle eccezioni TDM nella direttiva 790/2019 è proprio da ritrovarsi nel tentativo di fornire certezza giuridica circa la legittimità di processi di sviluppo di IA, anche in ambito cross-border vista la poca armonizzazione comunitaria, per riempire il divario competitivo dell'industria IA europea rispetto a quella statunitense e cinese, che non sono sottoposte a norme autoriali così restrittive. Questo lo posso confermare con certezza poiché con i miei coautori Geiger e Bulayenko abbiamo redatto un rapporto commissionato dalla Commissione in materia e siamo stati coinvolti nel processo di discussione della norma con varie commissioni parlamentari. Che poi infine i nostri suggerimenti siano stati poco ascoltati e sia stata partorita una normativa insufficiente a garantire quella competitività che manca all'industria IA europea è altra storia...

Giancarlo

On Wed, Sep 11, 2024 at 10:21 AM 380° via nexa <nexa@server-nexa.polito.it> wrote:

Ciao Giacomo,

scusa ma faccio fatica a stare dietro a questo thread, mi sono "messo in
pari" solo ora.

Giacomo Tesio <giacomo@tesio.it> writes:

[...]

>> Il software (programmato statisticamente) è un'opera derivata dei
>> testi (dati?) utilizzati per il "machine learning": ho capito bene?
>
> Sì.
>
> Esattamente come un binario eseguibile dall'architettura x86_64 è
> un'opera derivata dai sorgenti usati per compilarlo, una matrice
> eseguibile dall'architettura GPT-4 è un'opera derivata dei testi
> usati per realizzarla.

OK grazie Giacomo, ora che ho compreso che a tuo giudizio l'"AI
Training" implica violazione di copyright perché il "software
programmato statiticamente impropriamente detto modello" (per usare le
tue definizioni) è un'opera derivata dai testi protetti usati per
realizzarlo...

...non te lo chiederò mai più :-)

Quello in oggetto è un argomento ricorrente in questa lista, per esempio
quasi un anno fa esatto ci fu questo thread:
https://server-nexa.polito.it/pipermail/nexa/2023-September/051648.html
nel quale tu, Giancarlo Frosio et al (io compreso) avete già
_ampiamente_ esposto le vostre posizioni in merito; questo thread non
sposta di una virgola quanto già detto all'epoca.

Rileggendolo mi rendo conto che anche io comincio a essere un disco
rotto, e me ne scuso: è inutile che io ripeta quanto già sostenuto più
volte.

Quello che ci tengo a ripetere, invece, è il quadro generale, direi
folosofico, del copyright:

https://server-nexa.polito.it/pipermail/nexa/2023-September/051674.html
«The promise of a post-copyright world»

Cioè: il copyright è una abberrazione giuridica e gli argomenti usati per
sostenere che "AI Training is Copyright Infringement" non fanno altro
che aumentare il livello di abberrazione.

Ciao, 380°

--
380° (Giovanni Biscuolo public alter ego)

«Noi, incompetenti come siamo,
non abbiamo alcun titolo per suggerire alcunché»

Disinformation flourishes because many people care deeply about injustice
but very few check the facts. Ask me about <https://stallmansupport.org>.