Un ultimo appunto, ad nauseam mi scuso, ma forse c'è una premessa errata in tutta questa diatriba: l'argomentazione che il "software programmato statisticamente impropriamente detto modello" è un'opera derivata dai testi protetti usati per realizzarlo è ovvia, giuridicamente (ogni fair use è potenzialmente un'opera derivata - altrimenti la questione della sua legittimità non si porrebbe neppure), ma questo non implica che vi sia violazione dei diritti autoriali se (1) l'utilizzazione dei testi protetti è trasformativa, anche se a fini commerciali (2) non ci sono effetti rilevanti sul mercato potenziale dell'opera protetta e (3) l'utilizzo ha un valore pubblico rilevante (fattore creato giurisprudenzialmente). Ci sono altri due fattori, la natura dell'opera protetta e la quantità e sostanzialità della porzione utilizzata, ma secondo giurisprudenza sono irrilevanti se l'uso è trasformativo. Nel valutare i fattori la giurisprudenza utilizza un approccio equity-base, ponderando il peso di ognuno per raggiungere una decisione finale e olistica sulla legittimità o meno dell'uso. Con tutti i caveat del caso, e le molteplici opinioni divergenti che possono sorgere in giurisprudenza e dottrina, in base alla casistica da Baker v Selden fino a Google Books, utilizzare innumerevoli contenuti protetti per creare un software/modello con le funzionalità di un LLM è un uso trasformativo che non ha un effetto sostitutivo sul mercato delle singole opere utilizzate. In questo contesto aggiungo che, a mio parere, (1) argomentare che c'è un mercato potenziale delle licenze per sviluppare il software è argomentazione circolare, poichè se l'uso è legittimo quel mercato non è potenziale; (2) sostenere che gli output del software generativo possono avere effetti sostitutivi sul mercato delle opere protette utilizzate è argomento ovviamente fallace perché il mercato di riferimento non può essere quello della creatività in generale, ma quello della singola opera utilizzata, altrimenti ogni uso anche trasformativo avrebbe sempre effetti sul mercato dell'opera. Se l'output generato è identico o sostanzialmente simile (nozioni tecniche in DA), allora avremo una violazione per quel che riguarda quello specifico output, che non ha utilizzato le opere protette in maniera trasformativa, ma questo non implica che utilizzare le opere protette per creare il software/modello che può generare innumerevoli output creativi non sia un uso trasformativo.
Questa analisi, ovviamente, rileva in diritto statunitense. In diritto EU si tende a concludere invece che ogni riproduzione sia illegittima a meno che non esista una eccezione specifica. Ovviamente, eccezioni e limitazioni garantiscono certezza del diritto ma non flessibilità tecnologica, al contrario del modello fair use statunitense. Questa la ragione per cui si discute se l'eccezione per TDM, che pure è limitata da opt-out o ricerca senza fini di lucro, si applichi alla creazione di LLM. Ho già detto quel che penso circa la dicotomia idea(conoscenza)/espressione che dovrebbe servire sempre quale riferimento generale, anche in diritto europeo. Al di là del fatto che tutta la discussione specifica circa se un LLM sia diverso da TDM o da Google books non rileva comunque a mio parere perché l'esercizio è proprio quello di astrarre il principio rispetto alle tecnologie specifiche, e anche al netto di considerazioni fringe secondo cui non si possa predicare un processo di "apprendimento" nel machine learning/deep learning che fonda lo sviluppo di software/modelli creativi come LLM, posso solo notare che la ratio dell'introduzione delle eccezioni TDM nella direttiva 790/2019 è proprio da ritrovarsi nel tentativo di fornire certezza giuridica circa la legittimità di processi di sviluppo di IA, anche in ambito cross-border vista la poca armonizzazione comunitaria, per riempire il divario competitivo dell'industria IA europea rispetto a quella statunitense e cinese, che non sono sottoposte a norme autoriali così restrittive. Questo lo posso confermare con certezza poiché con i miei coautori Geiger e Bulayenko abbiamo redatto un rapporto commissionato dalla Commissione in materia e siamo stati coinvolti nel processo di discussione della norma con varie commissioni parlamentari. Che poi infine i nostri suggerimenti siano stati poco ascoltati e sia stata partorita una normativa insufficiente a garantire quella competitività che manca all'industria IA europea è altra storia...
Giancarlo