Re: [nexa] AI Training is Copyright Infringement

Sept. 6, 2024

      Buongiorno,

«E io pago!» (cit.)

Executive summary: una associazione di sindacati di autori tedesca ha
commissionato un _dubbio_ studio giuridico nel _disperato_ tentativo di
avere una pezza d'appoggio per andare a fare la questua, ops... si dice
lobbing, nei confronti delle aziende BigTech attuali e future.

Invece di percorrere questa /proibitiva/ strada del "AI Training is
Copyright Infringement", suggerisco una rapida e comoda soluzione a
tutti i portatori di interesse coinvolti (quindi pochissimi, perché
tutti gli altri PAGANO e basta): perché non chiedete di estendere anche
alle aziende di "servizi AI", il "diritto di copia privata" stabilito
nella EU, quello che viene corrisposto dalle aziende produttrici di
smartphone, tablet, pendrive, cd, hd ecc. a fronte della possibilità che
un privato cittadino possa effettuare copie di opere tutelate su uno di
tali supporti fisici?!?

Chiedete un millesimo di EUR a parola generata, dai! :-D

Però c'è un problemino: faccio sommessamente notare che - se mi sbaglio
mi corrigerete - il "diritto di copia privata" NON si applica allo
streaming (tipo a Netflix) e nemmeno allo storage "cloud"... quindi
suggerisco anche di darsi molto da fare per estendere anche a loro
l'obolo, perché ci sono un sacco di soldi da fare.

Avanti avvocati, c'è un sacco di lavoro, ne vale la pena!

Per approfondimenti sul "diritto di copia privata" si veda:
https://biblioteche.cultura.gov.it/export/sites/dgbid/it/documenti/2020-Magg...

A titolo informativo, giusto per capire di quanti soldi stiamo parlando,
dello studio sopra (pubblicato a Maggio 2020) riporto solo questo dato:

--8<---------------cut here---------------start------------->8---

Nell’anno 2017 il compenso pro-capite [5] raccolto in Italia è stato
inferiore rispetto a tutti gli altri paesi europei in esame dov’è
presente la copia privata.  L’incidenza media pro-capite del compenso di
copia privata sulla totalità della popolazione è pari a circa € 2,1 a
fronte di una media europea – dei paesi ove è presente la copia privata
- pari a € 3,40, con picchi di € 4,70 ed € 4,00 rispettivamente in
Francia e Germania. (Figura 7).

[5] Compenso pro-capite inteso come rapporto tra il totale dei compensi
incassati nel Paese ed il totale della popolazione.

--8<---------------cut here---------------end--------------->8---
(pag 18. del PDF)

La stima della popolazione italiana 2017 è di 60 milioni e 494mila
persone, quindi circa 127 milioni di euro all'anno da spartirsi solo in
Italia.

Messa in altri termini, la Fig. 8 a pag 19 dello studio di cui sopra
dice che nel 2015 in Italia il "diritto di copia" incideva per lo 0.8%
sulla sola vendita degli apparecchi (mentre la media FR+DE+NL era del
1.3%)... una piccolissima TASSA, insomma :-O

Poi, su come vengono effettivamente ripartiti i diritti d'autore e
quelli secondari mi piacerebbe trovare qualche "bilancio" ufficiale che
spieghi quanto prende ciascun titolare da ciascuna "societa di
collecting"... ma su questo c'è una cappa impenetrabile.

Daniela Tafani <daniela.tafani@unipi.it> writes:

[...]
...
In spring, the Copyright Initiative commissioned
"Copyright Initiative" è l'impropria traduzione del nome tedesco
dell'associazione "Initiative Urheberrecht", il cui scopo è:

--8<---------------cut here---------------start------------->8---

represents the interests of approximately 140,000 authors and performing
artists in the fields of composition, orchestra, journalism, film and
television, photography, documentary film, fiction and non-fiction,
design, illustration, visual arts, drama, dance, game development and
many more.

Together we create an ambitious culture, high-quality education,
enjoyable entertainment, independent journalism and lively discourse,
contribute to the diversity of opinions and democracy and establish an
internationally strong creative location that is also of great economic
importance: in 2019, the industry contributed 3.1 percent of Germany's
gross domestic product (GDP).

With the collaboration of 44 guilds and unions, Initiative Urheberrecht
is the representative platform for all branches of creative work. We
actively support the interests of all authors and performing artists and
fight for fair copyright legislation in Germany and Europe.

--8<---------------cut here---------------end--------------->8---
(via https://urheber.info/about-us)

è una /specie/ di SIAE tedesca, con la differenza che in italia la SIAE
ha il monopolio de-facto della gestione degli aspetti dello sfruttamento
economico del diritto d'autore.

le sparate tipo «170 billion euros in turnover; 1,7 million workers» mi
riportano alla mente certe campagne di "marketing anti pirateria" della
BSA degli anni 2000 nelle quali sparavono cifre ad-minchiam sulle
presunte perdine economiche derivanti dalla diffusione del software
/piratato/... sembra passato un secolo eppure eta ieri.

[...]
...
For the first time on this scale, a computer scientist and a legal
scholar are jointly creating evidence regarding the processing steps
in AI training.
Ollà, che evidenze /inoppugnabili/!

«Avremmo potuto stupirvi con effetti speciali...»

[...]
...
“As a closer look at the technology of generative AI models reveals,
the training of such models is not a case of text and data mining. It
is a case of copyright infringement
il nocciolo della questione è questo e solo questo: data mining o NON
data mining?

giova rivcordare che fino a ieri, prima di tutto questo putiferio
insopportabile intorno alla AI-vs-copyright, qualsiasi tentativo di far
passare il data mining (di opere "tutelate" da copyright) è caduto nel
vuoto.

...ma ogni occasione è buona per riproporre la minestra riscaldata.

[...]
...
“parts of the training data
data?  Quindi sono espressioni originali (le uniche tutelabili) o
"dati"?  Mettetevi d'accordo, perché giuridicamente c'è un abisso. [1]
...
can be memorized in whole or in part by current generative models -
LLMs and (latent) diffusion models - and can therefore be generated
again with suitable prompts by end users and thus reproduced.”
Sì ma per quante occorrenze di parole/pixel/note?!?!  Quando scatta il
plagio?

Per quanti "suitable prompts" si ottiene "la copia" dei dati di input,
rispetto a tutti gli ennemila prompt utilizzabili?

[...]
...
“This study is explosive because it proves that we are dealing with
large-scale theft of intellectual property.
Boom!  Giochiamo a chi la spara più grossa?

OK allora giochiamo.

Quelli di "Initiative Urheberrecht" sanno benissimo (ma lo sa anche ci
sta leggendo, vero?!?) che IN TEORIA l'obolo _deve_ andare al TITOLARE
dei diritti autore [2]: come si fa a determinare quali sono i titolari
dei diritti dei vari pezzi riprodotti nell'output di un LLM?!?

Mi dicono dalla regia che il processo di /compressione/
dell'informazione effettuato da LLM e simili non è reversibile... ma io
sono ignorante.

E poi:

1. quale algoritmo usiamo per la suddivisione degli oboli?

2. cosa ne facciamo dei diritti connessi?

Nel caso della "musica" la situazione in italia e sommariamente
descritta qui:
https://www.icompany.it/iblog/la-musica-attuale/696-facciamo-ordine-diritti-...

Ecco perché suggerisco sommessamente ai "paladini" del diritto d'autore
di concentrarsi più sui diritti secondari che su quelli principali di
sfruttamento economico delle opere... il "diritto di copia privata" è
quello che fa per voi: dovete trovare qualcuno ben introdotto in quei
meccanismi ben oliati che metta una buona parolina anche per voi. 

[...]
...
The composer and spokesperson for the Copyright Initiative, Matthias
Hornschuh, comments:
“There would be a new, profitable licensing market on the horizon, but
no remuneration is flowing,
eccolo qui il succo del messaggio: c'è PROFUMO di soldi, vogliamo la
nostra fettina!

[...]

'sta minestra è talmente riscaldata che è diventata rancida.

Saluti, 380°

[1] tra l'altro gli sviluppatori degli LLM et similia potrebbero perfino
sostenere di avere il diritto d'autore (sui generis) dei database :-O

[2] per questo in italia tutti coloro che effettuano pubbliche
rappresentazioni di opere tutelate da copyright devono compilare il
FAMIGERATO borderò (spettacoli musicali, teatrali, cinema)... oh ci
sarebbe così tanto da dire sulla raccolta degli oboli!

-- 
380° (Giovanni Biscuolo public alter ego)

«Noi, incompetenti come siamo,
 non abbiamo alcun titolo per suggerire alcunché»

Disinformation flourishes because many people care deeply about injustice
but very few check the facts.  Ask me about <https://stallmansupport.org>.