Re: [nexa] AI Training is Copyright Infringement

Sept. 6, 2024

      Ciao 380°,

On Fri, 06 Sep 2024 12:47:39 +0200 380° <g380@biscuolo.net> wrote:
...
Non capisco perché la parte "text mining" che del processo di
c.d. "machine learning" non rientri tranquillamente nella definizione
di "text and data mining" riportata sopra.
Perché il processo di "machine learning" (più propriamente
programmazione statistica) usato per la realizzazione di un
"AI generativa" produce matrici numeriche inintelligibili.

Non a caso vengono definite "black box".
...
...
Il processo di programmazione statistica di un LLM o di qualsiasi
altra "IA generativa" non comporta in alcun modo l'estrazione di
conoscenza "human-understandable" sui testi e più in generale sui
dati usati come sorgente.
e perché il ‘text and data mining’ definito sopra comporta
l'estrazione di conoscenza "human-understandable" sui testi
analizzati?
Perché quella definizione chiarisce che l'analisi effettuata
costituisce data mining solo quando è effettuata "in order
to generate information".

Le matrici numeriche _generate_ da tali processi che costituiscono gli
eseguibili di cui parliamo non veicolano alcuna informazione.
...
il fatto che la definizione dica "includes but is not limited to
patterns..." non è secondario
Non secondario, ma subordinato (anche grammaticalmente) alla
generazione di informazioni.

D'altro canto, non parliamo di locuzioni inedite: persino Wikipedia è
cristallina in merito a cosa costituisca il data mining:

https://en.wikipedia.org/wiki/Data_mining
...
quindi il processo di "machine learning" a cosa sarebbe ricondicibile,
secondo te?
Il processo di "machine learning" è un processo di compilazione
costituito da una forma di compressione dati con perdita che produce
una rappresentazione eseguibile da parte di una certa "architettura"
(ovvero una macchina virtuale programmata allo scopo).

La scelta delle tecniche e dei dati da utilizzare (il dataset sorgente,
ma anche i valori iniziali delle matrici, gli hyperparameters etc..)
costituisce invece l'attività di programmazione statistica operata da
programmatori che si fanno pomposamente chiamare "data scientist".
...
...
Tuttavia NON è ciò che avviene durante la programmazione statistica
di un "AI generativa" che è semplicemente un'opera derivata dei dati
sorgente
Il software (programmato statisticamente) è un'opera derivata dei
testi (dati?) utilizzati per il "machine learning": ho capito bene?
Sì.

Esattamente come un binario eseguibile dall'architettura x86_64 è
un'opera derivata dai sorgenti usati per compilarlo, una matrice
eseguibile dall'architettura GPT-4 è un'opera derivata dei testi
usati per realizzarla.
...
Per essere considerata opera derivata, è mio modestissimo parere che
tale opera debba essere espressa in una forma (linguaggio)
comprensibile agli umani, ma non mi pare proprio che il software
programmato statisticamente (che è del tutto analogo al software
binario) rientri in questa categoria.
Se così fosse, i binari compilati a partire da sorgenti proprietari 
non sarebbero protetti dal diritto d'autore.

Sarei felicissimo di scoprirlo, ma ne dubito fortemente perché
corrisponderebbe alla abolizione del copyright sul software.
Verrebbe meno anche il copyleft e alcuni modelli di business
che vi si basano, ma sarebbe comunque una vittoria.
...
...
non troppo dissimile da un jpeg o da uno zip danneggiato ma
ancora utilizzabile.
...oppure ho capito male e tu non ti stai riferendo al software
(binario) come opera derivata ma all'output dei sistem "AI
generativi"?
Io sto parlando dei cosiddetti "modelli AI" ovvero le matrici
eseguibili (binari nella memoria della GPU, ma la codifica è 
irrilevante...) che vengono eseguiti dalle macchine virtuali preposte
(le cosiddette "architetture") a loro volta eseguite da GPU etc...

Tali matrici sono oggetto del diritto d'autore di coloro che hanno
scritto i testi da cui sono state compilate.

Poi sì, come conseguenza, l'output calcolato dal LLM è necessariamente
un'opera derivata dalla matrice che sta eseguendo e dunque sarà
utilizzati durante la sua programmazione.
soggetta al diritto d'autore di coloro che avevano scritto i testi

E' una sorta di (ovvia?) proprietà transitiva.

Naturalmente le matrici di cui parliamo (e gli output degli LLM) non
sono SOLO opera derivata dai testi in questione perché ad esempio c'è
anche un piccolo contributo del prompt (il cui peso è indicativamente
pari al rapporto fra la sua lunghezza in byte e la lunghezza in byte di
tutti i testi usati durante il processo di programmazione statistica,
quindi trascurabile ma non nullo).

Ma negare i diritti degli autori nella realizzazione delle matrici di
cui parliamo è tecnicamente e logicamente infondato.

Abolire il diritto d'autore VA BENISSIMO ! ! !

L'importante è che venga abolito per tutti, non solo per qualcuno.

Giacomo

Re: [nexa] AI Training is Copyright Infringement

Giacomo Tesio