Ciao 380°, On Fri, 06 Sep 2024 12:47:39 +0200 380° <g380@biscuolo.net> wrote:
Non capisco perché la parte "text mining" che del processo di c.d. "machine learning" non rientri tranquillamente nella definizione di "text and data mining" riportata sopra.
Perché il processo di "machine learning" (più propriamente programmazione statistica) usato per la realizzazione di un "AI generativa" produce matrici numeriche inintelligibili. Non a caso vengono definite "black box".
Il processo di programmazione statistica di un LLM o di qualsiasi altra "IA generativa" non comporta in alcun modo l'estrazione di conoscenza "human-understandable" sui testi e più in generale sui dati usati come sorgente.
e perché il ‘text and data mining’ definito sopra comporta l'estrazione di conoscenza "human-understandable" sui testi analizzati?
Perché quella definizione chiarisce che l'analisi effettuata costituisce data mining solo quando è effettuata "in order to generate information". Le matrici numeriche _generate_ da tali processi che costituiscono gli eseguibili di cui parliamo non veicolano alcuna informazione.
il fatto che la definizione dica "includes but is not limited to patterns..." non è secondario
Non secondario, ma subordinato (anche grammaticalmente) alla generazione di informazioni. D'altro canto, non parliamo di locuzioni inedite: persino Wikipedia è cristallina in merito a cosa costituisca il data mining: https://en.wikipedia.org/wiki/Data_mining
quindi il processo di "machine learning" a cosa sarebbe ricondicibile, secondo te?
Il processo di "machine learning" è un processo di compilazione costituito da una forma di compressione dati con perdita che produce una rappresentazione eseguibile da parte di una certa "architettura" (ovvero una macchina virtuale programmata allo scopo). La scelta delle tecniche e dei dati da utilizzare (il dataset sorgente, ma anche i valori iniziali delle matrici, gli hyperparameters etc..) costituisce invece l'attività di programmazione statistica operata da programmatori che si fanno pomposamente chiamare "data scientist".
Tuttavia NON è ciò che avviene durante la programmazione statistica di un "AI generativa" che è semplicemente un'opera derivata dei dati sorgente
Il software (programmato statisticamente) è un'opera derivata dei testi (dati?) utilizzati per il "machine learning": ho capito bene?
Sì. Esattamente come un binario eseguibile dall'architettura x86_64 è un'opera derivata dai sorgenti usati per compilarlo, una matrice eseguibile dall'architettura GPT-4 è un'opera derivata dei testi usati per realizzarla.
Per essere considerata opera derivata, è mio modestissimo parere che tale opera debba essere espressa in una forma (linguaggio) comprensibile agli umani, ma non mi pare proprio che il software programmato statisticamente (che è del tutto analogo al software binario) rientri in questa categoria.
Se così fosse, i binari compilati a partire da sorgenti proprietari non sarebbero protetti dal diritto d'autore. Sarei felicissimo di scoprirlo, ma ne dubito fortemente perché corrisponderebbe alla abolizione del copyright sul software. Verrebbe meno anche il copyleft e alcuni modelli di business che vi si basano, ma sarebbe comunque una vittoria.
non troppo dissimile da un jpeg o da uno zip danneggiato ma ancora utilizzabile.
...oppure ho capito male e tu non ti stai riferendo al software (binario) come opera derivata ma all'output dei sistem "AI generativi"?
Io sto parlando dei cosiddetti "modelli AI" ovvero le matrici eseguibili (binari nella memoria della GPU, ma la codifica è irrilevante...) che vengono eseguiti dalle macchine virtuali preposte (le cosiddette "architetture") a loro volta eseguite da GPU etc... Tali matrici sono oggetto del diritto d'autore di coloro che hanno scritto i testi da cui sono state compilate. Poi sì, come conseguenza, l'output calcolato dal LLM è necessariamente un'opera derivata dalla matrice che sta eseguendo e dunque sarà utilizzati durante la sua programmazione. soggetta al diritto d'autore di coloro che avevano scritto i testi E' una sorta di (ovvia?) proprietà transitiva. Naturalmente le matrici di cui parliamo (e gli output degli LLM) non sono SOLO opera derivata dai testi in questione perché ad esempio c'è anche un piccolo contributo del prompt (il cui peso è indicativamente pari al rapporto fra la sua lunghezza in byte e la lunghezza in byte di tutti i testi usati durante il processo di programmazione statistica, quindi trascurabile ma non nullo). Ma negare i diritti degli autori nella realizzazione delle matrici di cui parliamo è tecnicamente e logicamente infondato. Abolire il diritto d'autore VA BENISSIMO ! ! ! L'importante è che venga abolito per tutti, non solo per qualcuno. Giacomo