Caro Giancarlo, Mi spiace averti stancato, per cui non ti tedierò con le ovvie differenze fra un LLM (che è una compressione lossy eseguibile dei testi sorgente) e Google Books (che è una semplice interfaccia web su _estratti_ di quei testi). Tuttavia credo sia importante chiarire un aspetto che le tue considerazioni riportano alla mente Il 8 Settembre 2024 18:13:43 UTC, GC F ha scritto:
Il materiale non è usato per il suo valore espressivo,
se così fosse Microsoft & friends non starebbero pagando scrittori e giornalisti per scrivere testi che nessuno leggerà mai! Lo fanno proprio perché sanno benissimo che il loro software non contiene idee ma espressioni. SOLO espressioni. Se l'uso delle espressioni originali negli LLM fosse "trasformativo", la presenza di espressioni prodotte in output da altri LLM nei dataset sorgente non sarebbe un problema. Invece il problema del "model collapse" deriva proprio dal fatto che l'output di un LLM non ha alcun "valore espressivo", contrariamente alle opere originali.
quindi la creazione del software/modello non ha effetti sul valore di mercato dell'opera originale utilizzata - non la sostituisce.
Non stiamo parlando del valore di mercato di un'opera, ma del valore di mercato dei diritti di sfruttamento ad essa connessi. In particolare del valore di mercato del diritto a creare opere derivate (l'LLM). Questo diritto può essere ceduto per un corrispettvo che chi programma LLM non sta pagando. Se lo pagasse, il valore di mercato di quel diritto di sfruttamento economico dell'opera aumenterebbe notevolmente, perché le varie aziende che producono LLM si contenderebbero il diritto di creare LLM derivati dalle opere migliori. Lo vedi bene nell'articolo citato da Antonio in un altro thread, dove i diritti su articoli che nessuno leggerà mai e che dunque non avrebbero alcun valore di mercato, acquisiscono un valore comparabile a quello corrisposto da un giornale che li pubblica.
Si potrebbe discutere se quegli effetti sostitutivi ci siano nel contesto della produzione degli output di quel modello, ma è altra questione
Vero, è un'altra questione: i modelli delle "AI generative" sono archivi compressi (con perdita di informazioni). Non sostituiscono una singola opera. Sono surrogati di tutte le opere usate per programmarli e di ciascuna di esse. Surrogati di qualità variabile, ma pur sempre surrogati. Come una jpeg compressa di una serie di dipinti affiancati sarebbe un surrogato di tutti i dipinti inclusi e di ciascuno. I loro output però sono evidenti surrogati per le opere da cui derivano. Se così non fosse, non ci sarebbero decine di pubblicazioni scientifiche che li riportano, citando articoli mai scritti che gli autori non hanno nemmeno provato ad acquistare (con buona pace della favola delle peer review). E ricorderai anche tu il caso dell'avvocato che presentò al giudice un documento pieno di riferimenti giurisprudenziali inesistenti perché prodotto con un LLM. Riferimenti giurisprudenziali a testi che lui non aveva nemmeno provato a comprare, accontentandosi del surrogato fornito dal LLM. D'altronde chi usa le "AI generative" per "generare" contenuti non può proprio acquistare le opere originali da cui quei contenuti sono tratti, neənche volendo. Non solo perché a volte si tratta di chat o mail private, testi inediti etc... ma perché gli LLM non sono in grado di fornire i riferimenti corretti (anche quando ne forniscono di esistenti) proprio per come funzionano.
Il mio riferimento precedente alla τέχνη era un'allusione a un dibattito millenario. Non si può ridurre tutto alla τέχνη;
Perché, la Giurisprudenza non è essa stessa un'arte? Giacomo PS: non sentirti in alcun modo obbligato a rispondere se non ti va... e se preferisci possiamo continuare in privato.