Si, ma l'uso del materiale per creare il software che poi genera a sua volta è a fini trasformativi! Il materiale non è usato per il suo valore espressivo, quindi la creazione del software/modello non ha effetti sul valore di mercato dell'opera originale utilizzata - non la sostituisce. Si potrebbe discutere se quegli effetti sostitutivi ci siano nel contesto della produzione degli output di quel modello, ma è altra questione - e io direi di no in base alla mia interpretazione di nozioni quali ad esempio "effect of the use on the potential market for the work" nella clausola fair use o nozioni come "conflicting with normal exploitation of the work" e "prejudice legitimate interests" nel three-step-test di Berna. Questa è la mia argomentazione. Ve ne sono altre plausibili. Legga Google Books e quel che viene prima.

Lei è estenuante. Non è necessario rispondere a tutto, ripetutamente, discutendo affermazioni che lei assume appartengano al suo interlocutore senza che questo sia il caso, sviluppando argomentazioni che sono per la maggior parte irrilevanti rispetto a quel che il suo interlocutore dice e costantemente lasciar intendere che il suo interlocutore non comprende la tecnologia che lei invece ben comprende, anche se poi quella comprensione profonda è irrilevante ai fini della discussione.

Il mio riferimento precedente alla τέχνη era un'allusione a un dibattito millenario. Non si può ridurre tutto alla τέχνη; bisognerebbe saper astrarre...

Giancarlo

On Sun, Sep 8, 2024 at 6:05 PM Giacomo Tesio <giacomo@tesio.it> wrote:

In realtà Giancarlo ho ben chiaro il dibattito in corso, gli interessi in gioco,
le "strane alleanze" e i fiumi di soldi che stanno inquinando questo dibattito.

E sono rassegnato al divorzio dalla realtà che tutto ciò comporta.

Tuttavia, da informatico più interessato allo stato di diritto che ai soldi in questione
non posso che descrivere i software cui il dibattito fa riferimento.

Il 8 Settembre 2024 15:34:15 UTC, GC F ha scritto:
> Quel che conta è che...

Bene, finalmente concordiamo che ogni riferimento al data mining è infondato e fuorviante.

> si utilizzino espressioni proteggibili per
> creare/addestrare uno strumento

Ecco quando su parla di "AI training" si parla del processo di programmazione statistica
attraverso cui si ottiene un software.

Questo software è un opera derivata dai dataset sorgenti (e da pochi altri dati decisi
dai "data scientist").

Ancor prima che questo software venga eseguito e produca output che riproduca in
tutto o in parte un'opera usata per programmarlo, la sua realizzazione deve rispettare
i diritti degli autori di tutte le opere che costituiscono il dataset sorgente.

Questi autori possono aver ceduto il diritto di creare quel software come opera derivata
dalle proprie opere (come fanno i giornalisti o i romanzieri che lavorano come "chatbot helper")
e in tal caso siamo tutti contenti.

Tuttavia, per creare un'opera derivata dalle loro (come il software in questione) tale
cessione è necessaria nei termini del diritto d'autore.

> Anche se il processo di training AI si basa su
> riproduzioni meccaniche di opere nella loro interezza, questo non implica
> di per sé la violazione del diritto d'autore, se tale riproduzione è votata
> alla creazione di uno strumento che poi utilizzi quelle riproduzioni
> meccaniche a fini trasformativi.

Temo che questo passaggio evidenzi un malinteso di fondo: non stiamo discutendo della
legittimità di creare un dataset contenente copie di testi coperti dal diritto d'autore, ne della
loro copia in memoria durante il processo impropriamente chiamato "training".

Stiamo parlando del processo di creazione di un'opera derivata (il "modello").

> certe sue affermazioni sono forse "ingenue" [...] (eg "Anche se poi le aziende
> forniscono accesso a quelle opere derivate "a pezzetti", le opere sono
> state integralmente incluse nel processo di programmazione statistica (il
> "training" della "AI")").

Beh, più che ingenuo, direi che distinguere fra software e output del software è ovvio.

Mi pare invece incredibile che li si possa confondere e mi chiedo come sia possibile
nel 2024 una confusione tanto evidente.

In questo però potrei essere "ingenuo", in effetti.

> La questione dell'applicazione della "dicotomia
> idea/espressione" al TDM è proprio relativa al fatto che per estrarre dati,
> non proteggibili, si debbano effettuare copie meccaniche integrali
> dell'espressione proteggibile in cui quei dati sono contenuti.

Sennonché non stiamo parlando di dette copie, ma del software che ne viene compilato.

Sia chiaro: se il processo di compilazione / compressione lossy cancella il diritto
degli autori a me va benissimo!

L'importante è che valga anche per i binari x86_64 di Microsoft, per gli mp4 ottenuti dai film Disney,
etc...

Giacomo