In realtà Giancarlo ho ben chiaro il dibattito in corso, gli interessi in gioco,
le "strane alleanze" e i fiumi di soldi che stanno inquinando questo dibattito.
E sono rassegnato al divorzio dalla realtà che tutto ciò comporta.
Tuttavia, da informatico più interessato allo stato di diritto che ai soldi in questione
non posso che descrivere i software cui il dibattito fa riferimento.
Il 8 Settembre 2024 15:34:15 UTC, GC F ha scritto:
> Quel che conta è che...
Bene, finalmente concordiamo che ogni riferimento al data mining è infondato e fuorviante.
> si utilizzino espressioni proteggibili per
> creare/addestrare uno strumento
Ecco quando su parla di "AI training" si parla del processo di programmazione statistica
attraverso cui si ottiene un software.
Questo software è un opera derivata dai dataset sorgenti (e da pochi altri dati decisi
dai "data scientist").
Ancor prima che questo software venga eseguito e produca output che riproduca in
tutto o in parte un'opera usata per programmarlo, la sua realizzazione deve rispettare
i diritti degli autori di tutte le opere che costituiscono il dataset sorgente.
Questi autori possono aver ceduto il diritto di creare quel software come opera derivata
dalle proprie opere (come fanno i giornalisti o i romanzieri che lavorano come "chatbot helper")
e in tal caso siamo tutti contenti.
Tuttavia, per creare un'opera derivata dalle loro (come il software in questione) tale
cessione è necessaria nei termini del diritto d'autore.
> Anche se il processo di training AI si basa su
> riproduzioni meccaniche di opere nella loro interezza, questo non implica
> di per sé la violazione del diritto d'autore, se tale riproduzione è votata
> alla creazione di uno strumento che poi utilizzi quelle riproduzioni
> meccaniche a fini trasformativi.
Temo che questo passaggio evidenzi un malinteso di fondo: non stiamo discutendo della
legittimità di creare un dataset contenente copie di testi coperti dal diritto d'autore, ne della
loro copia in memoria durante il processo impropriamente chiamato "training".
Stiamo parlando del processo di creazione di un'opera derivata (il "modello").
> certe sue affermazioni sono forse "ingenue" [...] (eg "Anche se poi le aziende
> forniscono accesso a quelle opere derivate "a pezzetti", le opere sono
> state integralmente incluse nel processo di programmazione statistica (il
> "training" della "AI")").
Beh, più che ingenuo, direi che distinguere fra software e output del software è ovvio.
Mi pare invece incredibile che li si possa confondere e mi chiedo come sia possibile
nel 2024 una confusione tanto evidente.
In questo però potrei essere "ingenuo", in effetti.
> La questione dell'applicazione della "dicotomia
> idea/espressione" al TDM è proprio relativa al fatto che per estrarre dati,
> non proteggibili, si debbano effettuare copie meccaniche integrali
> dell'espressione proteggibile in cui quei dati sono contenuti.
Sennonché non stiamo parlando di dette copie, ma del software che ne viene compilato.
Sia chiaro: se il processo di compilazione / compressione lossy cancella il diritto
degli autori a me va benissimo!
L'importante è che valga anche per i binari x86_64 di Microsoft, per gli mp4 ottenuti dai film Disney,
etc...
Giacomo