Re: [nexa] AI Training is Copyright Infringement

Sept. 6, 2024

      Grazie Giancarlo,

molto interessante, ma di nuovo non capisco cosa centri il data mining

On Fri, 6 Sep 2024 01:45:14 +0100 GC F <gcfrosio@gmail.com> wrote:
...
in diritto EU abbiamo introdotto eccezioni e limitazioni specifiche
per il text-and-data-mining.
Il data-mining è un processo di estrazione e rappresentazione di
pattern, andamenti e correlazioni presenti in grandi quantità di dati
in modo che siano comprensibili: parliamo di tecniche come la cluster
analysis,  il rilevamento delle anomalie, le regole di associazione
etc... può anche includere l'uso di reti neurali artificiali, ma sempre
al fine acquisire informazioni intellegibili sui dati analizzati e sui
fenomeni che quei dati rappresentano.

I software di cui parla l'articolo condiviso da Daniela non hanno NULLA
a che fare con il data mining, anche secondo la definizione del 

Già nel 2001, Han e Kamber sottolineavano in "Data mining: concepts and
techniques" (ISBN 978-1-55860-489-6) che la locuzione è fuorviante 
e che "data mining should have been more appropriately named as
'knowledge mining' which emphasis on the mining knowledge from large
amount of data" chiarendo che "The overall goal of the data mining
process is to extract knowledge from an existing data set and transform
it into a human-understandable structure for further use."

La stessa definizione di ‘text and data mining’ prevista dall'articolo
2 della direttiva (EU) 2019/790, riporta lo scopo che caratterizza
queste tecniche, ovvero la produzione di informazione sui dati:

  ‘text and data mining’ means any automated analytical technique aimed
  at analysing text and data in digital form in order to generate
  information which includes but is not limited to patterns, trends and
  correlations;

https://eur-lex.europa.eu/legal-content/EN/TXT/HTML/?uri=CELEX:32019L0790#d1...

Il processo di programmazione statistica di un LLM o di qualsiasi altra
"IA generativa" non comporta in alcun modo l'estrazione di conoscenza
"human-understandable" sui testi e più in generale sui dati usati come
sorgente.

Ad esempio, i pesi che costituiscono GPT-4, non sono interpretabili
dall'uomo e non rivelano alcunché su alcuna qualità dei testi
utilizzati per programmarlo.

Dunque di nuovo non mi è chiaro cosa centrino le limitazioni previste
agli articoli 3 e 4 della direttiva suddetta, visto che le IA
generative NON sono riconducibili in alcun modo al data mining.
...
Sostenendo che la dicotomia/idea espressione sia la grundnorm del
diritto d'autore, sostengo anche che qualsiasi conclusione che porti
a identificare una violazione in processi di utilizzo di espressioni
proteggibili per estrarre elementi improteggibili sia incompatibile
con i principi generali e strutturali del diritto d'autore.
Beh, è piuttosto tautologico che, se gli elementi estratti da un opera
sono "improteggibili", non possono essere protetti. 

Tuttavia NON è ciò che avviene durante la programmazione statistica di
un "AI generativa" che è semplicemente un'opera derivata dei dati
sorgente non troppo dissimile da un jpeg o da uno zip danneggiato ma
ancora utilizzabile.

Giacomo

Re: [nexa] AI Training is Copyright Infringement

Giacomo Tesio