La τέχνη specifica è irrilevante. Il principio generale di cui si discute (dicotomia idea/espressione) fa riferimento all'estrazione di conoscenza non proteggibile, in qualsiasi forma, da espressioni proteggibili in base ai requisiti di proteggibilità del diritto d'autore. Che sia propriamente text-and-and-data mining o processo connesso, simile ma diverso, o alternativo è di rilevanza tangenziale. I principi di diritto sono strutturati per adattarsi all'evoluzione tecnologica. Dottrina e giurisprudenza svolgono questo ruolo, quando non intervenga una riforma legislativa, applicando principi e precedenti giurisprudenziali a nuova casistica per analogia. L'intera storia del diritto d'autore è un esempio di questo processo.

Giancarlo

On Fri, Sep 6, 2024 at 10:51 AM Giacomo Tesio <giacomo@tesio.it> wrote:

Grazie Giancarlo,

molto interessante, ma di nuovo non capisco cosa centri il data mining

On Fri, 6 Sep 2024 01:45:14 +0100 GC F <gcfrosio@gmail.com> wrote:

> in diritto EU abbiamo introdotto eccezioni e limitazioni specifiche
> per il text-and-data-mining.

Il data-mining è un processo di estrazione e rappresentazione di
pattern, andamenti e correlazioni presenti in grandi quantità di dati
in modo che siano comprensibili: parliamo di tecniche come la cluster
analysis, il rilevamento delle anomalie, le regole di associazione
etc... può anche includere l'uso di reti neurali artificiali, ma sempre
al fine acquisire informazioni intellegibili sui dati analizzati e sui
fenomeni che quei dati rappresentano.

I software di cui parla l'articolo condiviso da Daniela non hanno NULLA
a che fare con il data mining, anche secondo la definizione del

Già nel 2001, Han e Kamber sottolineavano in "Data mining: concepts and
techniques" (ISBN 978-1-55860-489-6) che la locuzione è fuorviante
e che "data mining should have been more appropriately named as
'knowledge mining' which emphasis on the mining knowledge from large
amount of data" chiarendo che "The overall goal of the data mining
process is to extract knowledge from an existing data set and transform
it into a human-understandable structure for further use."

La stessa definizione di ‘text and data mining’ prevista dall'articolo
2 della direttiva (EU) 2019/790, riporta lo scopo che caratterizza
queste tecniche, ovvero la produzione di informazione sui dati:

‘text and data mining’ means any automated analytical technique aimed
at analysing text and data in digital form in order to generate
information which includes but is not limited to patterns, trends and
correlations;

https://eur-lex.europa.eu/legal-content/EN/TXT/HTML/?uri=CELEX:32019L0790#d1e845-92-1

Il processo di programmazione statistica di un LLM o di qualsiasi altra
"IA generativa" non comporta in alcun modo l'estrazione di conoscenza
"human-understandable" sui testi e più in generale sui dati usati come
sorgente.

Ad esempio, i pesi che costituiscono GPT-4, non sono interpretabili
dall'uomo e non rivelano alcunché su alcuna qualità dei testi
utilizzati per programmarlo.

Dunque di nuovo non mi è chiaro cosa centrino le limitazioni previste
agli articoli 3 e 4 della direttiva suddetta, visto che le IA
generative NON sono riconducibili in alcun modo al data mining.

> Sostenendo che la dicotomia/idea espressione sia la grundnorm del
> diritto d'autore, sostengo anche che qualsiasi conclusione che porti
> a identificare una violazione in processi di utilizzo di espressioni
> proteggibili per estrarre elementi improteggibili sia incompatibile
> con i principi generali e strutturali del diritto d'autore.

Beh, è piuttosto tautologico che, se gli elementi estratti da un opera
sono "improteggibili", non possono essere protetti.

Tuttavia NON è ciò che avviene durante la programmazione statistica di
un "AI generativa" che è semplicemente un'opera derivata dei dati
sorgente non troppo dissimile da un jpeg o da uno zip danneggiato ma
ancora utilizzabile.

Giacomo