Re: [nexa] AI Training is Copyright Infringement

Sept. 12, 2024

      Caro Fabio,

ho riflettuto a lungo se risponderti, perché non mi piace perdere tempo
e non mi sembri interessato a comprendere come funzionano i software di
cui parliamo. Non so perché, ma mi sembra evidente.

Tuttavia, rispondendo a Duccio, mi sono reso conto che subite 
la stessa confusione ("anfibolia"? :-D) e la lettura del paper
potrebbe svelare ad entrambi la dinamica dell' "imitation game" 
che OpenAI & friends stanno "giocando".

On Tue, 10 Sep 2024 12:07:53 Fabio Alemagna <falemagn@gmail.com> wrote:
...
Io trovo che sia scientificamente interessante e persino
strabiliante che un algoritmo che non è stato esplicitamente
istruito per saper far di conto, riesca a far di conto entro
una certa misura, semplicemente per essere stato allenato 
su tomi che spiegano come si fa di conto.
Commentavi questo articolo: https://arxiv.org/pdf/2301.13867

Leggiamo come è composto il dataset con cui hanno testato le 
"competenze matematiche" dei LLM di OpenAI (pagina 4):

- books that are widely used in universities to teach upper
  undergraduate or first-year graduate courses in a degree in
  mathematics
- math.stackexchange.com, a collection of books, and the
  MATH dataset
- the book Problem-Solving Strategies, that is often used
  to prepare for mathematical competitions
- il dataset di https://arxiv.org/abs/1912.01412 che contiene
  decine di esercizi... e le soluzioni.

Leggi con calma e rifletti: non noti niente?

Questi ricercatori NON hanno sottoposto a ChatGPT e GPT-4 problemi
inediti, ma problemi tratti da eserciziari disponibili in rete.

Ora, se immagini una qualche "intelligenza artificiale" alle prese con
tutti questi problemi, è ragionevole trovare i risultati sintetizzati
nell'abstract che avevo citato "strabilianti" [1].

Ma se hai chiaro il processo di compilazione / compressione dei testi
sorgente che produce il LLM, trovi quei risultati piuttosto ovvi: il
LLM ha prodotto in output le soluzioni codificate nelle matrici
eseguibili.

Quale delle due spiegazioni passa il rasoio di Occam?

1. ChatGPT "è intelligente ma non si impegna"

2. ChatGPT è un archivio compresso eseguibile che contiene i problemi
   che gli sono stati sottposti ed ha "autocompletato" i problemi,
   con le soluzioni che li seguivano?

Che tu, Duccio e molti altri che non comprendono come funzionano questi
software programmati staticamente, vi facciate ingannare da questo
"imitation game" è purtroppo prevedibile e previsto.

L'enorme quantità di testi compressi dentro GPT-4 (alcuni dei quali
mai pubblicati, come quelli prodotti dai giornalisti che fanno i
"chatbot helper" per arrotondare) rende estremamente improbabile
che un estratto venga servito a qualcuno che lo possa riconoscere.

In questo caso però, questo è proprio ciò che è successo!

E che 8 ricercatori universitari non si siano accorti di aver
dimostrato il plagio [2] di decine di manuali sotto copyright [3]
rende _evidente_ quanti DANNI la favola della "intelligenza
artificiale", del "machine learning", delle "allucinazioni"
e stronzate varie stia facendo alla ricerca informatica 
e al progresso dell'umanità.

E nota che non si tratta di persone impreparate.

Ma le parole che usiamo per descrivere la realtà determinano
il nostro modo di intepretarla.

Non fatevi ingannare: l'intelligenza artificiale non esiste.
Le macchine non imparano, non hanno allucinazioni 
e non funzionano assolutamente come un essere umano.

Urge cambiare linguaggio.

Giacomo

[1] non potevi scegliere un termine più appropriato! :-D
    https://www.etimo.it/?term=strabiliare

[2] spacciando ChatGPT come una "intelligenza artificiale _generativa_"
    si/gli intesta la paternità delle soluzioni, sottraendola agli
    autori https://it.wikipedia.org/wiki/Plagio_(diritto_d'autore)

[3] per altro, in un modo che esclude l'applicabilità del fair
    use negli USA, come ci ha spiegato benissimo Giancarlo qui
    https://server-nexa.polito.it/pipermail/nexa/2024-September/053236.html
    perché ChatGPT diventa un surrogato gratuito di quegli stessi testi,
    riducendone il valore di mercato

Re: [nexa] AI Training is Copyright Infringement

Giacomo Tesio