Re: [nexa] AI Training is Copyright Infringement

Sept. 23, 2024

      Fabio, non mi piace infierire ma... li leggi gli articoli che proponi?

O ti basta che l'abstract possa essere (mal)interpretato per confermare
le tue opinioni?

On Fri, 20 Sep 2024 15:35:47 +0200 Fabio Alemagna wrote:
...
...
Questi ricercatori NON hanno sottoposto a ChatGPT e GPT-4 problemi
inediti,
Si che lo hanno fatto, è letteralmente scritto nell'abstract.
«We investigate the mathematical capabilities [...] by testing them on
publicly available datasets, AS WELL AS HAND-CRAFTED ONES.»
Per favore, leggi con più attenzione e meno pregiudizi.

I ricercatori NON hanno proposto alcun problema inedito a ChatGPT e
GPT-4 e i prompt "hand-crafted" appartengono solo a tre categorie:

- Definition Retrieval
- Named Theorem Proof Completion
- Reverse Definition Retrival

Si tratta del subdataset Search-Engine-Aspects in cui verificano
(indovina un po'?) proprio il fatto che LLM come un archivio compresso
da cui estrarre contenuti attinenti.

Infatti, TUTTI i problemi forniti in input ChatGPT e GPT4 sono stati
tratti da testi disponibili online da anni.

Controlla tu stesso: https://github.com/friederrr/GHOSTS

Come spiegato nell'appendice B2 dell'articolo, ogni record JSON del
dataset contiene un attributo `ref` il cui valore indica "where the
prompt was originally taken from" e che può essere vuoto "if the
question was formulated by the authors and no authoritative source was
plausible".

I soli prompt inediti, con `ref: ""`, sono quelli di ricerca.

Dunque, ripeto: questi ricercatori NON hanno sottoposto a ChatGPT e
GPT-4 alcun problema inedito, ma solo problemi tratti da eserciziari
disponibili in rete. 

Testi che sono stati usati per la sua programmazione statistica.

Mi dispiace deluderti, ma GPT-4 non ha davvero appreso nulla dai testi
usati per la sua programmazione. Ne produce stralci variamente corrotti
in output perché li contiene in forma compressa (lossy).

Niente di più e niente di meno.

Non sono gli LLM ad avere le allucinazioni, ma coloro che gli
attribuiscono una qualche forma di intelligenza.

Giacomo

Re: [nexa] AI Training is Copyright Infringement

Giacomo Tesio